边缘AI处理器拼的不仅是算力和功耗

分享到:

AI应用如同燃起的野火一般,从消费级的手机端,出现在了工业级的超级游轮和航空级的空间站上。然而在边缘端,这些应用遇上了传统应用也挣扎了数年的需求:更高的性能、更大的容量和更低的功耗。

更糟糕的是,机器学习模型正在以指数级的速度增长,每3到5个月就会翻一番。要想应用这些模型的话,传统的计算芯片已经难以利用有限的内存资源和功率提供高性能,连数据中心都在AI工作负载上感到吃力了,更不用说在边缘侧运行的大型模型。为此,边缘AI处理器成了不少芯片大厂和初创企业的发力方向。然而在处理器的选取上,并不是仅仅看算力、功耗和成本而已。

 

边缘AI处理器的选择

首先,AI芯片公司不仅要有硬件开发实力,也要具备强大的AI软件栈和工具。比如英特尔或英伟达之类的厂商,其CPU或GPU设计早已为TensorFlow、Caffe或Pytorch等框架提供了支持,但初创企业自研架构的AI处理器往往需要打造自己的编译器来支持这些框架。

其次,是处理器支持的神经网络精度。多数边缘AI处理器精度并不高,这是因为将神经网络转换为低精度简化了硬件设计,同时也极大地降低了功耗。要想保持高精度的话,往往需要重新训练神经网络。

 

Nvidia - Jetson Xavier NX

英伟达于2019年公布了一款名为“Jetson Xavier NX”的AI处理器,专门用于边缘系统和嵌入式应用。Jetson Xavier NX只有70mm x 45mm的大小,却可以在15W的功耗下提供21 TOPS(INT8)的AI算力。

mmexport1635820084253.jpg

Jetson Xavier NX / Nvidia

Jetson Xavier NX集成了6核CPU、384核GPU、48个Tensor核心、2个NVDLA深度学习加速器和7路VLIW视觉处理器加速器。其中CPU选用了英伟达Carmel Arm核心,GPU则是基于Volta架构。该处理器还配备了8GB 128位的LDDR4x内存,可提供59.7GB/s的带宽性能。

英伟达已经为用户提供了开发者套件,可以创建高性能的AI应用,并快速部署深度神经网络模型和常见的机器学习框架,比如Tensorflow和Pytorch等,除此之外也可以用到cuDNN、TensorRT和DeepStream等一系列软件库和加速工具。

Jetson Xavier NX最大的优势在于其Jetson产品线全部基于同一软件栈,所以可以直接套用更强大的Jetson AGX Xavier上的AI应用,只不过算力要稍低一截而已。凭借其21TOPS的AI算力,加上加速器提供的视频处理器性能,可以毫无压力地完成人体识别、自研语言处理、姿势检测和注视检测等AI应用,适用于自动光学检测和智能摄像头等一系列边缘IoT设备。

 

Hailo - Hailo-8

mmexport1635820087403.jpg

Hailo-8 / Hailo

Hailo是一家来自于以色列的AI芯片公司,不少核心开发成员来自于以色列国防科技部门,主要负责为边缘设备开发高性能的AI处理器。早在2019年,Hailo就公布了其自研的边缘AI处理器Hailo-8,其算力可达26TOPS(INT8),但该处理器的典型功耗仅有2.5W。在完成了多轮融资后,Hailo也在今年开始了Hailo-8的量产。

mmexport1635820089903.jpg

 

Hailo-8与Jetson产品的对比 / Hailo

与传统的CPU、GPU、DSP或硬件加速器的架构不同,Hailo在这款处理器上运用了自研的结构定义数据流架构。在ResNet-50的神经网络测试中,Hailo-8取得了1330FPS@3.2W的成绩。Hailo还在官网晒出出了Hailo-8与英伟达Jetson Nano与Xavier NX在ResNet和SSD_MobileNet等模型下的预期表现对比,我们从上图可以看出,Hailo-8在性能上优势明显,能耗比更是让英伟达的两款Jetson处理器望尘莫及。

Hailo还准备好了开源的Model Zoo,其中囊括了物体识别、分类、人脸检测识别等60多种计算机视觉任务的深度学习模型。开发者利用这些预训练的Tensorflow和ONNX模型,只需用上自己的数据重新训练,即可在Hailo设备上迅速创建好原型。

 

Mythic - M1076

mmexport1635820092414.jpg

M1076模拟矩阵处理器 / Mythic

美国德州的初创公司Mythic推出了利用存内计算技术的M1076模拟矩阵处理器(AMP)。单个M1076芯片的面积只有360mm2,却可以在3W至4W的功耗下提供35 TOPS的算力,与常见的SoC或GPU方案相比,功耗低了10倍以上。

但这并不是M1076的最大特色,与传统数字计算方式不同,Mythic在M1076上运用了模拟计算。模拟计算虽然理论上要要与数字计算,但长久以来收到尺寸的限制,在速度与扩展性上一直提不上去。然而Mythic通过将模拟运算与嵌入式闪存结合,选择了存内计算的方式。

M1076同时支持INT4、INT8和INT16三种数据类型,非常适合作为TinyML的开发平台。Mythic也为客户提供了物体识别/分类、图像分割和姿势评估等模型,可用于AR/VR中的智能健身和游戏等应用。

 

小结

云计算在边缘端的弱势使得边缘AI处理器有了崛起的机会,在工业4.0、自动化系统和智能IoT的潮流下,边缘AI还需要继续开拓应用场景,而不仅仅是用于机器视觉任务。边缘AI处理器厂商也必须继续提供更多的模型,帮助开发者加速边缘AI应用的落地。

 
继续阅读
百度再获5项中国专利奖,AI领域高级别奖项累计第一

日前,第二十三届中国专利奖评选结果揭晓,百度再获5项中国专利奖。其中,银奖2项、优秀奖3项,涉及自动驾驶、计算机视觉、自然语言处理、地图等领域。截止目前,百度已累计斩获13项AI中国专利奖,包括1项金奖,6项银奖,AI领域高级别奖项累计第一。

传美商务部对华实施AI芯片设计软件(EDA)出口限制

根据外媒Protocol最新报道称,为了缓解中国大陆制造先进芯片的能力,美国准备对特定的芯片设计软件实施出口限制,该软件对于生产人工智能(AI)应用所需最先进芯片至关重要。

苹果公布新AI研究GAUDI,可通过文字来合成3D场景

近期,苹果机器学习科研人员Miguel Angel Bautista和团队研发了一种可以通过文字来合成3D场景的AI系统:GAUDI。据悉,GAUDI是一种生成式AI模型,其特点是是解决了对参数化3D辐射场的学习难题,苹果将其称为“可合成3D场景的神经架构师”。

韩国开发AI学习新技术 能让联合学习速度加快4.5倍

近日,韩国开发出了将可以在多数移动机器上学习人工智能(AI)模型的“联合学习”技术学习速度加快4.5倍的方法论。韩国科学技术院称,这是李成柱教授组通过国际共同研究取得的成果。

AI预测超过2亿个蛋白质结构

据英国《新科学家》杂志网站近日报道,总部位于英国的人工智能公司“深度思维”宣布,将公布超2亿个蛋白质的结构。该公司在短短18个月内,凭借“阿尔法折叠”算法,预测了迄今被编目的几乎所有蛋白质的结构,破解了生物学领域最重大的挑战之一,将助力应对抗生素耐药性、加速药物开发并彻底改变基础科学。

精彩活动