我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:小鱼儿玄机2站资料 > 平行分布处理 >

人工智能应用的爆炸式成长加速ML算法的处理

归档日期:05-16       文本归类:平行分布处理      文章编辑:爱尚语录

  (ML)算法的处理。各式各样的新兴解决方案都凸显了设计人员在选择硬件平台之前,明确定义应用及其需求的重要性。

  从很多方面来看,AI加速热潮与1990年代末期和2000年代初的DsP淘金热很类似;在那个时候,随着有线和无线通信起飞,市场上纷纷推出高性能DSP协同处理器(co-processor)以因应基带处理的挑战。与DSP协同处理器一样,AI加速器的目标是找到最快速、最节能的方法来执行所需的运算任务。

  神经网络处理背后的数学,涉及统计学、多元微积分(multivariable calculus)、线性代数、数值优化(numerical optiMIzation)和机率等;虽然很复杂,也是高度可平行化的(parallelizable)。但事实上这是令人尴尬的可平行化──与分布式计算不同,在路径的输出被重组并产生输出结果之前,很容易被分解为没有分支(branches)或从属关系(dependencies)的平行路径。

  在各种神经网络算法中,卷积神经网络(CNN)特别擅长对象识别类任务——也就是从影像中过滤筛选出感兴趣的对象。CNN以多维矩阵(multidimensional matrices)──即张量(tensor)──架构来理解资料,将超出第三个维度的每个维度都嵌入到子数组中(如图1),每个添加的维度称为“阶”(order),因此,五阶张量会有五个维度。

  图1:CNN以张量架构摄取数据,也就是可被可视化为3D立方体的数字矩阵(数据集);每个数组中还有一个子数组,该数字定义了CNN的深度。

  这种多维分层对于理解CNN所需之加速的本质很重要,卷积过程使用乘法在数学上将两个函数“卷绕”(roll)在一起,因此广泛使用乘加(multiply-accumulate,MAC)数学运算;举例来说,在对象识别中,一个函数是源影像,另一个函数是用来识别特征然后将其映像到特征空间的过滤器(filter)。每个过滤器都要多次执行这种“卷绕”,以识别影像中的不同特征,因此数学运算变得非常重复,且是令人尴尬(或令人愉悦)的可平行化。

  为此,某些AI加速器的设计采用多个独立的处理器核心(高达数百或上千个),与内存子系统一起整合在单芯片中,以减轻数据存取延迟并降低功耗。然而,由于业界已设计了绘图处理器(gpu)来对图像处理功能进行高度平行处理,因此它们对于AI所需的这种神经网络处理也可以实现很好的加速。AI应用的多样性和深度,特别是在语音控制、机器人、自动驾驶和大数据分析等方面,已经吸引了GPU供应商将重点转移到AI处理硬件加速的开发。

  然而AI硬件加速的问题,在于有如此多的数据,所需的准确性和响应时间又有如此大的差别,设计人员必须对于架构的选择非常讲究。例如数据中心是数据密集型的,其重点是尽可能快速处理数据,因此功耗并非特别敏感的因素——尽管能源效率有利于延长设备使用寿命,降低设施的整体能耗和冷却成本,这是合理的考虑。百度的昆仑(Kunlun)处理器耗电量为100W,但运算性能达到260 TOPS,就是一款特别适合数据中心应用的处理器。

  接下来看另一个极端的案例。如关键词语音识别这样的任务需要与云端链接,以使用自然语言识别来执行进一步的命令。现在这种任务在采用法国业者GreenWaves Technologies之GAP8处理器的电池供电边缘设备上就可以实现;该处理器是专为边缘应用设计,强调超低功耗。

  介于中间的应用,如自动驾驶车辆中的摄影机,则需要尽可能接近实时反应,以识别交通号志、其他车辆或行人,同时仍需要最小化功耗,特别是对于电动车来说;这种情况或许需要选择第三种方案。云端连结在此类应用中也很重要,如此才能实时更新所使用的模型和软件,以确保持续提高准确度、反应时间和效率。

  正因为这是一个在软、硬件方面都迅速发展,需要在技术上持续更新的领域,并不建议将AI神经网络(NN)加速器整合到ASIC或是系统级封装(SiP)中——尽管这样的整合具有低功耗、占用空间小、成本低(大量时)和内存访问速度快等优点。加速器、模型和神经网络算法的变动太大,其灵活性远超过指令导向(instruction-driven)方法,只有像Nvidia这种拥有先进技术、资金雄厚的玩家才能够负担得起不断在硬件,而在硬件上根据特定方法进行迭代。

  这种硬件加速器开发工作的一个很好的例子,就是Nvidia在其Tesla V100 GPU中增加了640个Tensor核心,每个核心在一个频率周期内可以执行64次浮点(FP)融合乘加(fused-multiply-add,FMA)运算,可为训练和推理应用提供125 TFLOPS的运算性能。借助该架构,开发人员可以使用FP16和FP32累加的混合精度(mixed precision)进行深度学习训练,指令周期比Nvidia自家上一代Pascal架构高3倍。

  混合精度方法很重要,因为长期以来人们已经认识到,虽然高性能运算(HPC)需要使用32~256位FP的精确运算,但深度神经网络(DNN)不需要这么高的精度;这是因为经常用于训练DNN的反向传播算法(back-propagation algorithm)对误差具有很强的弹性,因此16位半精度(FP16)对神经网络训练就足够了。

  此外,储存FP16数据比储存FP32或FP64数据的内存效率更高,从而可以训练和部署更多的网络,而且对许多网络来说,8位整数运算(integer computation)就足够了,对准确性不会有太大影响。

  这种使用混合精度运算的能力在边缘甚至会更实用,当数据输入的来源是低精度、低动态范围的传感器——例如温度传感器、MEMS惯性传感器(IMU)和压力传感器等——还有低分辨率视频时,开发人员可以折衷精度以取得低功耗。

  可扩充处理(scalable processing)的概念已经扩展到更广泛的网络——利用雾运算(fog computing)概念,透过在网络上的最佳位置执行所需的处理,来弥补边缘和云端之间的能力差距;例如可以在本地物联网(IoT)网关或更接近应用现场的本地端服务器上进行神经网络图像处理,而不必在云端进行。这样做有三个明显的优势:一是能减少由于网络等待时间造成的时延,二来可以更安全,此外还能为必须在云端处理的数据释出可用的网络带宽;在更高的层面上,这种方法也通常更节能。

  因此,许多设计师正在开发内建摄影机、影像预处理和神经网络AI信号链(signal chains)功能的独立产品,这些产品仅在相对较闭回路(closed-loop)的运作中呈现输出,例如已识别标志(自驾车)或人脸(家用安防系统)。在更极端的案例中,例如设置在偏远或难以到达之处,以电池或太阳能供电的设备,可能需要长时间地进行这种处理。

  图2:GreenWave的GAP8采用9个RISC-V处理器核心,针对网络边缘智能设备上的低功耗AI处理进行了优化。

  为了帮助降低这种边缘AI图像处理的功耗,GreenWaves Technologies的GAP8处理器整合了9个RISC-V核心;其中一个核心负责硬件和I/O控制功能,其余8个核心则围绕共享数据和指令内存形成一个丛集(如图2)。这种结构形成了CNN推理引擎加速器,具备额外的RISC-V ISA指令来强化DSP类型的运算。

  GAP8是为网络边缘的智能设备量身打造,在功耗仅几十毫瓦(mW)的情况下可实现8GOPS运算,或者在1mW时可实现200 MOPS运算;它完全可以用C/c++语言来编程,最小待机电流为70nA。

  RISC-V开放性硬件架构在一开始遭到质疑,因为那需要一个忠实稳固的使用者社群,以提供一系列丰富的支持工具和软件;而随着该架构透过各种测试芯片和硬件实作吸引更多开发者加入,那些质疑也逐渐消退。RISC-V吸引人之处在于它正成为Arm处理器的强劲对手,特别是在超低功耗、低成本应用上;只要谈到低成本就会锱铢必较,因此免费方案总是会感觉比需要支付授权费的方案更好。

  不过虽然RISC-V架构的GAP8可以节能并且针对边缘神经网络处理进行了高度优化,从系统开发的角度来看仍然需要考虑周边功能,例如摄影机传感器本身和网络通讯接口,以及是采用有线还是无线技术等;依据系统通讯和处理影像的次数频率,这些功能占用的功耗比例可能较高。根据GreenWaves的说法,GAP8若采用3.6Wh的电池供电,能以每3分钟分类一张QVGA影像的频率持续工作长达10年;但该数字并未考虑整体系统中其他因素的影响。

  虽然GAP8因为拥有八核心架构而呈现更高效率,并能以较低时钟速率与更少的周期实现推理,Arm架构也不遑多让──Arm已经发表了针对行动设备和其他相邻、网络边缘应用的机器学习(ML)处理器,其应用场景包括AR/vr、医疗、消费性电子产品以及无人机等;该架构采用固定功能引擎(fixed-function engines)来执行CNN层,并采用可程序化层(progRammable layer)引擎来执行非卷积层以及实现所选基元(primitive)和运算符(operator),参考图4。

  图4:Arm的ML处理器设计用于CNN类型固定功能以及可程序化层引擎的低功耗边缘处理。

  有趣的是,ML处理器是以高度可扩充架构为基础,因此同一处理器和工具可用于开发从物联网到、嵌入式工业和交通,到网络处理和服务器等各种应用,运算性能要求从20 MOPS到70 TOPS以上不等。

  如果开发团队希望从云端往下扩充,或从边缘往上扩充,那么这种可扩充性比较适合之前讨论的雾运算概念。此外该处理器本身与主流神经网络学习框架紧密整合,例如Google的tensorflow和TensorFlow Lite,以及Caffe和Caffe 2;它还针对Arm Cortexcpu和Arm Mali GPU进行了优化。

  透过ML处理器,Arm还强调了异质(heterogenous)方法对AI应用之神经网络的重要性,但仅限于其CPU和GPU的狭窄范围内。从更广泛的角度来看,英特尔INTEL)的OpenVINO (Visual Inference & Neural Network Optimization,视觉推理和神经网络优化)工具套件可以实现异质混合架构的开发,包括CPU、GPU与fpga,当然还有英特尔自家的Movidius视觉处理器(VPU)和基于Atom的图像处理器(IPU)。利用通用API以及针对OpenCV和OpenVX优化的呼叫(call),英特尔声称其深度学习性能可以提高19倍。

  异质方法对于针对AI的神经网络处理既有好处又不可或缺;当从头开始一个设计,这种方法能开启更多的处理可能性和潜在的优化机会。但许多嵌入式系统已经部署了相关硬件,通常是混合了mcu、CPU、GPU和FPGA,因此如果有开发工具可以在这样的已设置硬件基础上开发AI应用,并透过单一API进行相对应的优化(假设像OpenVINO这样的工具套件是与底层硬件兼容),可以解决很多问题。

  在今年7月初于北京举行的百度开发者大会Create 2018上,该公司发表了昆仑(图5),号称是中国首款从云端到边缘的AI芯片组,包括818-300训练芯片和818-100推理芯片。

  图5:百度的昆仑是中国第一款从云端到边缘的AI处理器芯片组,虽然其架构细节尚未公布,但号称比百度2011年发表、基于FPGA的AI加速器快30倍。

  昆仑号称比百度2011年发表、基于FPGA的AI加速器快30倍,达到260 TOPS@100W;该芯片将采用三星(SAMSung)的14纳米工艺,内存带宽为512GB/s。虽然百度尚未公布其架构参数,但它可能包含数千个核心,能为百度自己的数据中心进行巨量数据的高速平行处理;该公司也有计划针对各种客户端设备和边缘处理应用推出低性能版本。

  在百度的昆仑发表前不久,Google于5月份也发表了TPU 3.0;Google并未透露该芯片细节,只说速度比去年的版本快8倍,达到100 PFLOPS。

  虽然还有许多其他新兴的神经网络处理架构,如果是对“运算性能vs.实时性能要求”有合理期望,目前也有许多处理器和工具套件能充分满足边缘运算需求。例如,基本的家用保全系统可能包括一台摄影机,负责人脸识别处理并透过WI-FI连接到家庭网关或路由器,这用市面上现有的处理器或工具套件就可以实现。

  想尝试这种设计的开发人员不必从零开始,而是只要选择一个已经获得广泛支持的平台,具备各种CPU、视频与图片处理GPU、高速内存、内建无线和有线通讯模块,还有恰当的操作系统支持和广泛、活跃的用户生态系统。

  图6:NXP的i.MX 8M解决了快速启动开发的问题,同时还可以使用基于Arm的处理器来扩展AI应用。

  恩智浦半导体(NXP)的i.MX 8M就是一个合适的起点(图6)。该方案实际上是一系列处理器,配备最多达四个的1.5GHz Arm Cortex-A53和Cortex-M4核心;内含两个GPU类型处理器,一个可用于影像预处理,另一个用于神经网络加速。

  另一个关键设计需求是现场使用寿命要够长,也就是系统要能够耐受恶劣使用环境,特别像是安装在室外的摄影机;还要能随着时间持续更新。后者特别重要,因为设计人员得确保设计中预留足够的空间,以便在功能增加时实现更高的处理性能要求;同时还要保证低功耗,特别是对电池供电产品来说。

  AI加速的重要性在于,其处理能力需求正从传统的CPU和FPGA转移到GPU和VPU,或者所有以上处理器的异质组合;当然这取决于应用。在此同时,即使针对越来越庞大数据集的AI加速成为主流,CPU的关键控制功能仍将保持不变。

  文章出处:【微信号:mcuworld,微信公众号:嵌入式资讯精选】欢迎添加关注!文章转载请注明出处。

  主题简介:本次直播主要讲解四轴机器人控制器基本原理及组成。四轴机器人的核心技术内嵌人工智能算法的工业级运动控制技术和伺服

  主题简介:本次直播主要讲解四轴机器人控制器基本原理及组成。四轴机器人的核心技术内嵌人工智能算法的工业级运动控制技术和伺服

  随着机器人行业的不断发展,机器人和商业的结合也变得不再罕见。目前,各式各样的服务机器人开始频繁在一些....

  比原链是一种多元比特资产的交互协议,其共识机制选择了对人工智能ASIC芯片友好的PoW算法。传统的P....

  5月13日,为期三天的“第21届北京国际玩具及幼教用品展览会暨北京国际幼儿园用品及配套设备展览会”在....

  2018年,全球VR/AR市场规模约137亿美元,同比增长约50%。过去三年,VR/AR行业保持了5....

  以前打电线%是跟人通话,现在不知不觉中我们要越来越多的面对智能机器,那些客服、推广和行业机器人....

  华为面向全球发布了人工智能原生数据库GaussDB和业界性能第一的分布式存储FusionStorage 8.0

  华为围绕异构、智能、融合三大方向重定义数据处理平台,此次华为面向全球发布人工智能原生(AI-Nati....

  近日,巴黎圣母院突发大火,其标志性的塔尖倒塌,令全球惋惜。据法国内政部门消息,当时消防部门紧急派遣一....

  随着人工智能的快速发展,在恶劣的工作环境下,用机器人替代人工的做法越来越广泛,在2019数博会人工智....

  目前上述三个人工智能应用场景中,边缘计算尚处于概念验证阶段,预计未来几年随着5G和无人驾驶、机器人、....

  对于那些无法说话的人来说,这是一项重大进步,因为这项技术创造了一种直接将思想转换成言语的途径。

  近日,由微软(中国)有限公司携手张江集团在浦东新区打造的微软人工智能和物联网实验室正式启用并投入运营....

  为了提高对创伤患者救护过程中的医疗能力,Krieger希望为救护车配备一个通过机器学习(ML)增强的....

  一是行业发展大势所趋。长期以来,数据库的市场规模在软件行业里一直是最大的板块,几乎所有的互联网公司都....

  上个月在杭州召开的学术交流会议上,国家自然科学基金前负责人杨卫介绍了试点数据。该工具的试用版本从去年....

  普渡大学研究团队根据蜂鸟的身体构造和行为模式,制造了一款仿生蜂鸟机器人

  其实蜂鸟机器人并非普渡大学首创,科学家对蜂鸟的研究由来已久。2011年,由美国国防部DARPA委托A....

  以南京大学周志华教授及其合作者为例。他们在信息三处申报项目,但图2同时显示他们与二处计算机方向合作紧....

  Facebook开源了两款基于PyTorch的实验框架Ax和BoTorch

  从概念上讲,Ax是一个优化实验平台,比如A / B测试,模拟或机器学习模型实验等。Ax提供了一个易用....

  此外,对于大多数消费者而言,自动驾驶要给大众真真实实的获得感,就是量产。自动驾驶量产既是产业的无人区....

  印度研究人员日前报告说,他们成功用3D生物打印技术打印出人造皮肤,具有与天然人体皮肤相似的解剖学结构....

  中国工程院院士潘云鹤在峰会上作了题为《AI及机器人的新方向》的主旨演讲

  最后大家发现机械手也不需要,我们只需要把钢琴自动化就够了。这就是一个现在已经做得非常好的自动化钢琴,....

  商汤科技以“大爱[AI]无疆”为主题召开第二届人工智能峰会,现场发布了一系列创新的人工智能产品及解决....

  屡获殊荣的电影制作人Kevin Macdonald在去年第一次尝试了拍摄由机器编写剧本的影片。

  一直以来,高通在推动终端侧人工智能芯片的应用方面不遗余力。现在这家全球最大的手机芯片提供商又推出了面....

  根据传统的研发模式,人脸识别功能的开发需要10-20人团队,并且需要相当长的一段时间,同时还需要许多....

  近日,第三届上汽通用/泛亚汽车软件质量大会在上海举行。本届大会以“聚智创新 共驱未来”为主题,吸引了....

  人工智能引爆了产业的变革,各行各业的企业应用人工智能的意愿也越来越强烈。目前整个亚太地区来看,半数以....

  随着科技的不断发展,一些在功能上具有相互补充作用的技术正在不可避免地发生结合——例如,人工智能(AI....

  经过几年的发展,视频内容已经从标清到高清,再到超高清时代。在国内,1992年推出标清视频标准,也就是....

  该报告称,中型呼叫中心采用数字优先方法;全球领先的全渠道客户体验和联络中心解决方案提供商Genesy....

  人工智能(AI)技术有望在各行各业产生重大的影响,医疗健康系统就是其中一个。比如与真人放射科医师相比....

  AI芯片的设计、制造流程与其他芯片类似,由设计、制造、封装测试等环节组成。AI芯片设计公司下游为应用....

  这些应用一直是FPGA的传统应用领域,特别是在诸如视频会议、投影、显示屏等场合。因此,就像在公布收购....

  三菱电机宣布已收购了美国一家技术创业公司Realtime Robotics的股权,该公司致力于开发运....

  历史的车轮滚滚向前,将人类带入了信息技术与人工智能技术唱双主角的时代。在这个时代大幕缓缓拉开的关口,....

  慢慢的,随着Nets越来越老,越来越聪明,他们开始在See-Far中发现越来越多的信号模式。他们发现....

  在YouOnly PropagateOnce(YOPO)的算法中,研究人员开发了出一种加速对抗训练的....

  人类和部分动物都具有一种数量感知能力,不需要刻意数数,就能凭借视觉对数量多少得出一个基本判断,甚至直....

  “发展相互保险是我国多层次保险市场体系建设迈出的全新步伐。信美作为试点之一,将聚焦用户的养老和健康两....

  确保均值为零,并保持每层输入方差值不变,可以保证信号不会爆炸或消失。该方法既适用于前向传播(用于激活....

  美国加州分子制造研究所的一项新研究项目“人脑/云接口系统”,可以将纳米机器植入人体

  研究人员在论文中说,一个稳定、安全、实时的系统可以将云与人脑连接起来。实现这样一个系统的一种有希望的....

  图形数据可以与很多学习任务一起使用,在元素之间包含很多丰富的关联数据。例如,物理系统建模、预测蛋白质....

  人类通过眼睛,能感知外界事物的状态,并指导我们作出相应的反应与行为。如果汽车也拥有和人类一样的视觉,....

  太古计算与南京时代大数据研究院达成战略合作,签约仪式在深圳太古总部举行,此次合作双方将在打造AI人工....

  经过7年的发展,滴滴现在已经成为全球领先的一站式出行平台,每天服务三千多万个用户和几百万司机,每天处....

  随着人工智能逐渐进入人类的生活,一方面为人类带来了便利,一方面也带来了挑战。

  日前,O‘Reilly 公司在伦敦Strata举办了一个为期数天的数据会议,与会者为此更好地了解大数....

  这些企业正试图利用先进算法,利用数字数据和计算能力的爆炸式增长,实现人与机器之间的协作和自然交互。

  想要准确定义我们所说的常识可能有点难。常识可以基于某种文化,比如生活在某一地区的人都知道这种花有毒,而你作为游客却不知道...

  为了方便大家查找技术资料,从今天开始,每个星期都会有一个社区资料总贴,同时也会选取一周的每天看电路和直播,让大家可以结合...

  【Elecfans社区精华帖】(190509):【限时免费领取】超值200G人工智能零基础最全学习资料包

  电子发烧友总结了以“算法”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载相关资...

  电子发烧友总结了以“可穿戴技术”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载...

  电子发烧友总结了以“神经网络”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载相...

  电子发烧友总结了以“Python”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载相关...

本文链接:http://noh1.net/pingxingfenbuchuli/57.html

上一篇:没有了

下一篇:水泵常见故障分析及处理方法