网站首页 > 包装设计> 文章内容

AI计算芯片现状AI芯片创新与设计工具及生态之间的矛盾

※发布时间:2021-1-3 4:33:11   ※发布作者:habao   ※出自何处: 

  延安特大凶杀案人工智能应用的蓬勃发展对算力提出了非常迫切的要求。由于摩尔定律已经失效,定制计算将成为主流方向,因而新型的芯片开始层出不穷,竞争也日趋白热。参与这一竞争的不光是传统的半导体芯片厂商,大型的互联网和终端设备企业依托于自身庞大的应用规模,直接从自身业务需求出发,参与到AI芯片的开发行列。这其中以方案已经形成规模庞大的生态体系,谷歌的TPU则形成了互联网定义AI芯片的标杆,其余各家依托各自需求和优势,提出了多类解决方案。本文将简要梳理目前各家技术进展状态,结合人工智能应用的发展趋势,对影响AI芯片未来发展趋势的主要因素做出一个探讨。

  目前AI芯片领域主要的供应商仍然是英伟达,英伟达保持了极大的投入力度,快速提高GPU的核能,增加新型功能,保持了在AI训练市场的霸主地位,并积极拓展嵌入式产品形态,推出Xavier系列。互联网领域,谷歌推出TPU3.0,峰值性能达到100pflops,保持了专用加速处理器的领先地位。同时华为、百度、阿里、腾讯依托其庞大应用生态,开始正式入场,相继发布其产品和线图。此外,FPGA技术,因其低延迟、计算架构灵活可定制,正在受到越来越多的关注,微软持续推进在其数据中心部署FPGA,Xilinx和Intel俩家不约而同把FPGA未来市场中心放到数据中心市场。Xilinx更是推出了划时代的ACAP,第一次将其产品定位到超越FPGA的范畴。相较云端高性能AI芯片,面向物联网的AI专用芯片门槛要低很多,因此也吸引了众多小体量公司参与。

  2018年1月,英伟达发布了首个自动驾驶处理器——Xavier。这款芯片具有非常复杂的结构,内置六种处理器,超过90亿个晶体管,可以处理海量数据。Xavier的GMSL(千兆多串行链)高速IO将其与迄今为止最大阵列的激光雷达、雷达和摄像头传感器连接起来。

  2018年3月,NVIDIA发布首款2-petaFLOPS系统——DGX-2。它整合了16个完全互联的GPU,使深度学习性能提升10倍。有了DGX-2,模型的复杂性和规模不再受传统架构的约束。与传统的x85架构相比,DGX-2训练ResNet-50的性能相当于300台配备双英特尔至强GoldCPU服务器的性能,后者的成本超过270美元。

  2018年10月,华为正式发布两款AI芯片:昇腾910和昇腾310。预计下一年第二季度正式上市。华为昇腾910采用7nm工艺,达芬奇架构,半精度(FP16)可达256TeraFLOPS,整数精度(INT8)可达512TeraOPS,自带128通道全高清视频解码器H.264/265,最大功耗350W。华为昇腾310采用12nmFFC工艺,达芬奇架构,半精度(FP16)可达8TeraFLOPS,整数精度(INT8)可达16TeraOPS,自带16通道全高清视频解码器H.264/265,最大功耗8W。

  2018年5月,寒武纪推出第一款智能处理板卡——MLU100。搭载了寒武纪MLU100芯片,为云端推理提供强大的运算能力支撑。等效理论计算能力高达128TOPS,支持4通道64bitECCDDR4内存,并支持多种容量。1M是第三代机器学习专用芯片,使用TSMC7nm工艺生产,其8位运算效能比达5Tops/watt(每瓦5万亿次运算)。寒武纪1M处理器延续了前两代IP产品(1H/1A)的完备性,可支持CNN、RNN、SOM等多种深度学习模型,此次又进一步支持了SVM、K-NN、K-Means、决策树等经典机器学习算法的加速。这款芯片支持帮助终端设备进行本地训练,可为视觉、语音、自然语言处理等任务提供高效计算平台。

  ▌地平线月,地平线自主设计研发了中国首款嵌入式人工智能视觉芯片——旭日1.0和征程1.0。旭日1.0是面向智能摄像头的处理器,具备在前端实现大规模人脸检测、视频结构化的处理能力,可广泛用于智能城市、智能商业等场景。征程1.0是面向自动驾驶的处理器,可同时对行人、机动车、非机动车、车道线交通标识等多类目标进行精准的实时监测和识别,实现FCW/LDW/JACC等高级别辅助驾驶功能。

  2018年10月,比特正式发布边缘计算人工智能芯片BM1880,可提供1TOPS@INT8算力。推出面向深度学习领域的第二代张量计算处理器BM1682,峰值性能达3TFLOPSFP32。

  智能终端以及基于BM1880的开发板、AI模块、算力棒等产品。BM1682芯片量产发布,峰值算力达到3TFlops,功耗为30W。▌百度:昆仑芯片

  2018年7月,百度AI开发者大会上李彦宏正式宣布研发AI芯片——昆仑。这款AI芯片适合对AI、深度学习有需求的厂商、机构等。借助着昆仑AI芯片强劲的运算性能,未来有望应用到

  芯片——Ali-NPU。其主要用途是图像视频分析、机器学习等AI推理计算。9月,在云栖大会上,阿里巴巴正式宣布合并中天微达摩院团队,成立平头哥半导体芯片公司。▌Xilinx:ACAP、收购深鉴科技

  宣布推出一款超越FPGA功能的新产品——ACAP(自适应计算加速平台)。其核心是新一代的FPGA架构。10月,发布最新基于7nm工艺的ACAP平台的第一款处理器——Versal。其使用多种计算加速技术,可以为任何应用程序提供强大的异构加速。VersalPrime系列和VersalAICore系列产品也将于2019年推出。2018年7月,赛灵思宣布收购深鉴科技。

  技术线上,面向通用市场的英伟达持续推进GPU技术发展,但是大型云服务商也不愿陷入被动,结合自身规模庞大的应用需求,比较容易定义一款适合的AI芯片,相应的应用打磨也比较好解决。同时,新的芯片平台都会带来生态系统的。但是对于普通用户,竞争会带来价格上的好处。由于AI算力需求飞速提升,短期内AI芯片市场还会进一步多样化。

  中国依托于庞大市场规模,以及AI应用技术的大力投资,非常有机会在AI相关领域取得突破。但是受到《瓦森那协议》以及近期中美贸易战等因素影响,中美在

  产业层面展开了激烈的竞争。AI芯片有机会为中国带来破局的机会,因此后期可以预期,国内会有更多的资金投入到AI芯片领域。▌专用与通用间的矛盾

  云端市场由于各大巨头高度垄断,会形成多个相对封闭的AI芯片方案。而边缘端市场由于高度分散,局部市场难以形成完整的技术生态体系,生态建设会围绕主流核心技术拓展,包括

  Risc-V、NVDLA等。各大掌握核心技术的厂商,也会迎合这一趋势,尽可能占领更大的生态份额,积极技术给中小企业开发各类AI芯片。▌AI芯片创新与设计工具及生态之间的矛盾

  以FPGA为例,学界和业界仍然没有开创性的方法简化FPGA的开发,这是现阶段制约FPGA广泛使用的最大障碍。和PU

  电进行直接描述,这样,一方面需要工程师拥有很高的硬件专业知识,另一方面在开发复杂的算法时会有更久的迭代周期。因此,FPGA标榜的可编程能力与其复杂的编程模型之间,形成了鲜明的矛盾。近五到十年来,高层次综合(HighLevelSynthesis-HLS)一直是FPGA学术界研究的热点,其重点就是希望设计更加高层次的编程模型和工具,利用现有的编程语言比如C、C++等,对FPGA进行设计开发。在工业界,两大FPGA公司都选择支持基于OpenCL的FPGA高层次开发,并分别发布了自己的API和SDK等开发工具。这在一定程度上降低了FPGA的开发难度,使得C语言程序员可以尝试在FPGA平台上进行算法开发,特别是针对人工智能的相关应用。尽管如此,程序员仍然需要懂得基本的FPGA体系结构和设计约束,这样才能写出更加高效的OpenCL/HLS模型。因此,尽管有不少尝试OpenCL/HLS进行产品开发的公司,但是目前国内实际能够掌握这类设计方法的公司还常稀缺。各家专用AI芯片厂商,都需要建立自己相对的应用开发工具链,这个投入通常比开发芯片本身还要庞大,成熟周期也慢很多。Xilinx对深鉴的收购有效补充了其在AI应用开发方面的工具短板。近期Intel开源了OpenVINO,也是在推动其AI及FPGA生态。也有少数在FPGA领域有长期积累的团队,例如深维科技在为市场提供定制FPGA加速方案,可以对应用生态产生有效促进作用。

  主要云服务商以及终端提供商都会围绕自家优势产品平台发展AI芯片,云端AI芯片投入巨大,主流技术快速进化,国内企业需要重视AI芯片的隐性投入:设计开发工具、可重用资源和生态伙伴。不过近期不大可能迅速形成整合的局面,竞争会进一步加剧。在端上,基于DSA/RISC-V的AI芯片更多出现在边缘端AI+

  以GoogleTPU为代表的专用AI芯片在峰值性能上较GPU有一定优势。确定性是TPU另一个优势。CPU和GPU需要考虑各种任务上的性能优化,因此会有越来越复杂的机制,带来的副作用就是这些处理器的行为非常难以预测。而使用TPU能轻易预测运行一个神经网络并得出模型与推测结果需要多长时间,这样就能让芯片以吞吐量接近峰值的状态运行,同时严格控制延迟。不过,TPU的性能优势使得它的灵活性较弱,这也是

  芯片的常见属性。充分针对性优化的架构也可以得到最佳的能效比。但是开发一款高性能专用芯片的投入常高昂的,通常周期也需要至少15个月。FPGA以及新一代ACAP芯片,则具备了高度的灵活性,可以根据需求定义计算架构,开发周期远远小于设计一款专用芯片。但是由于可编程资源必不可少的冗余,FPGA的能效比以及价格通常比专用芯片要差很多。但是ACAP的出现,引入了AI核的优点,势必会进一步拉近与专用芯片的差距。随着FPGA应用生态的逐步成熟,FPGA的优势也会逐渐为更多用户所了解。

  总而言之,AI芯片的“战国时代”大幕已经拉开,各“诸侯”争相割据一方,谋求霸业,大家难以独善其身,合纵连横、百家争鸣将成为常态。这也必定会是一个英雄辈出的时代。

  

关键词:ai设计教程