最新资讯

从帝国理工走出的中国AI芯片新人,造出全球首款量产数据流AI芯!

原标题:从帝国理工走出的中国AI芯片新人,造出全球首款量产数据流AI芯!

芯东西(ID:aichip001)

文 | 心缘

不知是否疫情使然,相较去年人造智能(AI)芯片周围炎火朝天的发布潮,从今年开年至今,鲜稀奇国内AI芯片玩家发布新产品。

而谈及AI芯片,人们也不再局限于只看峰值性能和最大功耗,关偏重心逐渐回归到需求自己:能落地哪些场景?好不好用?行使寿命有众长?物理成本够不足矮?……

这些题目对答芯片的特性,可总结为几个关键词:算力性价比、架构通用性、柔件易用性。

就在昨天,6月23日,一家深圳AI芯片创企鲲云科技推出其首款数据流AI芯片CAISA,在这三个特性上均有特出的外现。

CAISA芯片是面向边缘和云端高性能AI推理芯片,已量产,峰值性能达10.9TOPS,有卓异的通用性和易用的柔件工具链,并且芯片行使率最高可达95.4%,较同类产品升迁了10倍,也就意味着更高的算力性价比。

根据中国人造智能产业发展联盟(AIIA)的数据,CAISA芯片仅用1/3的峰值算力,即可实现英伟达同类产品(NVIDIA T4)最高3.91倍的实测性能。

打开全文

相比之下,有些芯片尽管理论峰值算力很高,但在实际行使中不及将算力十足发挥出来,实测算力还不到峰值算力的1/3。

同时,基于CAISA芯片的星空X3添速卡已在伶俐城市、伶俐制造、安监生产、轨道交通、智能遥感等周围均有落地。

那么鲲云科技是如何突破传统芯片架构对芯片行使率的收敛呢?又如何做到帮用户省钱呢?

这源自鲲云选择了一条截然差别的路线。

一、 从帝国理工学院走出的创业新人

2010年,从复旦大学电子工程系卒业后,23岁的牛昕宇前赴英国帝国理工学院不息深造,师从帝国理工学院教授、英国皇家科学院院士、IEEE会士、BCS会士陆永青(Wayne Luk)。

陆永青是全球定制计算周围赫赫著名的学术大牛,也是全球AI芯片周围唯逐一位英国皇家科学院、英国工程学会、英国计算机学会的三院院士。

定制计算从用户详细行使的需求起程,议定柔硬件协同的设计工具,以定制处理器的形态来适配行使需求,从而在一致硅单方积上实现更高的计算性能。

在帝国理工学院肄业的旅程中,牛昕宇曾拿下全奖博士,并成为学院最年轻的助理钻研员,学术旅程星光熠熠,已准备前去斯坦福大学做博士后。

但五年前的一次回国之旅,转折了牛昕宇的人生规划。

▲鲲云科技CEO牛昕宇博士

2015年,牛昕宇回国参添一个技术论坛做演讲,演讲终结后,有投资人找上门邀请他回国创业。

在陆永青院士的声援下,2016年1月,牛昕宇博士和陆永青院士回国说相符竖立AI芯片公司鲲云科技(Corerain Technologies),公司名取自《闲逸游》,期待公司有朝一日能“青云直上九万里”,成长为一家拥有自立知识产权、技术领先的AI芯片公司。

▲鲲云科技首席科学家陆永青院士

牛昕宇博士任鲲云科技CEO,陆永青院士则在鲲云任首席科学家。

除了这二位创首人外,鲲云早期团队的绝大无数成员均来自帝国理工学院,例如鲲云的另一位说相符创首人CTO蔡权雄是帝国理工学院的博士后。

竖立之初,鲲云科技已经认识到AI芯片与算法、行使亲昵有关,决定挑供垂直周围的全套硬件解决方案,既基于自研AI芯片挑供一体化计算平台设备,也挑供与CAISA芯片配套的周围落地解决方案,大幅降矮鲲云计算平台落地门槛与行使难度。

尽管成立时间只有短短四年,鲲云在商业落地方面已屡有收获。其明星产品“星空”添速卡已在航天航空、卫星遥感、电力、哺育、工业检测、伶俐城市等众个周围落地。

去年6月,鲲云科技成为英特尔全球旗舰FPGA配相符友人,并与浪潮新闻达成元脑计划战略配相符,在AI计算添速方面开展深入配相符。

出于造就人才的考虑,鲲云还于2018年竖立人造智能创新行使钻研院。

除与英特尔配相符进走人造智能课程培训外,鲲云人造智能创新行使钻研院和帝国理工学院、哈尔滨工业大学、北京航空航天大学、天津大学等国内外高校成立了说相符实验室,在定制计算、AI芯片坦然、工业智能等周围开展前沿钻研配相符。

在这一系列落地产品、解决方案和基础钻研的背后,中央技术基础即是鲲云科技自研的定制数据流架构。

二、 首款量产数据流 AI 芯片,突破芯片行使率节制

基于陆永青院士深耕近三十年的数据流定制计算技术,鲲云科技自立研发了一栽新式AI芯片架构——定制数据流架构(Custom AI Streaming Accelerator,CAISA)。

计算架构在赓续演进,每一次计算架构的庞大创新都代外一个新的算力时代。

从x86到RISC计算平台,能效比升迁10倍以上;从x86到CUDA计算平台,峰值算力又升迁10倍众余……从历史脉络来看,新的算力平台需相对上一代主流算力平台在某个指标上高出逾10倍,才能实实际测性能的大幅升迁。

在鲲云看来,下一代有看带来10倍以上突破的AI芯片指标即是芯片行使率。

鲲云研发的CAISA架构,议定众引擎并走的计算手段,突破传统指令集架构的技术节制,能在一致峰值算力条件下,在芯片行使率指标上实现10倍的升迁。

传统指令集架构采用冯诺依曼计算手段,议定指令实走顺序控制计算挨次,并议定别离数据搬运与数据计算挑供计算通用性。

▲基于冯诺依曼的典型指令集架构暗示图

在实际架构中,指令集架构中的芯片计算单元在大局部时间都处于闲置状态,所发挥的性能远矮于芯片峰值算力。

与之差别的是,数据流架构异国指令集,十足依托于数据流的起伏顺序控制计算实走顺序,清除了因指令控制和数据搬运等因素产生的数据支付,大幅降矮计算单元闲置。

▲指令集架构与数据流架构在数据起伏和计算挨次上的区别

与其他架构的AI计算平台相通,定制数据流架构同样面临三个中央挑衅:

(1)算力性价比:用户单位价格能够买到的 AI 算力,越高越好,即在保证计算实在率的前挑下,实现芯片行使率的赓续升迁;

(2)架构通用性:架构对于差别 AI 算法的声援,声援的算法越众越好,这与定制数据流架构深度定制的特性相悖;

(3)柔件易用性:AI 算法迁移至新平台的声援水平,越易用,迁移成本越矮越好,这能够与定制数据流架构邃密底层控制的特性相悖。

鲲云科技的CAISA架构即议准时钟精确计算、流水线动态重组、算法端到端自动化安放这三项中央技术,成功破解了上述三大难题。(吾们将在下一节更详细地介绍这三项技术。)

▲CAISA芯片架构图

现在CAISA架构已经升级到3.0版本。昨日新发布的CAISA芯片搭载了4个CAISA3.0引擎。

该芯片被设计为协添速器,采用28nm工艺,具有超过1.6万个乘累添单元,峰值性能可达10.9TOPS,已完善周详验证并已量产。

CAISA芯片议定PCIe Gen3接口与主处理器通信,议定PCIe通道,处理器能以32Gbps的吞吐量将数据传输到芯片中;同时有双DDR4通道,声援大容量设备侧本地存储器,可为每个CAISA引擎挑供超过340Gbps的带宽。

同时,CAISA芯片的温度周围较宽,-40-125度,包括其他器件都是特意遵命工业级的质量、温度、电池请求来设计。

三、 CAISA 升级 3.0 ,完善三大技术突破

相较上一代架构,CAISA3.0在架构效率、实测性能、算子声援等方面均有清晰升迁,声援绝大无数神经网络模型迅速实现检测、分类和语义分割安放,并在众引擎声援上挑供了4倍更高的并走度选择,架构的可拓展性大大挑高。

在AI芯片内,每一个CAISA都可同时处理AI做事负载,进一步升迁了CAISA架构的性能,在峰值算力升迁6倍的同时,保持了高达95.4%的芯片行使率,实测性能线性升迁。

同时,CAISA3.0架构对编译器RainBuilder更添友谊,柔硬件配相符进一步优化,在体系级别上挑供更好的端到端性能,在挑供高算力的同时,可无缝链接Caffe、TensorFlow及ONNX等众栽主流框架,并声援VGG、ResNet、YOLO等众栽算法模型。

▲CAISA 3.0架构图

详细来说,鲲云CAISA3.0架构的三大技术突破主要议定以着手段实现:

1、时钟精确计算:挑供最优算力性价比

CAISA3.0架构由数据流来驱动计算过程,无指令操作,可实眼前钟级实在的计算,最大限度的缩短硬件计算资源的余暇时间。

在保持计算精确前挑下,CAISA3.0架构议定数据计算与数据起伏的重叠,压缩计算资源的每一个余暇时钟,推高芯片实测性能以挨近芯片物理极限,最新资讯让芯片内的每个时钟、每个计算单元都在实走有效计算。

▲数据起伏与数据计算重叠暗示图

该架构议定算力资源的动态均衡,清除流水线的性能瓶颈;议定数据流的时空映射,最大化复用芯片内的数据流带宽,缩短对外部存储带宽的需求。

上述设计使CNN算法的计算数据在CAISA3.0内能够实现不中止的赓续运算,最高可实现95.4%的芯片行使率;在一致峰值算力条件下,实测算力可超出同类GPU的3倍以上的实测算力,从而为用户挑供更高的算力性价比。

2、流水线动态重组:高架构通用性

CAISA3.0架构议定流水线动态重组,实现对差别深度学习算法的高性能声援。

议定CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人造智能算子模块、局部数据流网、局部数据流缓存的分层设计,在数据流配置器控制下,CAISA架构中的数据流连接有关和运走状态都能够被自动化动态配置,从而生成面向差别AI算法的高性能定制化流水线。

在每个CAISA流水线中,差别数据流模块所挑供的计算吞吐率差别。为进一步升迁芯片行使率,CAISA架构声援差别数据流模块间以串走和并走的手段互联,以均衡差别模块的吞吐率迥异,实现流水线性能的最大化。

所以,CAISA3.0架构能在保证运走每个算法能实现高芯片行使率的同时,通用声援如现在的检测、分类及语义分割等一切主流CNN算法。

3、算法端到端自动化安放:高柔件易用性

柔件易用性也是AI计算平台的中央性能之一。以基于CAISA3.0架构的单颗CAISA芯片为例,其中包含了挨近2万个数据流计算模块。

而要在CAISA芯片内部高效声援一个AI算法运算,必要实在配置2万个数据库模块、一切数据流网络以及数据流缓存的时钟级精确运走状态。伪若异国有效的柔件声援,CAISA架构将特意难用。

对此,鲲云科技打造了专为CAISA定制的柔件工具——RainBuilder自动编译工具链,可实现算法端到端的推理模型自动安放。

▲RainBuilder编译工具链

RainBuilder编译器可自动挑取主流AI开发框架中开发的深度学习算法的网络结议和参数新闻,并面向CAISA架构进走优化;运走时和驱动模块负责硬件管理并为用户挑供标准的API接口,运走时可实现算法向CAISA架构的自动化映射,同时挑供能够被高级说话直接调用的API接口;最底层的驱动能够实现对用户透明的硬件控制。

借助RainBuilder工具,用户无需底层数据流架构背景声援,浅易两步,几走指令,即可实现迅速且矮成本的算法迁移和安放,有效降矮行使门槛。

四、发布两款添速卡,芯片行使率超英伟达 T4

在发布最新CAISA芯片的同时,鲲云科技也发布了基于CAISA芯片的星空系列边缘和数据中央计算平台——X3添速卡和X9添速卡。

不光如此,鲲云科技还现场一并公布了由中国人造智能产业发展联盟(AIIA)测试的包括ResNet-50、YOLO v3等在内的主流深度学习网络的实测性能。此举在国内AI芯片发布会中相等稀奇。

星空X3添速卡是搭载单颗CAISA芯片的数据流架构深度学习猜想计算平台,为工业级半高半长单槽规格的PCIe板卡,已在伶俐城市、伶俐制造、安监生产、轨道交通、智能遥感周围均有落地。

得好于其轻量化的规格特点,X3添速卡可与差别类型的计算机设备进走适配,包括PC、工业计算机、网络视频录像机、做事站、服务器等,已足边缘和高性能场景中的AI计算需求。

本次公布的benchmark网络涵盖了分类、检测和语义分割等深度学习周围三个主要的行使类型。Benchmark表现,一切在星空X3上测试运走的网络均可达65%以上的实测芯片行使率。

相较于英伟达边缘端旗舰产品Xavier,星空X3可实现1.48-4.12倍的实测性能升迁。

星空X9添速卡为搭载4颗CAISA芯片的深度学习猜想板卡,峰值性能43.6TOPS,主要已足高性能场景下的AI计算需求。

与英伟达AI推理旗舰产品T4相比,星空X9在ResNet-50、YOLO v3等模型上的芯片行使率升迁2.84-11.64倍。

在实测性能方面,星空X9在ResNet50可达5240FPS,与T4性能挨近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能升迁。

在达到最优实测性能下,星空X9处理延时相比于T4降矮1.83-32倍。

现在星空X3添速卡已量产,星空X9添速卡将于今年8月上市。

五、 AI 算法周围越大, CAISA 芯片行使率越高

会后,鲲云科技创首人兼CEO牛昕宇博士、鲲云科技相符伙人兼COO王少军博士、鲲云科技相符伙人兼CTO蔡权雄博士、鲲云科技相符伙人兼研发总监熊超博士等高管向媒体谈到更众芯片背后的细节。

▲从左到右挨次为鲲云科技COO王少军博士、CEO牛昕宇博士、CTO蔡权雄博士、研发总监熊超博士

相较其他从事数据流AI芯片技术路线的公司,如Wave Computing和Groq等,蔡权雄博士认为:“鲲云是真实能够商业的第一家。”

蔡权雄博士说,鲲云的团队已在数据流周围积累了三十年,趟过了许众坑,在工程上有许众很辛勤的突破,个中辛勤远异国PPT上写得这么时兴。“吾们做了许众底层很累的做事,这些做事才是整个芯片能真实流片成功、真实商业化、落地化的基石。”

此前CAISA 1.0、2.0架构均安放在FPGA上,这是由于鲲云一方面必要迅速将产品推向市场并得到用户的逆馈,另一方面在异国确定有大量商业订单的情况下以更矮的成本让产品迅速已足客户需求。

“当你的需求量到达肯定量级时,肯定会从FPGA切换成ASIC, 这是芯片实现手段的区别。”牛昕宇博士说,“ASIC相对于FPGA能够挑高更高的峰值算力、更矮的功耗、更矮的成本。云云它自己的性能就会得到大幅升迁。”

在他看来,倘若期待国内有AI芯片企业能够引领AI走业的发展,那肯定倚赖的是它能给一切AI从业者创造真真实正的价值。

牛昕宇博士强调:“这个价值,从买每一颗鲲云的芯片,都能够帮用户省钱,都能够在每一个周围场景中挑供更好的性能、更矮的延时、更好的落地奏效来落地。”

由于CAISA芯片主要针对int8精度做AI推理运算,相比FP32会有肯定精度亏损。

对此,牛昕宇博士介绍道,int8精度影响很幼,鲲云CAISA的精度亏损与TensorRT的精度亏损基本一致,鲲云后续还会挑供再训练的手段,将精度进一步补回来。

另外他也挑到,由于公司发展处于初期阶段,现阶段会凝神于AI推理芯片。

熊超博士添添说,基于现有测试,int8计算的精度亏损维持在0.5%内,议定量化再训练过程,在绝大无数的模型中可做到将精度十足恢复,和原首FP32的终局偏差特意幼,各大AI芯片厂商均在去int8量化倾向上走。

现在AI模型越变越大,更正当CAISA芯片发挥更高的实测算力。

“能够看到,对于同类的网络,比如ResNet50和ResNet152,ResNet152的芯片行使率是更高的,达到95.4%,”牛昕宇博士注释说,“这是由于数据流的特性所决定:越大的网络,流水线越深,所能发挥的实测算力越大。”

在落地方面,据王少军博士泄漏,鲲云的X3添速卡已在一些大客户内部做了实测,总体逆馈特意好,算力性价比、芯片行使率、矮延时奏效、对算子声援、柔件易用性等指标的升迁均已得到验证。

从市场推广角度来说,王少军博士挑到,鲲云不光与艾睿、骏龙、神马、WPI等代理商保持着卓异的配相符有关,而暂时己的AE团队和售后团队均在赓续成长。由于鲲云更众的市场面向国内,对客户可挑供更好的本地化声援。

“商业上,吾们会一个周围一个周围做,跟更众配相符友人推进落地。”牛昕宇博士说,“吾们晓畅这些周围落地的需求,根据这些做出更众产品,来已足客户的请求。这是吾们永远迭代的商用倾向。”

结语: AI 芯片到了拼落地的时刻

图灵奖得主、计算机体系组织宗师David Patterson与John Hennessy曾于去年预告,异日十年将是计算机体系架构的黄金十年。

新的架构优化和升迁正如蒸蒸日上般一向涌现,议定柔件与硬件的结相符,吾们看到算力还在赓续的添长甚至革新。

对于芯片研发者而言,AI的荣华发展无疑创造了一个新的绝佳创新和创业时期,所以以前数年间,国内外涌现出一大批AI芯片创业公司,纷纷追求差别技术路径来已足各类AI算法和行使场景对算力的需求。

但面对巨头及同类初创公司的竞争,AI芯片创企们也承受着着庞大的生存压力,如何以成熟高效且高性价比的产品组相符赢得客户的信任,是每个芯片创企都要做的功课。

从实测性能以及处理延时的领先数据来看,鲲云首款基于自研数据流架构的CAISA芯片外现令人惊喜,从实际落地的性能需求起程,为AI芯片的发展挑供了一条新的技术路线。

与此同时,陪同AI芯片投资炎潮的消减,单凭创新的思想很难吸引到大量的资本,有能力落地和盈余的AI芯片公司才有看永远地生存下去,鲲云科技看首来正是其中之一。

 


Powered by 新巴尔虎右旗淖揽淋浴设备网 @2018 RSS地图 html地图

Copyright 站群 © 2013-2018 360 版权所有