世界杯welcome最新版玩家-性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行

热点资讯

你的位置:世界杯welcome最新版玩家 > 经典案列 > 性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行
性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行
发布日期:2022-11-19 16:01    点击次数:194

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行

3月21日,中国本乡AI翻新企业寒武纪正式宣布了新款演习加速卡“MLU370-X8”,搭载双芯片四芯粒封装的思元370,集成寒武纪MLU-Link多芯互联技能,次要面向AI演习使命。

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行

寒武纪MLU370-X8智能加速卡初度整合了双芯片四芯粒的思元370,也就是每张卡两颗芯片,每颗芯片内封装两个Die,因而可供应两倍于思元370加速卡的内存、编解码资源。

架构基于Cambricon MLUarch03,支持AI演习加速中罕见的FP3二、FP1六、BF1六、INT1六、INT八、INT4数据项目计算,峰值性能划分为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

该卡驳回7nm建造工艺,集成48GB LPDDR5内存,内存带宽614.4GB/s,PCIe 4.0 x16体系接口,整卡最大演习功耗250W,全高全长双插槽盘算,体系主动散热。

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行单卡架构图

经由过程MLU-Link多芯互联技能,供应卡内、卡间互联功用,并专门盘算了MLU-Link桥接卡,可完成4张加速卡为一组、8颗思元370芯片全互联。

每张加速卡通讯吞吐性能200GB/s,经典案列带宽为PCIe 4.0的约莫3.1倍,可高效执行多芯多卡演习、漫衍式推理使命。

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行4卡桥接

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行单机8卡陈列设置

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行4卡桥接拓扑

痛处平易近间数据,Cambricon NeuWare SDK实测,在罕见的4个深度深造网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当。

多卡加速,借助MLU-Link多芯互联技能、Cambricon NeuWare CNCL通讯库的优化,8卡情形下达到更优的并行加速比,YOLOv三、Transformer、BERT、ResNet101演习使命中,8卡并行匀称性能达350W RTX GPU的155%。

寒武纪未吐露对比的NVIDIA 350W RTX GPU是哪一款,从规格来看,350W功耗的如今只要RTX 3090、RTX 3080 Ti。

固然,一个是公用AI加速卡,一个是GPU通用游戏卡,着实没有太大可比性。

MLU370-X8产品定位中高端,与高端演习产品思元290、玄思1000互相联结,进一步雄厚了寒武纪的演习算力交付要领,同时与基于思元370芯粒(chiplet)技能构建的MLU370-X四、MLU370-S4智能加速卡协同,组成完备的云端演习、推理产品组合。

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行单卡性能对比

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行8卡性能对比

性能1.55倍于NV 350W RTX!寒武纪宣布全新AI演习GPU:8卡并行



相关资讯