首页 · 快讯 · 正文

寒武纪发布两款全新AI加速卡,均搭载思元370芯片

       日前,寒武纪发布全新AI芯片思元370,并推出两款基于思元370的加速卡,与上一代产品相比,在性能、功耗方面都有更为卓越的表现。以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。此外,对标准ResNet-50v1进行软件定制优化后,MLU370-X4加速卡性能高达30204fps。

       在Cambricon Neuware SDK上实测,在常用的4个深度学习网络模型上,MLU370-S4加速卡的性能平均接近市场主流70W GPU的2倍。而在能效方面,MLU370-S4优势更为明显,处理相同AI任务相较于70W GPU用电量减少50%以上,将有力地帮助用户实现“双碳”目标。

*测试环境:MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU数据来自于相关产品官网。

       MLU370-X4加速卡INT8算力可达256TOPS,加强了FP16、FP32的计算性能,新增BF16计算类型,性能较上一代产品有大幅提升,以YOLOv3为例,MLU370-X4的性能是150W GPU性能的1.5倍,能效为GPU的2.5倍。

*测试环境:MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU数据:ResNet-50来自于相关产品官网,Transformer、VGG16、YOLOv3均取自实测最大吞吐性能。

       根据介绍,新一代寒武纪思元370芯片,是其第三代云端推训一体芯片。思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,采用7nm制程工艺,集成了390亿个晶体管,采用寒武纪第四代智能芯片架构MLUarch03,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。