快科技6月28日消息,今天,机器学习与人工智能开放产业联盟MLCommons公布了AI性能基准测试MLPerf Training 的结果,Intel旗下的Habana Gaudi2深度学习加速器、第四代至强可扩展处理器联合,展现出了优秀的性能。
可以说,Intel这套组合已经成为唯一能够可靠取代NVIDIA GPU的方案。
MLPerf是目前最具信服力的AI性能测试基准,能够在各种解决方案之间进行公平、可重复的性能比较。
(资料图片)
目前,Intel已经拥有超过100次的MLPerf性能测试结果,而且是唯一一个使用行业标准的深度学习生态系统软件,并公开提交CPU结果的厂商。
根据业内当前的普遍观点,生成式AI和大语言模型(LLM)只适合在高性能GPU上运行,但最新数据显示,基于Intel CPU、加速器的组合方案,同样有着极高的效率,而且是开放生态环境,效率与规模不受限制,从而为客户提供极具竞争力的选择。
其中,第四代可扩展至强内置的各种加速器,使其成为在通用CPU处理器上运行大量AI工作负载的理想解决方案,Gaudi则在生成式AI、LLM方面有着优秀的性能,此外Intel还提供了经过优化的、易于编程的开放软件,降低AI部署门槛。
Habana Gaudi2夹层卡
最新的MLPerf 测试结果显示,面对要求极为苛刻的、1750亿参数的GPT-3模型,Habana Gaudi2的性能非常出色,可扩展性也非常灵活:
1、384个加速器上的训练时间仅为分钟——512个NVIDIA H100加速器需要分钟。
2、256个加速器到384个加速器,性能扩展95%,接近线性提升。
3、在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器),以及自然语言处理模型BERT(8个和64个加速器)上,都取得了优异的训练结果。
4、与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%、4%。
5、支持“开箱即用”,客户在本地或在云端使用Gaudi2时,可以获得与本次测试相当的性能结果。
值得一提的是,Gaudi2是仅有的两个向GPT-3大模型训练基准提交性能结果的解决方案之一。
软件层面,本次提交的GPT-3模型基于PyTorch,并采用了当前流行的、隶属微软大规模AI的DeepSpeed优化库,而非定制软件。
DeepSpeed能够同时支持Data、Tensor、Pipeline的三维并行,进一步优化了大语言模型的扩展性能效率。
本次MLPerf 的Gaudi2结果以BF16数据类型提交,在四种不同模型上的性能均优于NVIDIA A100,价格更便宜。
第三季度还会发布对FP8数据类型的软件支持与新功能,预计届时Gaudi2的性能将有明显飞跃,预计性价比将超越NVIDIA H100。
Intel可扩展至强则是向MLPerf 提交的众多解决方案中,唯一基于CPU通用处理器的,也支持“开箱即用”,即在通用系统上部署AI。
MLPerf 四代可扩展至强测试的亮点有:
1、在封闭区,分钟的训练时间即可完成BERT模型,分钟即可完成ResNet-50模型。
2、多节点扩展可以实现几乎线性的性能提升,可达97-100%。
3、BERT模型的开放区扩展至16个节点时,分钟即可完成模型训练。
4、对于较大的RetinaNet模型,16个节点上的训练时间仅为232分钟。
5、基于Intel AMX高级矩阵扩展,可提供显著的“开箱即用”性能提升,覆盖多个框架、端到端数据科学工具,以及广泛的智能解决方案生态系统。
Intel还对比了至强铂金8480+、NVIDIA A100使用不同数据集完成HuggingFace Distilbert模型的结果,分别只需分钟、分钟。
虽然相比对手的分钟、分钟还有差距,但速度已经相当快,尤其是作为通用CPU对比专用GPU达到如此程度,实属不易,这都得益于Intel良好、深入的系统优化。
5月18日,记者在郑州市区的多家商超看到,除了商超大门外,商场内部不同楼层、柜台、餐饮店等区域入口处也都张贴了场所码。消费者扫码进入
5月17日,河南省南阳市博物馆,游客在观看春秋时期的青铜壶。5月18日是国际博物馆日,河南省南阳市多家博物馆开展线上线下活动,让游客感受
一条渠,绵延千里北上,滋润人间心田。2014年12月12日,南水北调中线工程正式通水。从此,甘甜可口的长江水奔腾不息地流经1432公里,流进千
5月14日下午,在上海疫情防控一线奋战39天,总计圆满完成130万管核酸检测任务的河南省援沪核酸检测医疗队队员乘坐飞机回到郑州,受到来自省
X 关闭
X 关闭