6月28日消息,ai技术的蓬勃发展使得nvidia的显卡成为市场上备受瞩目的热门产品。尤其是高端的h100加速卡,其售价超过25万元,然而市场供不应求。该加速卡的性能也非常惊人,最新的ai测试结果显示,基于gpt-3的大语言模型训练任务刷新了记录,完成时间仅为11分钟。
据小编了解,机器学习及人工智能领域的开放产业联盟mlcommons发布了最新的mlperf基准评测。其中包括8个负载测试,其中就包含基于gpt-3开源模型的llm大语言模型测试,这对于评估平台的ai性能提出了很高的要求。
参与测试的nvidia平台由896个intel至强8462y+处理器和3584个h100加速卡组成,是所有参与平台中唯一能够完成所有测试的。并且,nvidia平台刷新了记录。在关键的基于gpt-3的大语言模型训练任务中,h100平台仅用了10.94分钟,与之相比,采用96个至强8380处理器和96个habana gaudi2 ai芯片构建的intel平台完成同样测试所需的时间为311.94分钟。
h100平台的性能几乎是intel平台的30倍,当然,两套平台的规模存在很大差异。但即便只使用768个h100加速卡进行训练,所需时间仍然只有45.6分钟,远远超过采用intel平台的ai芯片。
h100加速卡采用gh100 gpu核心,定制版台积电4nm工艺制造,拥有800亿个晶体管。它集成了18432个cuda核心、576个张量核心和60mb的二级缓存,支持6144-bit hbm高带宽内存以及pcie 5.0接口。
h100计算卡提供sxm和pcie 5.0两种样式。sxm版本拥有15872个cuda核心和528个tensor核心,而pcie 5.0版本则拥有14952个cuda核心和456个tensor核心。该卡的功耗最高可达700w。
就性能而言,h100加速卡在fp64/fp32计算方面能够达到每秒60万亿次的计算能力,而在fp16计算方面达到每秒2000万亿次的计算能力。此外,它还支持tf32计算,每秒可达到1000万亿次,是a100的三倍。而在fp8计算方面,h100加速卡的性能可达每秒4000万亿次,是a100的六倍。
以上就是基于gpt-3的大语言模型训练任务刷新记录:nvidia h100加速卡仅用11分钟的详细内容。