这是5月24日的新闻,NVIDIA周四宣布,Blackwell GPU成功地打破了4000亿款型号的目标参数的LLM推理速度纪录,称为4 Maverick。如报道,AI参考机构人工分析达到了其第一个性能里程碑,使用Blackwell 8 GPU节点配置DGX B200节点时,每次用户每秒产生1,000个令牌(TPS)。 NVIDIA表示,技术团队通过Tensort-LLM软件电池进行了深入的优化,与预先优化的参考点相比,经过训练的使用Eagle-3技术的解码草案模型和四倍的性能提高了。在最大收益率配置中,整个服务器系统可以达到每秒72,000个令牌。 NVIDIA解释说:“也许解码是一种加速技术,可以预测小型和快速绘制模型的令牌序列,然后通过大型目的地的LLM并行验证。独特的迭代允许Gen以超载其他草案模型为代价。 Blackwell Architecture非常适合超级Llama语言Model 4 Maverick级别。小牛| NVIDIA技术博客