H100 推理性能最高提升 8 倍,英伟达发布 TensorRT-LLM 模型

来源:搜狐号-IT之家 时间:2023-09-09 15:07:39


(相关资料图)

IT之家 9 月 9 日消息,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语音模型的推理性能。

英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3(175 B),Llama Falcom(180 B)和 Bloom 模型。

TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。

该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。

在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。

在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。

IT之家在此附上报告原文,感兴趣的用户可以深入阅读。

X 关闭

H100 推理性能最高提升 8 倍,英伟达发布 TensorRT-LLM 模型

IT之家9月9日消息,英伟达今天宣布推出名为TensorRT-LLM,是一个深度优

2023-09-09

麦捷科技董秘回复:星闪是目前新一代无线短距通信技术,用一套标准集合蓝牙和WIFI等传统无线技术的优势

麦捷科技(300319)09月09日在投资者关系平台上答复了投资者关心的问题。

2023-09-09

做一名有温度的幼儿教师!政通幼儿园全体教师追光而行

第39个教师节到来之际,成都市温江区政通幼儿园全体教职工开展以“初心

2023-09-09

《封神第一部》票房破25亿:主创成员立“花式整活”flag

9月7日,据猫眼专业版数据显示,电影《封神第一部》的票房已突破25 48

2023-09-09

河北省抚宁县发布暴雨蓝色预警

抚宁区气象台2023年09月09日07时29分发布暴雨蓝色预警信号:目前大新寨

2023-09-09

劳伦斯体育(劳伦斯T.)

想必现在有很多小伙伴对于劳伦斯,T 方面的知识都比较想要了解,那么今

2023-09-09

股票行情快报:腾达建设(600512)9月8日主力资金净买入203.19万元

截至2023年9月8日收盘,腾达建设(600512)报收于2 64元,上涨0 0%,换手

2023-09-09

外汇市场最新行情走势展望:美元指数再次未能守住105 并可能开始见顶

美元再次成为本周的大赢家,因为欧洲和美国之间的分歧将绿背河列为该等

2023-09-08

意媒:小基耶萨内收肌受伤,预计无缘出战接下来两场欧预赛

直播吧9月8日讯据《pazzidifanta》报道,意大利边锋小基耶萨内收肌存在

2023-09-08

多家券商近日发布公告表示 将于9月11日起对融资保证金比例进行调整

多家券商近日发布公告表示,将于9月11日起对融资保证金比例进行调整。

2023-09-08

Copyright ?  2015-2022 每日科技网版权所有  备案号:浙ICP备2022016517号-15   联系邮箱:5 146 761 13 @qq.com