英伟达揭示新版 TensorRT-LLM：推理能力增长 5 倍，适用于 8GB 以上显卡本地运行，并支持 OpenAI 的 Chat API

11 月 16 日消息，微软 ignite 2023 大会已于今天拉开帷幕，英伟达高管出席本次大会并宣布更新 tensorrt-llm，添加了对 openai chat api 的支持。
英伟达在今年10月份发布了tensor rt-llm开源库，旨在为数据中心和windows pc提供支持。这一开源库的最大特点是，当windows pc搭载英伟达的geforce rtx gpu时，tensorrt-llm能够将llm在windows pc上的运行速度提高四倍
英伟达在今天 ignite 2023 大会上，宣布更新 tensorrt-llm，添加 openai 的 chat api 支持，并增强 directml 功能，改善 llama 2 和 stable diffusion 等 ai 模型的性能。
tensorrt-llm 可以在本地使用英伟达的 ai workbench 完成。开发者可以利用这个统一且易于使用的工具包，在个人电脑或工作站上快速创建、测试和定制预训练的生成式 ai 模型和 llm。英伟达还为此推出了一个抢先体验注册页面
英伟达将于本月晚些时候发布 tensorrt-llm 0.6.0 版本更新，推理性能提高 5 倍，并支持 mistral 7b 和 nemotron-3 8b 等其它主流 llm。
在8gb显存以上的geforce rtx 30系列和40系列gpu上，用户可以运行，并且一些便携式windows设备也可以使用快速、准确的本地llm功能
以上就是英伟达揭示新版 tensorrt-llm：推理能力增长 5 倍，适用于 8gb 以上显卡本地运行，并支持 openai 的 chat api的详细内容。

英伟达揭示新版 TensorRT-LLM：推理能力增长 5 倍，适用于 8GB 以上显卡本地运行，并支持 OpenAI 的 Chat API

推荐信息