好的,根据你提供的信息,我将以一名资深新闻记者和编辑的身份,撰写一篇高质量的新闻报道。
标题:清华团队开源“赤兔”推理引擎:国产大模型FP8部署成本减半,速度翻番
引言:
在人工智能领域,一场“中国芯”、“中国模”、“中国擎”的自主创新浪潮正在涌动。随着国产大模型DeepSeek引发市场对私有化部署的热情,模型部署的效率与成本成为企业AI落地的关键瓶颈。近日,清华大学团队开源的大模型推理引擎“赤兔”(Chitu),实现了在非英伟达H卡设备上运行原生FP8模型的突破,为国产大模型加速落地提供了关键支撑。
正文:
“国产大模型+国产引擎+国产芯片”的完整技术闭环正在加速形成。清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」(Chitu),率先实现了非 H 卡设备(英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)运行原生 FP8 模型的突破。在 A800 集群上的实测数据显示,用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比于 vLLM 部署方案,不仅使用的 GPU 数量减少了 50%,而且输出速度还提升了 3.15 倍。赤兔引擎代码已发布至 GitHub 开源社区:https://github.com/thu-pacman/chitu
赤兔开源:国产大模型基础设施的里程碑
在人工智能领域,拥有完整自主可控的AI技术栈已成为国家战略性需求。DeepSeek、QwQ等优秀的国产开源大模型正在重塑全球科技产业格局,但在大模型推理部署领域,业界仍高度依赖国外开源工具。赤兔引擎的开源为业界提供了国产开源新选择,也意味着“国产大模型+国产引擎+国产芯片”的完整技术闭环正在加速形成。
清程极智CEO汤雄超表示:“我们看到国内大模型领域取得了显著进步,但在基础设施层面,尤其是推理引擎这一核心环节仍缺乏生产级开源产品。开源赤兔引擎是我们助力国内AI生态建设的重要一步。”
作为清华大学高性能计算研究所所长,翟季冬教授长期致力于高性能计算与系统软件优化研究。翟教授指出:“赤兔引擎凝结了团队多年的并行计算与编译优化技术积累,目标是建立一个真正适合国内多元算力环境的高性能推理引擎,能够弥合先进模型与多样化硬件之间的差距,为中国大模型的产业落地提供关键支撑。”
本次开源的版本特别聚焦于当前市场最迫切的需求 —— 即实现 DeepSeek FP8 精度模型在存量英伟达 GPU 上的无损且高效部署。团队还透露,针对多款国产芯片特别优化的版本也将相继对外开源。这一突破不仅降低了大模型落地门槛,也为国产 AI 算力的发展带来了新的契机。
“赤兔”的核心优势:全场景性能优化与架构适应性
随着DeepSeek V3和R1等新一代模型采用FP8混合精度训练并发布,企业面临新的部署挑战。这些FP8模型针对NVIDIA Hopper架构(H100/H200)深度定制,在其他硬件上部署时(包括NVIDIA其他架构GPU和国产芯片)需要进行额外的适配。
“最先进的模型与最难获取的硬件绑定,这是当前企业大模型落地的最大痛点之一”汤雄超表示。随着更新一代模型和芯片往FP4等新型数据精度方向的发展,这种代际效应将愈发显著。另一个挑战是现有开源推理引擎对多元算力环境的支持不足。当前,vLLM等主流引擎主要针对NVIDIA最新架构优化,对国产芯片或较老款GPU的适配并不理想。在国内企业私有化部署场景中,NVIDIA的Ampere系列GPU、国产芯片等多元算力占据了相当比例,这些场景亟需更加灵活的解决方案。
赤兔从一开始就定位于“生产级大模型推理引擎”,并且充分考虑了企业AI落地从小规模试验到大规模部署的渐进式特点,专注于提供以下重要特性:
- 多元算力适配:不仅支持NVIDIA最新旗舰到旧款的多种型号,也为国产芯片提供优化支持。
- 全场景可伸缩:从纯CPU部署、单GPU部署到大规模集群部署,赤兔引擎提供可扩展的解决方案。
- 长期稳定运行:可应用于实际生产环境,稳定性足以承载并发业务流量。
在性能优化方面,赤兔的设计理念是“对症下药”,支持“低延迟优化”、“高吞吐优化”和“小显存优化”,可以根据不同场景需求,在不同硬件配置和系统环境下,针对不同负载的特性,提供相应的最优解决方案。在实际部署中,这意味着赤兔引擎可以根据系统资源状况,在GPU利用率、内存效率和网络传输之间寻找最佳平衡点。本次开源的技术突破是实现非 H 卡设备原生运行 DeepSeek FP8 精度模型。“我们没有走简单的量化路线,而是通过在算子内部高效处理 FP8 数据,确保模型推理质量不受任何影响。”汤雄超表示:“具体来说,我们对 GeMM、MoE 等一系列关键算子进行了指令级的优化,实现了 FP8 数据的原生处理能力。”这种技术实现的难点在于需要深入理解不同硬件架构的指令集特性,以及 FP8 与其他精度格式之间的数学等效关系,结合硬件特性分析并优化。得益于团队在系统软件人才方面的积累,才能够在较短时间内实现这一突破。传统上为每种芯片架构人工编写优化代码的工作量巨大,而团队所具备的智能编译技术有助于加速高性能算子的开发过程。
在 A800 集群上的实测结果表明,与 vLLM 相比,赤兔引擎实现 DeepSeek-671B 满血版推理所需 GPU 数量减少 50%;尽管只用了一半的算力,但推理速度却达到其 3.15 倍。这意味着企业可以用一半的硬件资源获得更高的推理性能,极大降低了部署门槛和运营成本。“部署大模型的最低算力成本是一个时常被忽视但极其重要的指标。”清程团队强调,显著降低推理成本对推广 AI 应用至关重要,赤兔推理引擎在设计之初就将降
结论:
清华团队开源“赤兔”推理引擎,不仅在技术上实现了突破,更在战略上具有重要意义。它标志着国产大模型基础设施建设迈出了坚实一步,为中国人工智能产业的自主可控发展注入了新的动力。随着“赤兔”的不断完善和推广,有望加速国产大模型在各行业的落地应用,推动中国人工智能产业的蓬勃发展。
参考文献:
- 机器之心报道:FP8模型不再挑卡!DeepSeek推理成本减半速度翻番,清华团队开源「赤兔」推理引擎
- 赤兔引擎GitHub开源地址:https://github.com/thu-pacman/chitu
Views: 0