首页站长新闻英伟达开源双塔AI模型:文本生成速度提升2.42倍 性能保留98.7%

英伟达开源双塔AI模型:文本生成速度提升2.42倍 性能保留98.7%

2026-07-03 782

英伟达于 7 月 2 日正式发布 Nemotron-Labs-TwoTower 离散扩散语言模型,并同步在 Hugging Face 开源模型权重。该模型旨在解决传统大语言模型逐 Token 串行生成带来的推理效率瓶颈,在保持模型性能的同时,大幅提升文本生成速度。

Nemotron-Labs-TwoTower 基于现有 Nemotron 骨干网络构建,可直接复用预训练权重,无需重新进行完整训练,能够有效降低模型开发和部署成本,为后续模型升级提供更高效的方案。

英伟达开源双塔AI模型:文本生成速度提升2.42倍 性能保留98.7%

60B 双塔架构:并行生成,大幅提升推理效率

Nemotron-Labs-TwoTower 总参数规模为 600 亿(60B),采用创新的双塔架构,由两座 30B 神经网络协同运行,每个塔激活约 **30 亿(3B)**参数,并配备 128 个可路由专家(MoE)模块

其中,上下文塔(Context Tower)保持冻结状态,负责保存和理解全文语义信息;去噪塔(Denoising Tower)则通过扩散机制执行并行文本生成。两座模型之间利用交叉注意力(Cross Attention)持续交换信息,实现上下文理解与文本生成的协同工作。

相比传统大语言模型逐 Token 顺序输出的方式,双塔架构能够并行生成多个文本片段,显著提升推理吞吐量,在保证生成质量的同时进一步提高响应速度。

官方测试数据显示,Nemotron-Labs-TwoTower 在综合能力上保留了原版模型 98.7% 的性能,文本生成吞吐量提升 2.42 倍。除代码生成和数学推理任务出现轻微下降外,其余多数基准测试结果与原版模型基本保持一致。

模型已开源,支持商用部署

目前,Nemotron-Labs-TwoTower 已按照英伟达专属开源协议发布模型权重,开发者可免费下载、测试,并用于商业部署。

硬件方面,完整运行双塔推理模式需配备 两张 NVIDIA H100 或 A100 80GB GPU;若仅使用单张显卡,则只能运行传统自回归推理模式,无法发挥双塔架构的并行生成优势。

官方测试涵盖常识问答、阅读理解、数学推理、代码生成等多个评测任务。整体来看,该模型在几乎不影响生成质量的前提下,实现了显著的推理性能提升,为高性能 AI 推理和企业级部署提供了新的技术方案。

  • 广告合作

  • QQ群号:4114653

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。
Nemotron
下一篇:

已经没有下一篇了!

相关文章