首页站长新闻英伟达开源双塔AI模型：文本生成速度提升2.42倍性能保留98.7%

英伟达开源双塔AI模型：文本生成速度提升2.42倍性能保留98.7%

站长新闻

2026-07-03 782

英伟达于 7 月 2 日正式发布 Nemotron-Labs-TwoTower 离散扩散语言模型，并同步在 Hugging Face 开源模型权重。该模型旨在解决传统大语言模型逐 Token 串行生成带来的推理效率瓶颈，在保持模型性能的同时，大幅提升文本生成速度。

Nemotron-Labs-TwoTower 基于现有 Nemotron 骨干网络构建，可直接复用预训练权重，无需重新进行完整训练，能够有效降低模型开发和部署成本，为后续模型升级提供更高效的方案。

Nemotron-Labs-TwoTower 总参数规模为 600 亿（60B），采用创新的双塔架构，由两座 30B 神经网络协同运行，每个塔激活约 **30 亿（3B）**参数，并配备 128 个可路由专家（MoE）模块。

其中，上下文塔（Context Tower）保持冻结状态，负责保存和理解全文语义信息；去噪塔（Denoising Tower）则通过扩散机制执行并行文本生成。两座模型之间利用交叉注意力（Cross Attention）持续交换信息，实现上下文理解与文本生成的协同工作。

相比传统大语言模型逐 Token 顺序输出的方式，双塔架构能够并行生成多个文本片段，显著提升推理吞吐量，在保证生成质量的同时进一步提高响应速度。

官方测试数据显示，Nemotron-Labs-TwoTower 在综合能力上保留了原版模型 98.7% 的性能，文本生成吞吐量提升 2.42 倍。除代码生成和数学推理任务出现轻微下降外，其余多数基准测试结果与原版模型基本保持一致。

目前，Nemotron-Labs-TwoTower 已按照英伟达专属开源协议发布模型权重，开发者可免费下载、测试，并用于商业部署。

硬件方面，完整运行双塔推理模式需配备 两张 NVIDIA H100 或 A100 80GB GPU；若仅使用单张显卡，则只能运行传统自回归推理模式，无法发挥双塔架构的并行生成优势。

官方测试涵盖常识问答、阅读理解、数学推理、代码生成等多个评测任务。整体来看，该模型在几乎不影响生成质量的前提下，实现了显著的推理性能提升，为高性能 AI 推理和企业级部署提供了新的技术方案。

温馨提示：

1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。邮箱：2942802716#qq.com（#改为@）。 2、本站原创内容未经允许不得转裁，转载请注明出处“站长百科”和原文地址。

已经没有下一篇了!

4小时前 782

1天前 11

1天前 477

2天前 21