首页站长新闻国内首个语音到语音大模型MOSS-Speech开源

国内首个语音到语音大模型MOSS-Speech开源

站长新闻

2025-11-20 234

复旦大学MOSS团队推出MOSS-Speech，首次实现端到端Speech-to-Speech对话，模型已上线Hugging Face Demo并同步开源权重与代码。MOSS-Speech采用“层拆分”架构:冻结原MOSS文本大模型参数，新增语音理解、语义对齐与神经声码器三层，可一次性完成语音问答、情绪模仿与笑声生成，无需ASR→LLM→TTS三段流水线。

评测显示，MOSS-Speech在ZeroSpeech2025无文本语音任务中WER降至4.1%，情感识别准确率91.2%，均优于Meta的SpeechGPT与Google AudioLM;中文口语测试主观MOS分达4.6，接近真人录音4.8。项目提供48kHz超采样版与16kHz轻量版，后者可在单张RTX4090实时推理，延迟<300ms，适合移动端部署。

团队透露，下一步将开源“语音控制版”MOSS-Speech-Ctrl，支持通过语音指令动态调整语速、音色与情感强度，预计2026年Q1发布。MOSS-Speech已开放商用许可，开发者可通过GitHub获取训练与微调脚本，在本地完成私有声音克隆与角色语音化。

内容来源：AIbase基地

广告合作
QQ群号：4114653

点赞 (0)

温馨提示：

1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。邮箱：2942802716#qq.com（#改为@）。 2、本站原创内容未经允许不得转裁，转载请注明出处“站长百科”和原文地址。

Cloudflare发言人表示

上一篇： Cloudflare突发中断！快速带你了解网络故障详情

GoodSync黑五活动

下一篇： GoodSync黑五&网一活动全场享40%折扣优惠个人版低至90元/年

相关文章

OpenAI发布Codex六大行业工具包联合Wix、Figma拓展企业办公场景

OpenAI发布Codex六大行业工具包联合Wix、Figma拓展企业办公场景

14小时前 692

豆包预计6月下旬正式收费每月最低68元

豆包预计6月下旬正式收费每月最低68元

2天前 412

【618大促】150+正版软件低至6折数码荔枝折扣活动来袭

【618大促】150+正版软件低至6折数码荔枝折扣活动来袭

3天前 34

（附AI建站工具）2026年AI建站市场规模、用户增长与未来趋势分析

（附AI建站工具）2026年AI建站市场规模、用户增长与未来趋势分析

6天前 357

猜你喜欢

热门教程

Z-Blog教程

ZBlog教程分享ZBlog安装教程、ZBlog建站教程...
WordPress教程

WordPress教程提供了关于WordPress的基础...
宝塔面板教程

宝塔面板教程是一个致力于向用户传授宝塔面板的使用技巧和知...
Shopify教程

Shopify教程提供了关于Shopify平台的基本知识...
PHP教程

PHP教程提供了关于PHP语法、变量、函数、流程控制等概...