阿里巴巴推出AI框架EMO 可让照片人物"开口说话"

继美国 OpenAI 公司推出的 Sora 火出圈后，中国互联网科技巨头阿里巴巴在 2 月 28 日宣布推出了一款名为EMO的新型AI框架，官方称其为 " 一种富有表现力的音频驱动的肖像视频生成框架 "。这项技术能够通过分析照片中的人物面部特征，生成逼真的动态效果，使得图片中的人物“开口说话”。

EMO框架的核心功能在于其卓越的面部识别和处理能力，它能够精确捕捉照片中人物的面部表情，并通过深度学习算法模拟出相应的口型和面部动作，能够无缝对接动态效果，最长可持续约1分30秒。无论语音内容、语速如何，或是图像风格怎样多变，EMO都能确保表情动作与声音完美匹配，使得每一个细节都显得格外到位。

EMO框架是基于英伟达的Audio2Video扩散模型构建的，使用了超过250小时的专业视频进行训练，因此能够创造出具有高度现实感和表现力的AI视频。

EMO框架的工作过程涉及两个关键阶段，首先是特征提取，然后是视频生成。

1、特征提取：在第一阶段，EMO利用一个称为ReferenceNet的网络从提供的参考图像和动作帧中提取特征。这一步骤是为了确保生成的视频能够保持角色身份的一致性。

2、视频生成：在第二阶段，预训练的音频编码器处理声音并将其嵌入，然后结合多帧噪声和面部区域掩码来生成视频。这个过程包括了对声音的分析以及相应的面部表情和口型的同步。

EMO框架的推出将对多个行业产生深远的影响。在娱乐行业，EMO可以用于制作更加生动的角色动画，提升观众的沉浸感；在教育领域，它可以帮助创建更具互动性的教学材料；在广告行业，EMO则能够为品牌营销带来全新的视觉体验。

总之，阿里巴巴推出的AI框架EMO在人工智能领域的深入研究和应用探索取得了新的突破，这不仅仅是一项技术创新，更是对未来人机交互方式的一次大胆预测。

广告合作

QQ群号：707632017

相关推荐