阿里巴巴推出AI框架EMO 可让照片人物"开口说话"

继美国 OpenAI 公司推出的 Sora 火出圈后,中国互联网科技巨头阿里巴巴在 2 月 28 日宣布推出了一款名为EMO的新型AI框架,官方称其为 " 一种富有表现力的音频驱动的肖像视频生成框架 "。这项技术能够通过分析照片中的人物面部特征,生成逼真的动态效果,使得图片中的人物“开口说话”。

EMO框架的核心功能在于其卓越的面部识别和处理能力,它能够精确捕捉照片中人物的面部表情,并通过深度学习算法模拟出相应的口型和面部动作,能够无缝对接动态效果,最长可持续约1分30秒。无论语音内容、语速如何,或是图像风格怎样多变,EMO都能确保表情动作与声音完美匹配,使得每一个细节都显得格外到位。

AI框架EMO

EMO框架是基于英伟达的Audio2Video扩散模型构建的,使用了超过250小时的专业视频进行训练,因此能够创造出具有高度现实感和表现力的AI视频。

EMO框架的工作过程涉及两个关键阶段,首先是特征提取,然后是视频生成。

1、特征提取:在第一阶段,EMO利用一个称为ReferenceNet的网络从提供的参考图像和动作帧中提取特征。这一步骤是为了确保生成的视频能够保持角色身份的一致性。

2、视频生成:在第二阶段,预训练的音频编码器处理声音并将其嵌入,然后结合多帧噪声和面部区域掩码来生成视频。这个过程包括了对声音的分析以及相应的面部表情和口型的同步。

EMO框架的推出将对多个行业产生深远的影响。在娱乐行业,EMO可以用于制作更加生动的角色动画,提升观众的沉浸感;在教育领域,它可以帮助创建更具互动性的教学材料;在广告行业,EMO则能够为品牌营销带来全新的视觉体验。

总之,阿里巴巴推出的AI框架EMO在人工智能领域的深入研究和应用探索取得了新的突破,这不仅仅是一项技术创新,更是对未来人机交互方式的一次大胆预测。

广告合作
QQ群号:707632017

温馨提示:

1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。

2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

热门教程

  • Z-Blog教程
    Z-Blog教程
    ZBlog教程分享ZBlog安装教程、ZBlog建站教程和ZBlog使用教程等相关教程,包括如何创建...
  • WordPress教程
    WordPress教程
    WordPress教程提供了关于WordPress的基础知识和技巧,包括安装、设置、发布内容、选择主...
  • CSS教程
    CSS教程
    CSS教程提供了关于如何使用CSS来设计和美化网页的基础知识和技巧,包括选择器、样式规则、盒模型、布...
  • 宝塔面板教程
    宝塔面板教程
    宝塔面板教程是一个致力于向用户传授宝塔面板的使用技巧和知识的学习资源,旨在帮助用户快速上手和充分利用...
  • PHP教程
    PHP教程
    PHP教程提供了关于PHP语法、变量、函数、流程控制等概念的详细指导,同时介绍了常见的Web开发技术...

3个月免费VPS

亚马逊云科技

阿里云