首页 > 资讯 > > 正文

阿里推出数字人视频生成工具：单张图片生成逼真数字人

来源：中关村在线 2023-08-17 07:48:33

【资料图】

阿里云近日推出了一款名为Live Portait的数字人视频生成工具。用户只需上传一张照片和一段文本或语音，就能生成一段能开口说话的数字人视频。这项功能可应用于视频直播、聊天机器人、企业营销等场景，目前已在魔搭社区创空间开放体验。随着对话大模型和AI绘画模型的热度不减，业界对生成式AI的研究逐步朝更多模态的方向演进，其中AI视频生成技术备受关注。这项技术能将文本或音频等信息转换为面部运动信息，进而驱动生成照片人物形象的动画，有效降低了视频拍摄和制作的门槛。Live Portait工具由运动模块和生成模块组成，采用阿里云自研的口型预测算法，使得生成的口型准确度大幅提高。在训练阶段，工具增加了姿态的显式控制，无需底板视频也可以生成任意动作的视频，大幅提升了数字人说话的真实感。此外，通过眼神主动控制技术，Live Portait可以为眼球增加一些自然运动，使得生成结果在观感上更接近真人效果。据了解，Live Portait相关技术已被CVPR、ICCV等国际AI顶会收录。在魔搭社区上，用户在上传照片后，可选择文本驱动和音频驱动两种方式，文本驱动模式下，该工具提供了普通话、英语、粤语、童声等28种声音。此外，Live Portait还提供了轻量模型选择，帮助用户更快速生成视频。阿里云的工具算法负责人张邦表示：“Live Portait集成了团队多项自研创新技术，例如仅需单张图片就能生成逼真的面部动画，突破了传统对抗生成网络的局限。随着技术的进一步迭代，图生视频有巨大的应用空间，有望成为企业降本增效的生产工具。”据悉，该团队研究方向涵盖数字人、3D模型AI生成、高真实感渲染、自然人机交互等领域，目前已发表50多篇国际顶会论文。

关键词：