迪士尼研究所(Disney Research)和几所大学的研究人员撰写的一篇新论文描述了一种基于深度学习的程序语言动画的新方法。该系统对人类语音的录音进行采样,并使用它自动生成匹配的嘴部动画。该方法的应用范围可从动画扩展到VR社交的化身。
迪斯尼研究所,加拿大东加利福尼亚理工大学和卡内基梅隆大学的研究人员撰写了题为“广义语音动画深度学习方法”的论文。该文件描述了一种已经用“深度学习/神经网络”方法训练的系统,使用来自单个扬声器的八小时参考画面(2,543句)来教导系统在各种语音单元期间应该形成的形状(称为音素)及其组合。
下面这个示例中,右侧的脸是参考镜头,左侧的脸仅覆盖了基于音频输入产出“嘴形”动画的嘴部。
这个方法是使用滑动窗口预测器,其可以以准确地捕获自然运动和视觉共同效应的方式学习从音素标签输入序列到口部运动的任意非线性映射。
它有几个特性:实时运行,需要最少的参数调整,很好地推广到新颖的输入语音序列,易于编辑,可创建风格化和情感化的语音,并且与现有的动画重定向方法兼容。
虽然这个系统不能满足主要CGI制作的高保真语音动画,但是可以应用于一些低预算项目,或者没有办法聘请动画师的学术项目等。
而在VR社交里,这个方法的应用会更加广泛,它能让3D化身更加生动逼真。相对于其它的工具,这种基于深度学习的新系统似乎提供了非常高的细节和语音动画的准确性。
评论 (0)