用于2D动画的实时嘴型同步技术
hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。这是我发在《人工智能Mix》的一篇论文阅读笔记。
论文:
Real-Time Lip Sync for Live 2D Animation
形象生动的2D角色动画在直播和视频里越来越多,直播动画的一个关键要求是快速准确的嘴型同步。
作者提出了一个基于深度学习的交互系统,该系统使用长-短期记忆(LSTM)模型自动生成2D角色的实时唇同步。系统以流式音频为输入,产生的视素(viseme)序列的延迟小于200ms(包括处理时间)。
- viseme视素是什么?
视觉音素/视素(visual phoneme/viseme)是嘴唇和面部的姿势或表达,把各个嘴部或者面部的姿态用一帧图像表示,并对应于一个特定的语音(音素),是不是有点像动作脚本库,如下图所示。
例如在讨论读唇术时,我们常常使用这个术语,其概念类似于音素,并且是具备可理解度的基本视觉单元。在计算机动画中,我们可以使用视觉音素的组合来制作虚拟角色的动作,令它们看起来像是在说话。
在本文,即把声音序列转化为音素序列(动画),作者还统计了音素组合的使用情况,如下方所示:
另外,作者提出了一个数据增强的方法,允许我们使用非常少量的动画训练数据(13-20分钟)以获得良好的效果。大量的实验表明,作者的结果优于几种市面上的方法。
- 相关设计工具
另外,作者跟abobe的Character Animator做了个对比,表示比adobe的效果好……我们稍微看下adobe的这款工具简介:
在几秒钟内创建一个人物,使用摄像头将各种艺术作品转变为动画人物,此过程由 Adobe Sensei AI (人工智能) 提供支持。
从口型同步到跟踪眼部特征,用户的表演可为人物赋予活力。Character Animator 可使用摄像头和麦克风匹配用户的表情(从口型同步到跟踪眼部特征),从而实时生成人物的动画。
感兴趣,可以自行下载体验~
《人工智能Mix+》
每天更新至少一篇笔记,
目前正在优惠期间,
仅需10元,
欢迎加入。
近期热门推荐:
赞 (0)