用于2D动画的实时嘴型同步技术

hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。这是我发在《人工智能Mix》的一篇论文阅读笔记。

文末了解《人工智能Mix》

论文:

Real-Time Lip Sync for Live 2D Animation

形象生动的2D角色动画在直播和视频里越来越多,直播动画的一个关键要求是快速准确的嘴型同步。

作者提出了一个基于深度学习的交互系统,该系统使用长-短期记忆(LSTM)模型自动生成2D角色的实时唇同步。系统以流式音频为输入,产生的视素(viseme)序列的延迟小于200ms(包括处理时间)。

- viseme视素是什么?

视觉音素/视素(visual phoneme/viseme)是嘴唇和面部的姿势或表达,把各个嘴部或者面部的姿态用一帧图像表示,并对应于一个特定的语音(音素),是不是有点像动作脚本库,如下图所示。

例如在讨论读唇术时,我们常常使用这个术语,其概念类似于音素,并且是具备可理解度的基本视觉单元。在计算机动画中,我们可以使用视觉音素的组合来制作虚拟角色的动作,令它们看起来像是在说话。

在本文,即把声音序列转化为音素序列(动画),作者还统计了音素组合的使用情况,如下方所示:

另外,作者提出了一个数据增强的方法,允许我们使用非常少量的动画训练数据(13-20分钟)以获得良好的效果。大量的实验表明,作者的结果优于几种市面上的方法。

- 相关设计工具

另外,作者跟abobe的Character Animator做了个对比,表示比adobe的效果好……我们稍微看下adobe的这款工具简介:

在几秒钟内创建一个人物,使用摄像头将各种艺术作品转变为动画人物,此过程由 Adobe Sensei AI (人工智能) 提供支持。

从口型同步到跟踪眼部特征,用户的表演可为人物赋予活力。Character Animator 可使用摄像头和麦克风匹配用户的表情(从口型同步到跟踪眼部特征),从而实时生成人物的动画。

感兴趣,可以自行下载体验~

以上为全文,原文发表于《人工智能Mix+》知识星球。

《人工智能Mix+》

每天更新至少一篇笔记

目前正在优惠期间,

仅需10元

欢迎加入。

近期热门推荐:

寻找AR中的Big Difference

谷歌的storyboard(故事板)生成技术

(0)

相关推荐