hi，大家好~我是shadow，一枚设计师/全栈工程师/算法研究员，目前主要研究方向是人工智能写作和人工智能设计，当然偶尔也会跨界到人工智能艺术及其他各种AI产品。这是我发在《人工智能Mix》的一篇论文阅读笔记。

文末了解《人工智能Mix》

论文：

Real-Time Lip Sync for Live 2D Animation

形象生动的2D角色动画在直播和视频里越来越多，直播动画的一个关键要求是快速准确的嘴型同步。

作者提出了一个基于深度学习的交互系统，该系统使用长-短期记忆（LSTM）模型自动生成2D角色的实时唇同步。系统以流式音频为输入，产生的视素（viseme）序列的延迟小于200ms（包括处理时间）。

- viseme视素是什么？

视觉音素/视素（visual phoneme/viseme）是嘴唇和面部的姿势或表达，把各个嘴部或者面部的姿态用一帧图像表示，并对应于一个特定的语音（音素），是不是有点像动作脚本库，如下图所示。

例如在讨论读唇术时，我们常常使用这个术语，其概念类似于音素，并且是具备可理解度的基本视觉单元。在计算机动画中，我们可以使用视觉音素的组合来制作虚拟角色的动作，令它们看起来像是在说话。

在本文，即把声音序列转化为音素序列（动画），作者还统计了音素组合的使用情况，如下方所示：

另外，作者提出了一个数据增强的方法，允许我们使用非常少量的动画训练数据（13-20分钟）以获得良好的效果。大量的实验表明，作者的结果优于几种市面上的方法。

- 相关设计工具

另外，作者跟abobe的Character Animator做了个对比，表示比adobe的效果好……我们稍微看下adobe的这款工具简介：

在几秒钟内创建一个人物，使用摄像头将各种艺术作品转变为动画人物，此过程由 Adobe Sensei AI (人工智能）提供支持。

以上为全文，原文发表于《人工智能Mix+》知识星球。

《人工智能Mix+》

每天更新至少一篇笔记，

目前正在优惠期间，

仅需10元，

欢迎加入。

近期热门推荐：