把马变成斑马需要几步?字节跳动这项开源技术节省了97.8%算力
问:一匹棕色马如何变成一匹斑马?
一个可能的答案是:深度学习模型。
运用类似的模型,还可以将莫奈的绘画作品变成真实的风景照片。
这种模型名为生成式对抗网络(简称“GAN”),最早出现于2014年,被认为是深度学习领域的一项革命性成果。经过多年发展,GAN衍生出一个庞大的“家族”,包括CycleGAN、Pix2Pix、StyleGAN等。它们可以用于图片风格迁移、图像编辑、图片生成等场景。
前面提到的马变成斑马,莫奈画作变照片,正是运用了CycleGAN模型。
一只高跟鞋的轮廓,通过Pix2Pix模型,则可以复原成真实的鞋子。
虽然GAN模型应用广泛,优点很多,但需要很高的输入分辨率,对计算资源和存储空间需求大。因此,业界一直在努力改进GAN的压缩方法。
2020年,麻省理工学院、Adobe和上海交通大学技术人员提出一种GAN压缩算法,将算力消耗成功减少到1/21。
最近,字节跳动技术团队推出了一项自研GAN压缩算法,名为“在线多粒度蒸馏技术”,简称OMGD。
这项算法能够极大降低CycleGAN和Pix2Pix模型的算力消耗,分别降至原来的1/40和1/46。不仅参数和计算量更少,图像生成效果也更好。
以下图为例。MACs代表消耗的计算量,FID代表生成效果,数值越小,效果越好。在靴子轮廓变成真靴子的过程中,OMGD消耗的计算量仅为1.219G,相比于原始状态的56.8G,计算量大幅减少,生成效果也更优。
目前,OMGD技术已经应用在多款抖音智能特效中。比如“三屏人生”。过去、现在和未来在同一个屏幕里,像是不同阶段的自己在对话。
数据显示,OMGD压缩能力(MACs)和生成效果(FID)都排在首位
又比如火遍抖音的动态照片。很多网友使用这款特效,让老相册里的家人动了起来。有的同学用工牌试了下,看到照片上的自己露出笑容。
还有特效“变胖的你”,可以让大家感受一下变月半之后的样子。
大幅提升的压缩能力,加上抖音的使用体量,将节约大量的计算成本。同时,这也可以给广大用户提供更加流畅的体验。
另外,这篇论文已入选国际计算机视觉会议ICCV 2021。相关技术代码也已发布在开源社区,帮助从业者提升GAN的创新和应用效率。
论文链接:
https://arxiv.org/abs/2108.06908
开源链接:
https://github.com/bytedance/OMGD