如何把数百部手机中的视频素材合成影视作品?AI分分钟搞定!
编译丨科技行者
现在,想象一下自己身处一场音乐会、大型的聚会,或者是一场大规模演示。数百个,也许是数千个人都在用他们的智能手机拍照和录像。每个人都抓住了一小部分的“现实”。从他们的角度看,每个人都在尽自己所能,从他们所处的位置抓取能够看到的东西。
那么,如果你能够实时用到所有这些素材,并且自动创建一部电影,会怎么样?
这就是IMINT正在做的事情。IMINT是一家你也许从来都没有听说过的瑞典公司,基于深度学习,IMINT所提供的Vidhance技术可以用来澄清、自动校正、增强和改善全球超过2.5亿智能手机中的视频。目前,该公司主要提供的还是B2B软件,但据透露,他也正在开发针对消费者的软件版本。
IMINT首席技术官Johan Svensson最近在TechFirst播客中表示:“当我和我的妻子、孩子一起去参加某个活动,等我回到家的时候,我真的想合并我的视频,因为可能会有其他的某个人拍摄某段内容的角度更好。”“但是,当我要把所有这些视频都上传到我的电脑,并用编辑软件进行合成时,就会觉得非常麻烦。所以,我们想到可以用更自动化的方式完成这项工作——基本上,只要利用人工智能技术,现在就可以完全实现这一点。”
IMINT表示,视频处理算法可以找到视频中的兴趣区域,将来,它们将自动放大并智能地聚焦于所看到的内容,比如:足球比赛中的进球,被吹灭的生日蛋糕蜡烛,或者球杆击球的瞬间。
在IMINT看来,下一波视频创作浪潮将是社区创作,这样的创作来源,将来自多个智能手机的视频,当把这些视频智能地融合到一个成品中,可能会出现意想不到的结果。“想象一下,一场有200位宾客参加的婚礼,几乎所有这些宾客都会用智能手机记录这场婚礼,个人、团体或者家庭可以记录相同的事件,并且能够轻松生成具有多个角度、效果、过渡等的精美视频。最终,甚至更大的人群,包括朋友和陌生人,也将能够同步共享智能手机视频。这些视频可能是来自音乐会、聚会、机会或者是其他的活动,它们将会被拼凑在一起,讲述一个视觉故事。而在以往,无论谁想要做到这一点都需要付出巨大的努力。”Svensson表示。
这样的自动化解决方案对于事后创建回忆很有帮助,因为谁也不会真的有时间坐下来,把上次度假时候拍摄的950张照片和视频制作成电影或者幻灯片。
但Vidhance技术还不止于此。
这是一种基于云的技术,可从一组智能手机中获取视频,检查元数据(例如GPS定位、传感器分辨率、实际分辨率、运动、手机指向的方向,能够获取这些数据要归功于智能手机中的磁力计),将视频中发现的共同对象关联起来,并自动创建围绕活动亮点的协作影片。
Svensson 表示:“我们将使用相同的算法来找到这些视频的高光时刻和精彩瞬间,然后将其编译为更完整的作品。甚至,我们还可以以更加类似于专业制作人员的方式处理并行视频流。”
据了解,该技术的个人版本计划将于本月某个时间首发,并适用于一小部分的摄像头。最终,该软件将为越来越多的智能手机提供支持。
IMINT公司长期专注于人工智能和深度学习,其优势是通过对象识别技术,查看在特定时间点上有多少摄像头对准了某个特定场景的方式来确定最重要的事件。当然。该技术也能够分析出只有少数人,甚至是只有一个人注意到的外围高光动作。
未来,随着5G技术的落地,这一技术还会变得更加成熟。
因为这种方法会消耗大量数据,所以在大多数4G和较低级的蜂窝网络上,上传视频可能会成为沉重的负担,不过对于WiFi来说,这个问题就不存在了。而随着5G网络的普及,甚至可以做到视频无缝地在后台上传,同时不会引发特别的麻烦或者影响质量。
Svensson表示,IMINT已经与“世界上大多数智能手机制造商”进行了合作,这些制造商生产手机应该可以自带这些功能。其他的手机则需要先下载应用程序。
不过,显然这类技术面临着隐私的问题。作为一家欧洲的公司,IMINT非常注重隐私问题,并且只允许通过该公司基于云的应用程序连接的手机上传和共享视频。截至目前,IMINT还没有计划在世界范围内全面推出该工具。它会迭代发布该软件,并根据人们的使用行为做出调整。
Svensson表示:“我们将在那里安装一个工具,并将监控它的实际使用方式,然后加强这些领域的数据隐私防护。”
最终,我们可能能够通过自动创建的视频浏览自己错过的全球事件和聚会,这些视频捕捉了事件的焦点,而且又不需要实际参与者完成任何额外的工作。这有可能是实时的,并且有机会从一个摄像头跳到另一个摄像头,直到你找到最有趣的视角。
Svensson表示:“在未来,这些视频可能会通过电视转播。这也许是每一个人的功劳,因为这样一个视频是通过协作完成的。”