百度又一个黑科技:AI内容风控了解一下?
2018年上半年,内容领域的违规监管收紧,很多企业都如履薄冰。
今日头条、抖音、快手等明星企业都因涉嫌推送低俗色情内容开始整改,关停了一些流量巨大的板块和产品。各家也纷纷开始加大审核员招聘,动辄就要4000、5000人的规模。
对于内容产业来说,机器学习算法的极高分发效率为其打开了一扇全新的大门,这让信息流、短视频等发展如火如荼。但当海量内容出现,内容上的不可控已经成为内容产业当前最大的问题。
原因很简单。
全新分发逻辑下的诞生海量内容,人工审核的效率又非常低,风险在所难免,一旦监管收紧,风险剧增。可以说,内容产业就像握着半个罗盘,机器学习带来的高分发效率让他们不断靠近目的地,可对于内容的不可控又让他们不断偏离开了航线。
违规内容收紧,
“AI内容风控”应运而生
不过这种现状,不一定非要靠成千上万的人工来做。
最近,百度提出了“AI内容风控”概念。说起风控,通常大家会条件反射地联想到金融行业。实际上金融风控和内容风控的确有异曲同工之处,风控能力差时,“老赖”产生的坏账会破坏一个金融服务上的整体收益,就像内容创作者钻空子产生的低质量内容会破坏整个内容分发平台的声誉和用户体验一样。而金融服务的风控过去耗费大量人力,今天却可以依靠人工智能建立模型来实现,在这一点上,内容风控也是一样。
而百度在内容分发方面一直是集大成者,在内容产业火热之前,百度以搜索引擎为立足点、以百度贴吧、空间等产品为沉淀,已经开始和大量图片、文字和视频打交道。何况不得不说一句,相比那些品类化的内容平台,百度产品定位是最大众化的,自然也会比其他内容平台更容易遇到不当内容。
不管从企业自身的发展来看,还是从行业整体走向来看,AI内容风控都是一条必经之路。
针对这一问题,我们联系到百度内容风控专家,专家告诉我们,百度内容风控的范畴分为三部分,包含了违法违规、垃圾信息、内容质量差等情况,同时包括了图像、富媒体、文字等多种内容形式。
而想要实现对多种内容的风控,自然离不开丰富的AI技术构件。粗略的说,在整个内容风控体系上,百度至少应用上了图像识别、富媒体识别、NLP、分类/聚类、关联挖掘、机器学习方案六大类算法能力。
例如当内容创作者发布色情图片时,可以通过分类器发现图片的不当性。而如果发布的图片中含有商标、水印等等侵权问题,可以利用循环神经网络来进行命令实体识别。同时内容分发平台上还会经常出现大量注册账号,大量发布不当内容的行为,这时百度的内容风控体系就可以通过构建图模型挖掘这些账户之间的关联,将其“一网打尽”。
在2017年全年,百度处置的有害信息高达451.2亿余条,其中99%的信息在上线前就已经被自动拦截,大大减少了人工劳动。有了这一AI风控体系,就好像掌握了罗盘的另一半,可以更加高效地回归航线,减少因为内容审核造成航行失控的可能性。
AI平衡术
其实用AI进行内容审核对于我们来说并不陌生,可在实际应用中,我们遇到的情况大多都是正常内容被莫名其妙地下线或限流,连人工编辑自己都不知道原因是什么。
可有害信息仅需要很简单的处理,例如(奥…&夜¥美#!女!&)这样的形式,就能出现在我们眼前。这是因为很多内容分发平台应用的AI审核机制过于粗放,没有能力应对海量内容,更没有能力应对越来越丰富的内容形式。
百度内容风控专家告诉我们,在这一系列的技术研发中,百度注重的是解决那些以往的AI审核机制无法解决的问题。
例如同一内容的跨场景判断,就是困扰平台已久的问题。打个比方说,一张美丽的少女照片如果出现在时尚、美妆类的内容场景中就没有问题。但如果搭配上“温柔少妇、青春少女”、“按摩保健、同城交友”这样的上下文,相信大家都能明白这是在暗示些什么了。
在百度内容风控的解决方案中,为了在不同场景中寻找共性,引入了包含图片+文字的跨模态深度学习模型,以便可以对内容进行综合识别。同时为了保证模型在不同内容形式中重复可用,百度采用了迁移学习神经网络进行样本训练,从而增加模型的通用可迁移。
另一大难题,则是内容审核之后的处理机制。作为创作者,有时用了一张侵权图片,或者是因为手误打了一些病句、错别字、敏感词等等,只是无心之失。就如同有时忘记还信用卡一样,并非刻意逾期。但有些人却会故意不断发布不当内容,甚至注册多个小号以逃避审核封号。
应对这种情况,百度在AI内容风控上提出了分阶段的处理手段。如果只是低危风险的无心之失,风控系统通常是以内容线下、自动下线等等方式进行处理。但如果进一步发展到中、高危风险,就会对账户进行整改、甚至下线作为惩罚。
解决了这些问题后,百度正在让AI在内容风控上发挥更大的效用,使其更加接近人类编辑。
全球大势之下,
AI内容风控正在成为必备品
从全球内容产业的发展来看,内容风控机制的发展仅仅是内容产业整体进化重要一步。内容风控可以通过减少人工审核来提升内容分发的商业效率,让内容产业重量变得更“轻”——轻人力、轻成本、轻流程,让AI来解决更多问题。
在海外, Facebook这类与内容打交道的企业每年都耗费大量技术投入在解决假新闻和低俗内容。谷歌也深受其害,曾经因在平台上发现涉及到恐怖主义的广告而陷入信任危机。目前谷歌正在利用人力对视频数据进行标注,从而训练出自动识别恶意视频的AI模型。
从百度内容风控展示出的六大体系来看,和专注文字、图片审核的Facebook以及专注建立视频识别模型的谷歌不同,能应对跨场景和富媒体识别的百度在技术完成度上已经走在了世界前列。
同时,这样的AI内容风控体系,也可以在其他领域发挥作用。比如虚假信息泛滥的医疗广告,一直是违规内容的重灾区,通过AI风控体系,百度2017年打击虚假医疗广告6000万条,在医疗广告整治方面,百度风控系统全年屏蔽了近23万个非法医疗类词汇,大大减少了非法医疗保健广告的危害。
而且我们也能够发现,随着各种新技术的发展,出产低质量内容的成本也越来越低,甚至可以通过几张照片、一段音频就能为造出惟妙惟肖的虚假视频。
在这样的前提下,利用AI进行内容风控的重要性只会不断提高,我们未来需要应对的不仅仅是不当内容和低质量内容,很可能还会有人类都难以分辨的虚假内容。这样看来,AI内容风控不仅仅是一项增益技术,而是驶向内容产业金银岛保驾护航的必由之路。