想弄懂图网络为何如此强大,我们跟极验聊了聊|白洞战报
此前我们多期《白洞计划》中,都在探讨以深度学习为代表的AI与产业接轨的细枝末节。
其中,数据难以收集、处理任务难、模型训练成本高等等,已经是老生常谈的槽点了。而在众多解决方法中,近期来被提到最多的词就是——“图网络”技术。
简单来说,就是基于图(Graph)数据搭建起来的神经网络。它的特点是,在一开始就能读懂数据,尤其是非结构化数据之间的种种隐秘联系。
比如深度学习看到一张照片,只知道“你和图中另一个女人长得像”,但图网络知道“你们长得像因为她是你妈并且此时内心还有点想揍你”。论逻辑推理能力,后者是不是厉害多了?
但图网络技术究竟该怎么训练?有哪些具体的应用场景?又有着怎样与众不同的坑?真的是让AI萌新们旧愁未解又添新愁。本期《白洞计划》专门寻访了以“图数据平台”实践交互安全的极验,以及其服务的技术应用方,来共同为大家揭开图网络在安全领域的神机妙用。
穿越生死门:
萦绕在直播平台头顶的安全之困
按照节目传统,我们本期邀请到的技术应用方,是一家直播平台。在交流过程中,对方的安全负责人孙总可真没少吐苦水,我们这才知道,原来花团锦簇、热闹非凡的直播平台背后,真实的生存环境和技术迭代的需求,简直是“南上加南”。
大致总结一下,目前直播平台面临的安全难题主要有两点:
一个是严峻的黑灰产“薅羊毛”现状。简单来说就是犯罪团伙通过批量账号观看直播,利用签到领福利、充当水军、领活动红包等形式攫取不当收益,消耗平台原本应该发放给主播和真人用户的奖励。但平台在排查问题账号时,如果不能及时快速准确地识别出异常行为,产生漏封、误封,都会造成一定的经营损失,或是影响平台的用户体验,比如说错误地给一个真人用户降低了视频码率。
另一个则是安全防御的投入产出平衡。尽管直播平台往往都会拥有自己的安全技术团队,但从与孙总的交流中我们得知,许多黑灰产或黑客们也在不断更新技术,利用算法攻击服务器、模仿真实轨迹等都已经是常见操作了。对于这种“长期抗战”,企业自身在产业场景行为数据的积累、算法模型的快速迭代等方面往往“心有余而力不足”,如果过度追求安全领域的天顶技术和持续对抗,又会过度消耗企业宝贵的现金资源。
可以说,如何应用数据、应用AI,进而帮助平台降低运营成本,维护健康的直播环境,提升网安保障的性价比,正在成为直播平台,也是千行万业长久生存下去的前提条件与新赛点。
图数据基座上的安全堡垒:
新兴网络防护需要怎样的AI?
上述问题为什么需要特别用图网络技术来解决?从极验的安全解决方案中,我们或许可以找到答案。
简单来说,图数据+深度学习所训练出的图网络,在新型网络安全业务中扮演了三个重要的角色:
第一重角色是“守卫者”。
最直观地表现在对平台运营安全的保障上。
在互联网领域存在许多欺诈行为或隐藏攻击行为,比如恶意爬虫窃取平台用户数据,亦或是金融领域一个村子的人组团诈骗借贷,或是电商领域恶意利用平台漏洞疯狂“薅羊毛”,如何识别、侦查这些异常行为,就成了一道难题。
而图网络的优势在于,能够针对一些“非结构化”的数据,发现它们之间的关联,进而更容易洞察用户的行为轨迹及意图。
比如说,许多黑灰产在攻击网站或App时都会采用一些自动化的脚本,更先进的还会模拟一些真实人类的行为轨迹,借助图数据平台对正常用户的行为数据进行分析建模,最终生成的神经网络能够更好地找出这些“工具”留下的把柄,做到提前预警,从而为平台的数据资产安全保驾护航。
第二重角色是“精算师”。
图数据加入神经网络的另一个好处,就是能够直观地提升平台的智能处理效率,进而有效地降低运营成本。
要理解这一点,来自极验交互安全实验室的闫先生为我们举了一个现实中的例子。
在服务直播平台的过程中,极验发现他们对于音视频流媒体的涉黄涉暴内容识别有很高的需求,稍有不慎就会面临审查、App下架整改等风险。但利用传统的深度学习图像分割技术,需要每一帧每一帧地进行处理、识别,背后对应的则是极高的算力成本。
如何对多维度的内容实现毫米级的精准识别,能够认知图像中复杂关联的图数据平台,采用分布式和并行训练的方式,对十亿级别的大图数据进行高效学习,能更好地适应此类企业的业务需求。
第三个角色是“激活酶”。
最直接的理解就是,作为关键媒介来激活企业深埋于数据库中的数据资产。
极验的闫先生告诉我们,目前还有大概60~70%的数据没有真正被大家所利用起来,原因之一就是里面有非常多的结构化数据,是传统深度学习神经网络很难处理的。
未来一旦激活了这些隐形资产,对产业价值和业务增长都将会是潜力的极大释放。
举个最直观的例子,社交网络就是最为典型的非结构化数据,A关注了B,B点赞了C的微博,D又转发了某个文章,人与人、人与内容、话题与文章之间都存在着千丝万缕的关系,很难用数据库的形式来储存。
而通过图数据建模平台的搭建,将这些关系型数据收集起来,进行上层的算法建模,就可以实现一些前所未有地分析。进而帮助平台改善用户体验,或者真正实现千人千面的商品推送等等,这些都会进一步激活产业对AI新的价值想象。
当然通过交流,我们也了解到了极验作为图网络技术的先行者与实践者,在现实中遇到的一些真实的阻碍。
其中最头疼的一个,就是客户层面的技术疑虑。
闫先生直言,刚开始接触对方直播平台的时候,他们对极验的产品是有一定疑虑的。一方面出于对图网络技术本身的不理解,另一方面则来自于技术与业务能否顺利耦合的困惑。
在此基础上,极验通过对直播行业的充分调研,比如分析平台的支出结构(一部分在宽带和CDN上,一部分在主播工资上),进而打造了交互模型打击黑灰产+内容模型提升计算效率,这样一个双效节省运营和工资成本的综合解决方案,才最终拿下。
极验也告诉我们,在今年7月份,他们刚刚发布了一款叫叠图的产品,基于GCN(图神经网络)来解决不限于安全领域的各行各业的业务难题。
由此看来,今天的产业智能化浪潮,需要的不仅仅是企业自身的认知迭代,AI技术也在一步步挑战更高的穹顶,突破自身的瓶颈。
与此同时,整个互联网和物理世界的数据复杂度也会越来越交融,也越来越复杂,无论是安全问题,还是其他诸如业务增长、体验优化,更优质的AI与技术服务,也孕育在这些变局之中。