清华唐杰教授综述全面解读网络表示学习(NRL)最新动态

撰文:吴婷婷
在计算机技术飞速发展的今天,机器处理现实生活中复杂任务的能力也越来越强大。其中,从现实世界网络中挖掘有效、相关的信息在许多新兴应用中起着至关重要的作用。例如,在社交网络中,根据个人资料和社交关系将用户进行分类,而后应用于社交推荐、目标广告、用户搜索等功能。
然而,传统的网络表示方式所能提供的相关信息往往有限,于是近年来,网络表示学习算法(Network representation learning, NRL)应运而生,而且发展迅速。
近日,由清华大学计算机系唐杰教授领导的团队对 NRL 进行了详细综述,深入探究和对比了 NRL 每个类别下最先进的算法,并系统地研究了这些算法背后的理论基础,最后还提出了该领域可能的发展方向。
该综述以 “Network representation learning: A macro and micro view” 为题发表在专注 AI 开放获取的新期刊《AI OPEN》上。
论文传送门:
https://www.sciencedirect.com/science/article/pii/S2666651021000024
三类图嵌入技术模型对比分析
实际上,NRL 也被称为图嵌入方法(graph embedding method,GEM),旨在学习神经网络中各个节点的低维度表示,所学习到的特征表示可以用作基于图的各种任务,例如分类,聚类,链路预测和可视化任务等等。
图 | 具有相同颜色的顶点在结构上彼此相似。经过 GEM 处理后,基本结构信息就保留在了嵌入空间中(例如,结构相似的顶点 E 和 F 比结构不同的顶点 C 和 F 嵌入得更近)。
而根据本次的研究,现有的 GEM 算法可以分为三类:浅层嵌入模型(Shallow Embedding Models)、异构网络嵌入模型(Heterogeneous Embedding Models)、基于图神经网络的模型(Graph Neural Networks,GNN)。
图 | 三类模型之间的联系 & 已有的成果
在文中,作者对三种模型的优缺点进行了对比分析,并提出可能的解决方法,如下:
(一)浅层嵌入模型:可以分为浅层神经嵌入模型和基于矩阵分解的模型,前者的缺点是游走长度接近无限时,其性能没有矩阵分解好且耗时长;后者则由于矩阵注定稠密,若希望保留高阶顶点邻近性和结构信息,则会非常耗时。
(二)异构嵌入模型:基于浅层嵌入模型,将异构图拆分为几个同构图,从而更有效地利用图内容,这样的设计思路可以看作是 GNN 的基本模型。
(三)图神经网络 GNN:其基本思想是迭代地聚合来自顶点邻居的信息,以获得整个图结构的连续视图,属于深层归纳嵌入模型,还可以使用监督信息进行训练。然而,其架构存在固有问题 ——GNN 模型总是倾向于增加 GNN 层数来捕获来自高阶邻居的信息,且传播过程总是会使每个节点过于依赖其邻居,因此可能导致过拟合、过度平滑和非鲁棒性的问题。可以通过图正则化、GNN 自监督学习、神经架构搜索等方法来改善。
未来发展方向
动态性。现实世界中的网络总是在不断发展和更新,例如社交网络中的新用户。因此,相应的嵌入算法也面临着跟上 “动态更新” 的挑战 —— 即能够处理不断变化的网络并能够有效地更新嵌入向量。
鲁棒性。近两年,对图数据的攻击和防御引起了人们的广泛关注,且已有研究表明,无论是无监督还是有监督模型,即使受到轻微干扰,其性能也会大受影响。此外,现实世界网络中的节点及节点间联系往往具有不确定性、无关因素较多。因此,模型的鲁棒性至关重要。
生成真实世界网络。机器模型被创造的根本目的,就是不断提高其处理真实世界任务的能力,因此,生成真实世界网络将大大加速这一进程。然而,由于图的固有组合特性,在图上设计有效的密度估计和生成模型是一件具有挑战性的事情。
GNN 的推理能力。最近,也有一些研究正在尝试挖掘 GNN 的推理能力,试图探索 GNN 在执行算法方面的潜力,或者关注 GNN 的逻辑表达能力。这些工作都可以帮助我们更好地理解 GNN 内部机制,从而有助于推动 GNN 模型的发展,以生成更具表现力和强大的嵌入模型。
关于 AI OPEN
AI OPEN 于 2020 年 3 月创刊,专注于分享有关人工智能(AI)理论及其应用的可行知识和前瞻性观点。期刊主编为智源研究院学术副院长、清华大学计算机系唐杰教授。
网址:
https://www.sciencedirect.com/journal/ai-open
(0)

相关推荐