通过网络表征学习赋能社会网络计算——经典论文推荐(DeepWalk、LINE、PTE、DeepInf)

网络表征学习在最近几年引起了学术界和工业界的极大关注。在数据挖掘领域和机器学习领域都掀起了一波“网络嵌入”研究的热潮。针对不同类型的网络,如单纯网络拓扑、属性网络、信息网络、异构信息网络等均有大量研究。鉴于网络数据本身对于产业应用的重要价值,工业界对网络表征学习亦表现出相当的热情。腾讯、阿里巴巴等公司已将网络嵌入技术纳入下一代网络分析平台的基础性架构。

本文推荐了大网络表征学习方面的四篇经典论文,文末可获取。

DeepWalk: Online Learning of Social Representations

LINE: Large-scale Information Network Embedding

PTE:Predictive Text Embedding through Large-scale Heterogeneous Text Networks

DeepInf: Social Influence Prediction with Deep Learning

  DeepWalk 

Online Learning of Social Representations

论文介绍了DeepWalk,这是一种用于学习网络中顶点的潜在表示的新方法。这些潜在的代表在连续向量空间中编码社会关系,这很容易被统计模型利用。 Deep-Walk概括了语言建模和无监督特征学习(或深度学习)从单词到图形序列的最新进展。DeepWalk使用从截断的随机游走中获取的本地信息,通过将步行视为句子的等效来学习潜在表示。我们演示了Deep-Walk针对社交网络(如BlogCatalog,Flickr和YouTube)的多个多标签网络分类任务的潜在表示。我们的结果表明DeepWalk优于具有挑战性的基线,这些基线允许全球网络视图,尤其是在缺少信息的情况下。当标签数据稀疏时,DeepWalk的表示可以提供比竞争方法高10%的F1分数。在一些实验中,DeepWalk的表示能够胜过所有基线方法,同时使用的训练数据减少了60%。DeepWalk也是可扩展的。它是一种在线学习算法,可以构建有用的增量结果,并且可以轻松实现并行化。这些特性使其适用于广泛的现实世界应用,例如网络分类和异常检测。

  LINE

Large-scale Information Network Embedding

该文研究了将非常大的信息网络嵌入到低维向量空间中的问题,这在许多任务中很有用,例如可视化,节点分类和链路预测。大多数现有的图形嵌入方法不适用于通常包含数百万个节点的真实世界信息网络。在本文中,我们提出了一种称为“LINE”的新型网络嵌入方法,它适用于任意类型的信息网络:无向,定向和/或加权。该方法优化了精心设计的目标函数,该函数保留了本地和全局网络结构。提出了一种边缘采样算法,该算法解决了经典随机梯度下降的局限性,并提高了该方法的有效性和效率。经验实验证明了LINE对各种现实世界信息网络的有效性,包括语言网络,社交网络和引文网络。该算法非常有效,能够在几小时内在典型的单机上学习数百万个顶点和数十亿个边缘的网络嵌入。 LINE的源代码可在线获取。

  PTE

Predictive Text Embedding through Large-scale Heterogeneous Text Networks

无监督的文本嵌入方法,例如Skip-gram和Paragraph Vector,由于其简单性,可扩展性和有效性而吸引了越来越多的关注。然而,与复杂的深度学习架构(如卷积神经网络)相比,这些方法在应用于特定的机器学习任务时通常会产生较差的结果。一个可能的原因是这些文本嵌入方法以完全无监督的方式学习文本的表示,而不利用可用于任务的标记信息。尽管所学到的低维表示适用于许多不同的任务,但它们并未针对任何任务进行特别调整。在本文中,我们通过提出一种用于文本数据的半监督表示学习方法来填补这一空白,我们将其称为预测文本嵌入(PTE)。预测文本嵌入利用标记和未标记的数据来学习文本的嵌入。标记信息和不同级别的单词共现信息首先表示为大规模异构文本网络,然后通过主要且有效的算法嵌入到低维空间中。这种低维嵌入不仅保留了单词和文档的语义接近度,而且对特定任务具有强大的预测能力。与最近基于卷积神经网络的监督方法相比,预测文本嵌入是可比较的或更有效的,更有效的,并且具有更少的调整参数。

  DeepInf

Social Influence Prediction with Deep Learning

Facebook,Twitter,微信和微博等社交和信息网络活动已经成为我们日常生活中不可或缺的一部分,我们可以轻松访问朋友的行为并受其影响。因此,对每个用户的有效社交影响预测对于诸如在线推荐和广告的各种应用是至关重要的。传统的社交影响预测方法通常设计各种手工制作的规则以提取用户和网络特定的特征。但是,它们的有效性在很大程度上依赖于领域专家的知识。因此,通常很难将它们概括为不同的域。受到最近在各种计算应用中深度神经网络成功的启发,我们设计了一个端到端框架DeepInf1,以学习用户的潜在特征表示来预测社会影响。通常,DeepInf将用户的本地网络作为图形神经网络的输入,用于学习其潜在的社交表示。我们设计了将网络结构和用户特定功能纳入卷积神经网络和注意网络的策略。代表不同类型的社交和信息网络的Open Academic Graph,Twitter,Weibo和Digg的大量实验表明,提出的端到端模型DeepInf明显优于传统的基于特征工程的方法,这表明了有效性代表性学习社交应用。

总结

一.社交网络挖掘

依据对联系的观点,指出了三个维度的研究:个人、联系、社区。个人为单个结点,更多地需要借助社会学的知识;而后两者则按照是否产生了联系,研究社会影响、及团体行为。

二.对特征值的挖掘——表示学习的方法概要

1.Deepwalk 将word2Vec、用以分析文本的方法,应用到network当中。将网络中的连线当做在句子中词语的相连接,而生成句子的主要方式是随机生成路径。

2.LINE方法主要在于注意到以下事实:Thegeneral notion of the second-order proximity can be interpreted as nodes withshared neighbors being likely to be similar.在于抛弃单独的点的观念,而将点置于一个整体的网络中去看待点的存在。引入了第二距离的概念。

3.PTE(Predictive TextEmbedding)方法则侧重于将监督学习的方法运用到表示学习中,但也一定程度上限定了程序的普适性。

4.在基于以上方法的介绍和批判中,提出NetMF方法。指出以上方法虽然表面各异,但可以将这些方法都统一为对特定矩阵函数求极值的过程(求极值主要运用SGD等微分逼近方法)。而NetMF的方法要点在于应用矩阵因式分解的方法简化求极值的过程。

这里比较有趣的是Deepwalk的想法,及NetMF归一化的想法。这两者都表现出一种联系的倾向:Deepwalk将文本分析和Network Embedding联系在一起,而后者则指出以上方法都可归结为矩阵函数的求极值问题。

三.社会影响力:利用网络来探测个人

1.提出社会影响力的概念

若从形而上学的角度看,强调网络是在强调人的社会性,试图在网络的数据中去考察一个人的特征与行为;这也传统的社会科学的视角是相反的,在于社会学家、哲学家往往从个人的角度来认识这个社会,再将个人的视角推广至整个社会,例如学习经济学会先探讨微观经济学、再学习宏观经济学。

2.但这里是将人视为结点,而将人与人之间的关系视为连线

一个有趣的想法是将两者倒置,即将人视为连线,此时考察结点的不同定义,或许可作出许多有益的拓展。暂举几个例子:若将地点视为结点,则可根据人物理位置的移动,成为流行病学的研究;若将知识领域视为结点,则可根据人的工作、学历变动,成为对知识架构及人才流动的研究;若将社会地位视为结点,则可根据一个人的经济、社会地位的变动,来探讨阶级流动的社会问题。

(0)

相关推荐

  • 万字干货 | 图表示学习中的Encoder-Decoder框架

    第一时间获取价值内容 图表示学习Encoder-Decoder框架介绍和拓展 本篇文章主要从一篇关于Graphs的表示学习的调研文章出发,介绍基于Graph表示学习的一个Encoder-Decoder ...

  • 脑、心、世界:预测编码、新康德主义与超越论的观念论

    脑.心.世界:预测编码. 新康德主义与超越论的观念论 D.扎哈维 作者简介:D.扎哈维[丹] 人大复印:<科学技术哲学>2021 年 04 期 原发期刊:<世界哲学>2021 ...

  • 业界盘点|为什么推荐算法都开始结合图神经网络了?

    大家好,我是对白. 图神经网络(GNN)相信大家也不陌生了,在还没有Graph Embedding之前,节点的属性信息可以通过Item2vec这种序列化Embedding的方式去学习,效果虽然不错,但 ...

  • 对比学习 图神经网络=更好的推荐系统?

    今天我们来聊一聊推荐系统中不得不学的Contrastive Learning方法,近年来Contrastive Learning在CV和NLP领域的应用越来越广泛,在推荐系统中当然也不例外.我想大家将 ...

  • KDD''21 | 淘宝搜索中语义向量检索技术

    今天给大家带来一篇论文分享,KDD'21的Applied Data Science Track中,淘宝搜索发表的一篇EBR文章[9]:Embedding-based Product Retrieval ...

  • 论文解读:Bert原理深入浅出

    Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert. 它在 11 项自然语言处 ...

  • 【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络

    读论文是做AI的人必需要下的功夫,所以咱们开通了专栏<每周NLP论文推荐>.本着有三AI的一贯原则,即系统性学习,所以每次的论文推荐也会是成系统的,争取每次能够把一个领域内的"故 ...

  • '全能选手'召回表征算法实践

    编辑整理:许建军 出品平台:DataFunTalk 导读:本文主要分享 '全能选手' 召回表征算法实践.首先简单介绍下业务背景: 网易严选人工智能部,主要有三个方向:NLP.搜索推荐.供应链,我们主要 ...

  • 必读论文 | 生成对抗网络经典论文推荐10篇

    生成式对抗网络(Generative adversarial networks, GAN)是当前人工智能学界最为重要的研究热点之一.其突出的生成能力不仅可用于生成各类图像和自然语言数据,还启发和推动了 ...

  • FAIR最新无监督研究:视频的无监督时空表征学习

    设为星标,干货直达! 机器学习算法工程师 机器学习.深度学习.数据挖掘等人工智能领域的技术实战干货文章,这里都有!分享从业经验是我们的不变的准则-- 567篇原创内容 公众号 近期,FAIR的Kaim ...

  • 网络推广到底收费有多少?网络推广收费该怎样计算?

    推广营销实际效果不太好,很多公司会想起网络推广,互联网的发展趋势铸就了更加广泛的营销推广自然环境,如今网络推广早已变成了近些年较为合理的推广方式,而想要做网络推广那麼就一定要了解二种推广方法,一种是根 ...

  • 现代草书学习精品字帖,经典诗词楷草对照

    <说文解字>中说:"汉兴有草书".草书始于汉初,其特点是:存字之梗概,损隶之规矩,纵任奔逸,赴速急就,因草创之意,谓之草书.一般认为草书,是为书写便捷快速而产生的一种书 ...

  • Python网络爬虫学习基础笔记

    python requests库爬虫基础 本次学习的python爬虫所使用的是requests库 下面就是requests库的7种主要方法 方法名 说明 requests.request() 构造一个 ...

  • 汉隶十大名碑,学习隶书的最经典碑帖

    我们通常所说的汉隶,主要是指东汉碑刻上的隶书.它们的特点是用笔技巧更为丰富,点画的俯仰呼应.笔势的提按顿挫.笔画的一波二折和蚕头雁尾及结构的重浊轻清.参差错落,令人叹为观止.风格多样且法度完备,或雄强 ...

  • 汉隶十大名碑,学习隶书的最经典碑帖!

    我们通常所说的汉隶,主要是指东汉碑刻上的隶书.它们的特点是用笔技巧更为丰富,点画的俯仰呼应.笔势的提按顿挫.笔画的一波二折和蚕头雁尾及结构的重浊轻清.参差错落,令人叹为观止.风格多样且法度完备,或雄强 ...

  • 学习医案,让经典更有用!

    青竹中医 让中医成为一种生活方式  医路漫漫 青竹相伴. 来源|青竹医社  导读  本次『青竹360°金匮背诵训练营』通过医案讨论了甘草干姜汤.射干麻黄汤.厚朴麻黄汤汤.小青龙加石膏汤.越婢加半夏汤. ...

  • 做直播必备的台词语句,网络主播活跃气氛的经典幽默段子

    做直播必备的台词语句,网络主播活跃气氛的经典幽默段子