如何使用netwokx进行复杂网络的中心性分析?

如何使用netwokx进行复杂网络的中心性分析?

这是本学期在大数据哲学与社会科学实验室做的第七次分享了。

第一次分享的是:

第二次分享的是:

第三次分享的是:

第四次分享的是:

第五次分享的是:

第六次分享的是:

本次分享的是“如何使用netwokx进行复杂网络的中心性分析?”

1. networkx概述

networkx是用python语言编写的软件包,便于用户对复杂网络进行创建、操作和学习。

利用networkx可以以标准化和非标准化的数据格式存储网络、生成多种随机网络和经典网络、分析网络结构、建立网络模型、设计新的网络算法、进行网络绘制等。

使用pip安装当前版本的networkx:

pip install networkx

升级到最新版本,使用--upgrade标签:

pip install --upgrde networkx

查看本地networkx是否成功安装,可在命令提示符中输入:

pip show networkx

如果出现以下内容,则安装成功。

Name: networkx
Version: 2.5.1
Summary: Python package for creating and manipulating graphs and networks
Home-page: http://networkx.github.io/
Author: Aric Hagberg
Author-email: hagberg@lanl.gov
License: UNKNOWN
Location: c:\programdata\anaconda3\lib\site-packages
Requires: decorator
Required-by: scikit-image

Github地址:

https://github.com/networkx/networkx

官方学习文档:

https://networkx.github.io/documentation/latest/_downloads/networkx_reference.pdf

2. 基本理论

网络由节点(node)和连接它们的边(edge)构成。

例如,微信好友的关系是相互的,如果我是你的好友,你也是我的好友。这样的网络称为无向网络(undirected graph/network)。但超链接并非如此,如果我的网站可以链接到维基百科,并不表示维基百科会链接到我的网站。这样的网络称为有向网络(directed graph/network)

在图论和网络分析中,中心性(Centrality)是判断网络中节点重要性/影响力的指标。在社会网络分析中,一项基本的任务就是鉴定一群人中哪些人比其他人更有影响力,从而帮助我们理解他们在网络中扮演的角色。

那么,什么样的节点是重要的呢?

对节点重要性的解释有很多,不同的解释下判定中心性的指标也有所不同。

通常在中心性的分析角度上有两种出发点:中心度和中心势。

中心度:表示一个节点在网络中处于核心地位的程度;中心势:表示整个图的紧密程度。换句话说,度表示单个节点的性质,而势表示整个图的性质。

2.1 点度中心性(degree centrality)

在无向网络中,我们可以用一个节点的度数(相当于你的微信好友数)来衡量中心性。在微博中,刘德华的粉丝数9千多万,他的点度中心性就很高。

这一指标背后的假设是:重要的节点就是拥有许多连接的节点。你的社会关系越多,你的影响力就越强。

import networkx as nx
import matplotlib.pyplot as plt

G = nx.Graph()
G.add_nodes_from(['A', 'B', 'C', 'D', 'E', 'F', 'G'])
G.add_edges_from([('A', 'B'), ('A', 'C'), ('A', 'D'),
                  ('B', 'C'), ('B', 'D'), ('C', 'D'),
                  ('D', 'E'), ('D', 'F'), ('D', 'G'),
                  ('E', 'F'), ('E', 'G'), ('F', 'G')])

pos = nx.spring_layout(G)
nx.draw(G, pos, with_labels=True)
plt.show()

在上面的蝴蝶结网络中,节点的连接数是6,和网络中的所有人都建立了直接联系,其它节点的连接数都是3,因此节点的点度中心性最高。整个网络一共有7个节点,意味着每个人最多可以有6个社会关系。因此,节点的点度中心性是6/6=1,其它节点的点度中心性是3/6=0.5。

2.2 中介中心性(betweenness centrality)

网络中两个非相邻成员之间的相互作用依赖于其它成员,特别是两成员之间路径上的那些成员。他们对两个非相邻成员之间的相互作用具有控制和制约作用。Freeman (1979)认为中间成员对路径两端的成员具有“更大的人际关系影响”。因此,中介中心性的思想是:如果一个成员位于其它成员的多条最短路径上,那么该成员就是核心成员,就具有较大的中介中心性。

计算网络中任意两个节点的所有最短路径,如果这些最短路径中很多条都经过了某个节点,那么就认为这个节点的中介中心性高,这个指标考察的是节点对于其它节点信息传播的控制能力。换句话说,就是这个节点相当于一个闸,和它相连的节点想要得到其它节点都得经过它。

G = nx.Graph()
G.add_nodes_from(['A', 'B', 'C', 'D', 'E', 'F', 'G'])
G.add_edges_from([('A', 'B'), ('A', 'C'), ('B', 'C'),
                  ('B', 'D'), ('D', 'E'), ('E', 'F'),
                  ('E', 'G'), ('F', 'G')])

pos = nx.spring_layout(G)
nx.draw(G, pos, with_labels=True)
plt.show()

假设我们要计算节点的中介中心性。

首先,我们计算节点之外,所有节点对之间的最短路径有多少条,这里是15条(在6个节点中选择两个节点即节点对的个数)。

然后,我们再看所有这些最短路径中有多少条经过节点,例如节点要想找到节点,必须经过节点。经过节点的最短路径有9条。

最后,我们用经过节点的最短路径除以所有节点对的最短路径总数,这个比率就是节点的中介中心性。节点的中介中心性是9/15=0.6。

  • 表示到的最短路径条数。
  • 表示从到t的最短路径中经过节点的条数。

Maksim Tsvetovat&Alexander Kouznetsov在《社会网络分析》一书中有两个例子:

  • 鲍勃徘徊在两个女人之间,他贪恋爱丽丝的美丽和谈吐,亦无法舍弃卡若琳娜的乐天和无忧无虑。但他必须小心谨慎,生怕自己在其中任何一个人面前露馅,这样的关系充满了压力和焦虑。
  • 银行家以5%的利率接受A公司的存款,以7%的利率贷款给B公司,这样的关系给银行家带来了巨大的利益。它的前提是,市场中的A公司和B公司不能直接接触,或至少无法轻易地找到对方。

鲍勃和银行家的故事尽管截然不同,但他们都处于一种被称为被禁止的三元组(forbidden triad)的关系中,需要确保三元组的末端不能直接联系。没有联系就像网络中出现了一个洞,因此也被称为结构洞

2.3 接近中心性(closeness centrality)

点度中心性仅仅利用了网络的局部特征,即节点的连接数有多少,但一个人连接数多,并不代表他/她处于网络的核心位置。接近中心性和中介中心性一样,都利用了整个网络的特征,即一个节点在整个结构中所处的位置。如果节点到图中其它节点的最短距离都很小,那么它的接近中心性就很高。相比中介中心性,接近中心性更接近几何上的中心位置。

接近中心性反应某一节点与其它节点之间的接近程度。

假设我们要计算节点的接近中心性,首先我们计算从节点到所有其它节点的最短距离。从图中可以判断,节点到所有其它节点的距离均为1,距离之和为6。因此,节点的接近中心性为(7-1)/6=1。分子为网络中节点总数减去1。也就是说,如果一个人可以直接跟网络中所有其他人联系,那么他/她的接近中心性就是1。对于其它节点,如节点的接近中心性为(7-1)/9=0.667。

接近中心性高的节点一般扮演的是八婆的角色(gossiper)。他们不一定是名人,但是乐于在不同的人群之间传递消息。

cc(v)=\frac{n-1}{\sum_{v\neq u}{d_{vu}}}

2.4 特征向量中心性(eigenvector centrality)

特征向量中心性的基本思想是,一个节点的中心性是相邻节点中心性的函数。也就是说,与你连接的人越重要,你也就越重要

特征向量中心性和点度中心性不同,一个点度中心性高,即拥有很多连接的节点,特征向量中心性不一定高,因为所有的连接者有可能特征向量中心性很低。同理,特征向量中心性高并不意味着它的点度中心性高,它拥有很少但很重要的连接者也可以拥有高特征向量中心性。

考虑下面的图,以及相应的的邻接矩阵(Adjacency Matrix),。

邻接矩阵的含义是,如果两个节点没有直接连接,记为0,否则记为1。

现在考虑,一个的向量,向量的值对应图中的每个点。在这种情况下,我们计算的是每个点的点度中心性(degree centrality),即以点的连接数来衡量中心性的高低。

矩阵乘以这个向量的结果是一个的向量:

结果向量的第一个元素是用矩阵的第一行去“获取”每一个与第一个点有连接的点的值(连接数,点度中心性),也就是第2个、第3个和第4个点的值,然后将它们加起来。

我们继续用矩阵乘以结果向量。如何理解呢?实际上,我们允许这一中心性数值再次沿着图的边界“扩散”。我们会观察到两个方向上的扩散(点既给予也收获相邻节点)。我们猜测,这一过程最后会达到一个平衡,特定点收获的数量会和它给予相邻节点的数量取得平衡。既然我们仅仅是累加,数值会越来越大,但我们最终会到达一个点,各个节点在整体中的比例会保持稳定。

我们认为,图中的点存在一个数值集合,对于它,用矩阵去乘不会改变向量各个数值的相对大小。也就是说,它的数值会变大,但乘以的是同一个因子。用数学符号表示就是:

满足这一属性的向量就是矩阵的特征向量。特征向量的元素就是图中每个点的特征向量中心性。

3. 克拉克哈特风筝社交网络分析

绘制克拉克哈特风筝社交网络

import networkx as nx
import matplotlib.pyplot as plt

G = nx.krackhardt_kite_graph()
pos = nx.spring_layout(G)

nx.draw(G, pos, with_labels=True)
plt.show()

显示图的基本信息

print(nx.nodes(G))
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

print(nx.number_of_nodes(G))  # 10
print(nx.edges(G))
# [(0, 1), (0, 2), (0, 3), (0, 5), (1, 3), (1, 4),
# (1, 6), (2, 3), (2, 5), (3, 4), (3, 5), (3, 6),
# (4, 6), (5, 6), (5, 7), (6, 7), (7, 8), (8, 9)]

print(nx.number_of_edges(G))  # 18
print(nx.adjacency_matrix(G))
# (0, 1) 1
# (0, 2) 1
# (0, 3) 1
# (0, 5) 1
# (1, 0) 1
# (1, 3) 1
# (1, 4) 1
# (1, 6) 1
# (2, 0) 1
# (2, 3) 1
# (2, 5) 1
# (3, 0) 1
# (3, 1) 1
# (3, 2) 1
# (3, 4) 1
# (3, 5) 1
# (3, 6) 1
# (4, 1) 1
# (4, 3) 1
# (4, 6) 1
# (5, 0) 1
# (5, 2) 1
# (5, 3) 1
# (5, 6) 1
# (5, 7) 1
# (6, 1) 1
# (6, 3) 1
# (6, 4) 1
# (6, 5) 1
# (6, 7) 1
# (7, 5) 1
# (7, 6) 1
# (7, 8) 1
# (8, 7) 1
# (8, 9) 1
# (9, 8) 1

A = nx.to_numpy_matrix(G)
print(A)
# [[0. 1. 1. 1. 0. 1. 0. 0. 0. 0.]
#  [1. 0. 0. 1. 1. 0. 1. 0. 0. 0.]
#  [1. 0. 0. 1. 0. 1. 0. 0. 0. 0.]
#  [1. 1. 1. 0. 1. 1. 1. 0. 0. 0.]
#  [0. 1. 0. 1. 0. 0. 1. 0. 0. 0.]
#  [1. 0. 1. 1. 0. 0. 1. 1. 0. 0.]
#  [0. 1. 0. 1. 1. 1. 0. 1. 0. 0.]
#  [0. 0. 0. 0. 0. 1. 1. 0. 1. 0.]
#  [0. 0. 0. 0. 0. 0. 0. 1. 0. 1.]
#  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]]

dic = dict((x, list(nx.neighbors(G, x))) for x in nx.nodes(G))
print(dic)
# {0: [1, 2, 3, 5], 1: [0, 3, 4, 6], 2: [0, 3, 5], 
# 3: [0, 1, 2, 4, 5, 6], 4: [1, 3, 6], 5: [0, 2, 3, 6, 7], 
# 6: [1, 3, 4, 5, 7], 7: [5, 6, 8], 8: [7, 9], 9: [8]}

中心性分析

deg_cen = nx.degree_centrality(G)
print(deg_cen)
# {0: 0.4444444444444444, 1: 0.4444444444444444, 2: 0.3333333333333333, 
# 3: 0.6666666666666666, 4: 0.3333333333333333, 5: 0.5555555555555556, 
# 6: 0.5555555555555556, 7: 0.3333333333333333, 8: 0.2222222222222222, 
# 9: 0.1111111111111111}

bet_cen = nx.betweenness_centrality(G)
print(bet_cen)  #
# {0: 0.023148148148148143, 1: 0.023148148148148143, 2: 0.0,
# 3: 0.10185185185185183, # 4: 0.0, 5: 0.23148148148148148, 6: 0.23148148148148148,
# 7: 0.38888888888888884, 8: 0.2222222222222222, 9: 0.0}

clo_cen = nx.closeness_centrality(G)
print(clo_cen)
# {0: 0.5294117647058824, 1: 0.5294117647058824, 2: 0.5,
# 3: 0.6, 4: 0.5, 5: 0.6428571428571429, 6: 0.6428571428571429,
# 7: 0.6, 8: 0.42857142857142855, 9: 0.3103448275862069}

eig_cen = nx.eigenvector_centrality(G)
print(eig_cen)
# {0: 0.35220898139203594, 1: 0.35220898139203594, 2: 0.2858347353163241, 
# 3: 0.4810204881221006, 4: 0.2858347353163241, 5: 0.3976910106255469, 
# 6: 0.3976910106255469, 7: 0.19586185175360382, 8: 0.04807477501420294, 
# 9: 0.011164058575824238}

4. 总结

  • 点度中心性:一个人的社会关系越多,他/她就越重要。
  • 中介中心性:如果一个成员处于其他成员的多条最短路径上,那么该成员就是核心成员。
  • 接近中心性:一个人跟所有其他成员的距离越近,他/她就越重要。
  • 特征向量中心性:与你连接的人社会关系越多,你就越重要。

参考文献:

  • https://blog.csdn.net/yyl424525/article/details/103108506
  • https://blog.csdn.net/ztf312/article/details/107711916
  • https://blog.csdn.net/teacherfbj/article/details/106165429

(0)

相关推荐

  • 使用networkx及matplotlib库实现社会网络分析及可视化

    公众号: HR和Python4年人力资源从业经验,情报学硕士,主要内容涵盖python.数据分析和人力资源相关内容networkx是python的一个第三方包,可以方便地调用各种图算法的计算.通过调用 ...

  • 使用pyvis对社交网路数据可视化

    pyvis是专为关系网络而生,使用javascript渲染,所以效果比networkx更加的炫酷.当然使用javascript渲染的也有很多,比如pyecharts也可以处理关系网络,不过生成的节点不 ...

  • 利用Python绘制关系网络图

    我们在做数据可视化时,要展现多个元素之间的相互关系时(比如人物关系图),常会用到网络图. 今天我们就分享一个在 Python 里绘制网络图的库:NetworkX,并显示它的基本操作. 一.Networ ...

  • 网络推广专员浅析网络推广中如何分析网站建设水平孰优孰劣?

    随着网站建设开发技术的成熟,网站建设从业人员也越来越多,很多站长并不是专业从事网站建设工作是半路出家的,像这种半路出家的群体并不在少数,他们在经过网站建设知识的积累后正式进入网络推广市场.那么对于这部 ...

  • 人工智能在网络领域中的应用

    在提起人工智能的时候,人们都会联想到其广泛应用与各个领域中,为了能够更好的学习和了解人工智能,需要明白其在各个领域中的应用情况. 人工智能在网络最重要的应用包括智能运维.网络加速和网络优化三部分. 1 ...

  • 在网络世界中,找一个能放空的地方

    ⭐️标星thepluspaper订阅号,不错过新鲜内容 数码艺术似乎总是酷炫的.五光十色的,而来自雅加达的摄影师兼数码艺术家Fikri Amanda Abubakar则希望打打破关于这样的刻板印象,把 ...

  • 【技术培训】网络工程中VLAN到底有什么作用?

    什么是VLAN呢? VLAN(Virtual Local Area Network)即虚拟局域网,是将一个物理的LAN在逻辑上划分成多个广播域的通信技术. 在IEEE802.1Internetwork ...

  • UC头条:被'网友'骗钱、为骗子转移赃款……如何保护网络诈骗中的孩子们?

    正义网上海4月20日电(通讯员童画)14岁少女念念(化名)被人骗走7000元,在追查涉案钱款去向的过程中,另一个少年小斌(化名,作案时未成年)进入警方的视野,他在赃款转移的过程中充当什么角色?又将承担 ...

  • 网络营销中SEO是最常用的“圈粉”引流方式之一

    很多企业为了提升网络营销效果,也经常使用SEO来为吸引更多的流量,同时,SEO推广也已经成为更多企业的选择.但很多新手小白还不了解如何做好优化网站,如何更好的吸引流量,下面就带大家一起来了解一下. 一 ...

  • 网络小说中的十个第一,那些历史全都知道的人,绝对是骨灰级书虫

    第一本点击破亿小说,是<斗破苍穹> 其实<斗破苍穹>创造的第一纪录远远不止这么一个点击破亿,还是第一本百度指数破百万,破三百万,阅读基地破32亿点击等等. 第一位年入百万的网络 ...

  • 网络小说中的自我实现

    美国心理学家亚伯拉罕·马斯洛(Maslow.A.H.)从人类动机的角度提出需求层次理论,该理论强调人的动机是由人的需求决定的.而且人在每一个时期,都会有一种需求占主导地位,而其他需求处于从属地位. 人 ...

  • 网络小说中,你最喜欢的女主角前十是谁?

    伴君天下舞 <傲世九重天>作者:风凌天下 女主:莫轻舞 ​莫家小姐,楚阳前世和今生的爱人,一生的挚爱! 逆天改命 缘定三生 <仙逆>作者:耳根 女主:李慕婉 ​别人都谈风花雪月 ...