AMiner知识图谱数据集开源,欢迎大家下载使用
AMiner下周三将发布《超级计算机研究报告》届时微信公众号菜单栏可直接下载研究报告敬请关注AMiner介绍AMiner--研究者社会网络分析与挖掘系统,功能:专家发现、学术搜索、热点话题分析、图搜索等。吸引了220个国家和地区800多万独立IP的访问。AMiner官方网站:https://www.aminer.cn/AMiner 知识图谱介绍AMiner 知识图谱是从 AMiner 中抽取的结构化实体网络,包括超过500,000个实体和约290,000,000条实体间链接。该知识图谱可作为知识图谱构建的基准数据集,也可应用到搜索引擎或推荐系统中,提高用户体验。AMiner 知识图谱仅用于研究。该数据集包含四类实体(标签、学者、机构以及出版期刊)和四种链接(标签-标签,学者-标签,机构-标签以及出版期刊-标签)。我们抽取了 AMiner 论文中出现频率最高的前 100,000 个关键字,如data mining,computer vision,social network analysis等,作为知识图谱中的标签,并根据两个标签在论文中共同出现的频率计算他们之间的权重。另外,我们根据学者,机构或者出版期刊发表的论文将这些标签链接到对应的实体上。数据集的统计信息如下表所示:#标签100,000#学者318,406#机构63,068#出版期刊23,709可视化界面AMiner 根据知识图谱开发了可视化界面。
点击链接,可获取可视化界面。http://166.111.7.173:35729/search_entity
[1] Further Information: https://www.aminer.cn/knowledge_graph[2] A simple demo is available here: http://166.111.7.173:35729/search_entity[3] AMiner, https://aminer.org/[4] J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang, and Z. Su. ArnetMiner: Extractionand Mining of Academic Social Networks. KDD'08. pp.990-998.数据说明数据以 JSON Lines 文本的格式提供,文件每一行都是一个有效的 JSON 对象。知识图谱中包含四类实体:标签(Tag),学者(Person),机构(Organization)以及出版期刊(Venue),各实体的属性如下:Tag:属性类型说明样例idstring标签ID"tag:1"typestring实体类型"tag"namestring标签名称"data mining"nbrsobject相关标签和对应权重{"feature extraction": 18433.9, "machine learning": 16314.7, "support vector machine": 12936.0, ...}Person:属性类型说明样例idstring学者ID"person:1256"typestring实体类型"person"namestring学者姓名"Jiawei Han"name_dabstring学者姓名(用于消歧)"Jiawei Han:1"tagslist学者标签"data mining", "relational database", "association rule", ...]Organization/Venue:属性类型说明样例idstring实体ID"venue:1071"typestring实体类型"venue"namestring实体名称"kdd"tagslist实体标签["data mining", "social netowork", "machine learning", ...]说明:- Tag实体nbrs属性的格式为:<标签名称>:<权重>,其中权重根据标签共同出现的频率得到。- 部分学者标签由于出现频率较低,不在标签网络中。