AMiner知识图谱数据集开源,欢迎大家下载使用

AMiner下周三将发布《超级计算机研究报告》届时微信公众号菜单栏可直接下载研究报告敬请关注AMiner介绍AMiner--研究者社会网络分析与挖掘系统,功能:专家发现、学术搜索、热点话题分析、图搜索等。吸引了220个国家和地区800多万独立IP的访问。AMiner官方网站:https://www.aminer.cn/AMiner 知识图谱介绍AMiner 知识图谱是从 AMiner 中抽取的结构化实体网络,包括超过500,000个实体和约290,000,000条实体间链接。该知识图谱可作为知识图谱构建的基准数据集,也可应用到搜索引擎或推荐系统中,提高用户体验。AMiner 知识图谱仅用于研究。该数据集包含四类实体(标签、学者、机构以及出版期刊)和四种链接(标签-标签,学者-标签,机构-标签以及出版期刊-标签)。我们抽取了 AMiner 论文中出现频率最高的前 100,000 个关键字,如data mining,computer vision,social network analysis等,作为知识图谱中的标签,并根据两个标签在论文中共同出现的频率计算他们之间的权重。另外,我们根据学者,机构或者出版期刊发表的论文将这些标签链接到对应的实体上。数据集的统计信息如下表所示:#标签100,000#学者318,406#机构63,068#出版期刊23,709可视化界面AMiner 根据知识图谱开发了可视化界面。

点击链接,可获取可视化界面。http://166.111.7.173:35729/search_entity

[1] Further Information: https://www.aminer.cn/knowledge_graph[2] A simple demo is available here: http://166.111.7.173:35729/search_entity[3] AMiner, https://aminer.org/[4] J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang, and Z. Su. ArnetMiner: Extractionand Mining of Academic Social Networks. KDD'08. pp.990-998.数据说明数据以 JSON Lines 文本的格式提供,文件每一行都是一个有效的 JSON 对象。知识图谱中包含四类实体:标签(Tag),学者(Person),机构(Organization)以及出版期刊(Venue),各实体的属性如下:Tag:属性类型说明样例idstring标签ID"tag:1"typestring实体类型"tag"namestring标签名称"data mining"nbrsobject相关标签和对应权重{"feature extraction": 18433.9, "machine learning": 16314.7, "support vector machine": 12936.0, ...}Person:属性类型说明样例idstring学者ID"person:1256"typestring实体类型"person"namestring学者姓名"Jiawei Han"name_dabstring学者姓名(用于消歧)"Jiawei Han:1"tagslist学者标签"data mining", "relational database", "association rule", ...]Organization/Venue:属性类型说明样例idstring实体ID"venue:1071"typestring实体类型"venue"namestring实体名称"kdd"tagslist实体标签["data mining", "social netowork", "machine learning", ...]说明:- Tag实体nbrs属性的格式为:<标签名称>:<权重>,其中权重根据标签共同出现的频率得到。- 部分学者标签由于出现频率较低,不在标签网络中。

(0)

相关推荐

  • 金融知识图谱的构建与应用

    编辑整理:朱瑞杰 出品平台:DataFunTalk.AI启蒙者 导读:金融机构在过去积累了大量的数据,包括结构化数据和非结构化数据.如何利用这些数据来构建金融知识图谱,并将构造好的知识图谱应用到具体的 ...

  • DGL-KE:亚马逊开源知识图谱嵌入库,亲测快到飞起

    作者信息 Elesdspline 目前从事NLP与知识图谱相关工作. DGL-KE:亚马逊开源大规模知识图谱嵌入训练库 先说结论啊 这个库的开源已经是去年(2020)的事情了,突然感觉时间好快~,当时 ...

  • 大规模、结构化新冠知识图谱如何实现?这里是清华大学AMiner和智谱AI团队的技术报告

    2019 年末,一场突如其来的新型冠状病毒肺炎疫情迅速蔓延,并造成全球大流行,截止 5 月 18 日全球累计确诊病例达 470 万.全世界的科研人员.医疗人员.政府工作人员和公众渴望获得开放.全面的新 ...

  • 名老中医医案 知识图谱

    随着信息时代的来临,知识呈现出爆炸式增长的现象,计算机处理技术水平和存储能力也得到了迅速提高,且实现了越来越便捷的信息分析.检索,甚至可视化等先进的功能,使得近年来出现了以知识单元为前提.可以快速获取 ...

  • 组合式空调箱基础知识,40页PPT可下载!

    组合式空调箱基础知识,40页PPT可下载!

  • 何捷:知识图谱——精准定位教学的“GPS”

    2012年,谷歌(Google)正式提出了知识图谱的概念,并宣布以此为基础构建下一代智能化搜索引擎.我们所理解的知识图谱是人工智能领域的一个重要分支,其来源于智能化的图书情报和信息处理技术,即将文献中 ...

  • 【直播课】知识图谱第三期直播-关系抽取及分类

    前言 最近几年知识图谱作为人工智能领域很热门的一项技术,已经在不少领域都取得了不少成功的落地案例.不过知识图谱作为人工智能的一个底层技术,确实不如图像,语音等技术一样让人能很直观的感受到它的存在.于是 ...

  • ENRIE:知识图谱与BERT相结合,为语言模型赋能助力

    来自:朴素人工智能 感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流. E ...

  • 构建体系化医学知识图谱 提高医学人文素养

    深圳图书馆健康分馆位于深圳市疾控中心,由预防医学历史展厅和标本展厅组成,将强烈艺术感染力和趣味互动性融为一体,拉近公众与医学之间的距离.与此同时,作为全国公共卫生领域首家叙事医学机构所在地,该场馆将定 ...

  • 知识图谱的5G追溯

    [引子]"治学先治史",了解研究领域的历史背景和对于了解未来可能的途径至关重要,关于知识图谱也不例外.周末劳逸结合,本文编译自Claudio Gutierrez和Juan f. S ...