当开放知识网络OKN应用于生物医学、地球科学、金融和智能制造领域时......
如今,网络技术公司会开发自己专有的知识网络作为关键业务技术。然而,由于这些网络属于技术公司私有且建设成本高昂,政府、学术界、小型企业和非营利组织无法使用这些网络。
相比之下,人们可以建设一个向所有利益相关者 、行业推动者 “开放”的知识网络(OKN)。它是一个跨越整个数据科学区,开放共享的基础设施。这一基础设施有推动科学、工程和金融领域的创新的潜力,并会实现与上世纪90年代初互联网影响媲美的经济增长。
互联网最初也只是一个链接文件的尝试,然后逐步发展成为一个大型的基础设施,OKN的目的是链接有关实体的数据。例如,许多政府机构一直在努力在基因学、天文学、物理学或地球科学等领域建立专门的知识网络。然而,融合这些知识孤岛目前需要付出巨大的努力。与Internet一样,OKN将提供这样的基础设施,建立在现有数据资源的基础上,并显著增强其能力。
通过OKN访问,学术研究人员可以用更有表现力的框架捕捉知识、可以开发出更强大、更有效的方法来解决问题,以及可以用更自然的接口来访问知识。无论何种行业,多大规模的公司,都可以利用OKN。
四个特定纵向领域的OKN问题
2017年10月4日至5日,网络与信息技术研究与发展项目(NITRD)大数据跨部门工作组(BDIWG)在华盛顿特区举办了关于开放知识网络的研讨会。研讨会的目的是将联邦、行业和学术界的利益相关者聚集在一起,讨论与开发全国性语义信息基础设施相关的问题。研讨会分组讨论了横向技术领域和四个特定纵向领域的OKN问题,四个特定纵向领域包括生物医学、地球科学、金融和智能制造。
研讨会参与者表示有效的OKN可以推动下一波以知识为动力的AI发展,并通过启用推荐系统、翻译系统、社交媒体服务和智能搜索代理等服务,将科学研究到商业应用等领域转化为现实。
参与者确定了OKN的以下关键特征:
·动态的本质:真实地反映客观世界信息的更新和变化。
·“开放”:接受输入各种信息来源。
·能够通过搜索网络中的链接、推导实体之间的联系来链接不同的信息。
·由“横向”和“纵向”元素组成:
横向活动建立起共同的技术基础设施,除了知识领域,还应包括以下些能力:
▪查询服务
▪集成服务
▪用户友好且自然的接口
纵向活动为OKN的内容做准备,将本体映射到OKN,从结构化或非结构化源中提取OKN中的信息。主要纵向活动包括:
▪收集具有代表性的问题
▪编译库存
▪设计原型
▪启用不同来源数据之间的互连
▪发展指标
OKN水平域分组会议
概述:该会议讨论了应该跨越OKN工作所有内容领域的基本技术方法和技术。在实践中,许多现有的知识图被实现为“实体存储”。
发言者列出了OKN的关键技术要素,包括使用唯一标识符对实体进行编目;匹配引擎链接文本与实体;将事实表示为“实体-关系-实体”三元组,并添加了出处和时间戳;以及处理歧义的标准化引擎。
他们强调指出,如果数据没有集成好,那么无论数量多少,其效用都是受限的。例如,data.gov拥有来自许多政府组织的约178,000个数据集,而NIH支持的DataMed拥有约150万个医疗数据集。然而,每个数据集都是孤立的;实现数据的集成以及相互之间的导航并不容易。OKN可以提供将所有分布式数据源视为一个数据源的方法——类似于Web搜索引擎,可以像访问单个站点一样访问整个分布式Web。
与会者指出了一系列OKN可能支持的各种问题和应用程序。例如,分子肿瘤板块可以使用OKN来解决癌症治疗的问题,如“某患者的癌症治疗到目前还没有效果;考虑到该患者的特定基因突变及家族史,哪些药物或近期的研究论文与该患者的细胞瘤有关?”
其他涉及OKN横向领域的其他问题还包括:
·我母亲患有霍奇金淋巴瘤,哪些治疗保险可以报销?
·肝肿瘤毛细血管系统中对索拉非尼无反应的细胞有哪些共同点?
·匹兹堡的孩子们有什么好玩的事可做?
·总部位于华盛顿的智库参与过哪些涉及南美贸易的项目?
·我所在的大楼地址是哪里?我在哪里可以叫到出租车?
应用的例子包括:
·应用程序(App)开发:为域X开发一个应用程序,该应用程序需要域Y中的实体(例如,一个完美的癌症应用程序应该能够为用户提供前往治疗中心的公交路线)。
·机器学习:允许在机器学习算法中使用二级和三级特性和集合。
·机器人技术:结合常识推理,让机器人理解环境,而不仅仅是感知环境。
·分析:科学家或分析师可以协调或分析不同数据集之间的数据。
总结:横向技术突破会议确定了以下开发OKN原型的关键因素:
·采用“三重”表示格式,以及出处和时间戳作为基本表示方案。
·一个包含推理能力的查询服务器(httpd equivalent4)。
·具有推理能力的集成服务器(相当于搜索引擎)。
·一个类似web浏览器指向数据的自然语言界面。
此外,身份验证也被称为“横向问题”,如果在一个应用领域解决了该问题,则在所有OKN域都可以使用。
OKN生物医学领域
概述:生物医学会议讨论了生物医学信息的复杂性,以及OKN处理这种复杂性的需求,提出了一种确定新药治疗方案的学术知识网络。这项研究中,针对尼古丁依赖等特定情况的药物治疗方案需要打通11个节点类型(包括遗传、复合类型和副作用在内)和225万个关系弧之间的通路。随着表观基因组学、环境因素以及重大药物实验数据库的加入,这个网络继续增长。
摘要:生物医学分组会议确定的主要行动是:
·通过共享将孤立的本体、数据资源、框架和项目组合在一起。
·制定OKN有效性的客观指标。
·开发有意义但易于处理的用例。
本体论是这个领域的“唾手可得的成果。NIH的SemanticMedLine就是一个例子,它有2500万篇文章,即使只有部分输入,也可以作为构建OKN原型的良好基础。
OKN地球科学领域
概述:地球科学会议确定了几个与OKN工作相关的资源。这些资源包括具有广泛覆盖面的社区本体和标准,或其他用于时间和空间的传感器本体。基础设施组件作为语义数据在地球科学中的示例被提到,例如带有语义应用程序编程接口的地球科学数据中心(APIs)和地球科学信息合作伙伴(ESIP)社区本体库。自然和人类模式的一体化是研究可持续性和自然资源管理的关键,也是迫切需要类似OKN能力的领域。与会者建议OKN最初的重点应该是NSF地球立方倡议。
摘要:地球科学突破会话的参与者讨论得出地球科学信息在OKN的相关性不仅针对科学家(目前努力整合数据的人),还要针对更广泛的用户,如决策者、企业、资源管理者,第一反应者以及公众。地球科学对OKN提出的具体挑战包括空间和时间的数据基础;存储大型数据集的需要(如3D网格);普遍存在与测量和建模数据中的不确定性;以及其他物体明确时空界限的缺乏,如风暴、海湾或断层。
提出了若干短期步骤:
·了解不同人对于地球科学问题的要求。例如,普通人会问“上个月马州贝塞斯达的空气质量趋势如何?”科学家想知道“在哈德逊河上游找到过去50年的渔业数据”。
·鼓励现有的地球科学数据库共享数据,通过扩展现有的社区活动以预填充OKN。
·将地球科学数据与OKN中的其他数据连接起来,比如健康和财务数据。
此外,此次会议还提出了关于地球科学中期步骤的建议,包括面向OKN地理空间和时间方面的自然语言接口;评估数据质量和不确定性的工具;连接数据到实体(例如,做数据收集的科学家、提供数据服务的数据中心以及处理数据的软件);处理OKN中的实时数据;以及定位所查询的假设场景。
OKN金融领域
概述:财务会议指出,典型的财务问题包括两种:一是确定某一实体是独立于其他实体还是与其他实体相互依赖;二是确定实体之间的关系(例如,从传统的财务报表和市场交易中,确定“合同”是一个主要实体)。在不同层次的实体之间也可能存在几种类型的关系。有了这样的结构,合同的执行可以看作是一个自动完成设备,也可以看作是数据的结构化。
金融界虽采用语义基础设施较晚,但早在2016年发起过一项挑战,要求使用金融数据进行实体标识。当时的一个案例研究使用了2008年美国金融危机时的住房抵押贷款支持证券。这些证券的金融供应链由用于公开招股说明书的文本分析方法构建。然后,用该数据集跟踪发行次级抵押贷款的金融实体对证券下游表现的影响。
摘要:金融突破会议的与会者认识到,与生物医学或地球科学领域相比,美国金融界在采用语义基础设施方面相对较晚,而语义基础设施是OKN的前身。人们需要针对OKN的激励机制进行仔细研究,并将其与当前业务模型保持一致,这有利于清楚地向用户社区展示有利的一面。可能的话,利用OKN可以使小型企业更具竞争力。例如,许多公司提供“了解您的实体”服务,其中一个公司可以使用OKN为小型企业开发类似的功能,以便用户能够获得与其所在行业相关的商业智能。例如,可以使用OKN查询,“公司Z是否太大了会倒闭?”以及“哪些资产属于Y公司?”
金融领域OKN近期的目标是输入相关的数据集,如美国证券交易委员会埃德加数据库或美国联邦储备委员会弗雷德数据库。此外,还需要一组简单的本体,例如与基本财务概念、财务事件和财务契约类型相关的本体。2018年,金融界发起了年度金融实体识别和信息集成数据挑战,重点是创建一个简单的OKN,以获取标准普尔500指数中两个不同行业企业的知识。挑战在于对一家种子金融机构的所有竞争对手进行排名。此外,工作组还确定了若干中长期任务,例如,加强北美行业分类系统对金融实体的分类,以及确定金融事件之间的复杂关系。
OKN智能制造领域
概述:智能制造会议讨论了对制造中使用的主要术语(例如描述产品或专利)进行系统分类的必要性,分类是集成制造数据的第一步。会议描述了OKN的五个用例:制造能力、产品、专利、机器人/传感器的使用和智能制造的互操作性。
总结:智能制造突破小组提出一个关注传感器的OKN示范,包括了传感器型号的元数据以及传感器收到或发出的数据类型。传感器数据可用于描述、诊断、预测以及处方,而且这些数据可能被纳入网络搜索引擎不经常搜索的目录中。清洁能源智能制造创新研究所可以提供包括目录和现实世界数据的资源,并支持试点项目。
传感器OKN试点项目最初的重点是确定用于制造OKN基础设施,包括选定的目录和大数据集。这部分完成之后,将再开发一些示例应用程序来演示OKN,然后将应用程序扩展到其他制造领域。
总的来说,参会者注意到,如果在这些所有的应用程序区域同时注入OKN,可能会带来显著的好处。可跨区域执行实体解析并搜索跨区域的信息。这将是一个令人兴奋的新功能,因为在过去跨越这些领域很难实现。
会议总结
人工智能、机器学习、自然语言技术和机器人技术都在推动信息系统的创新。开发这些系统核心的知识库、图表和网络价格昂贵,而且往往是针对特定领域,目前最大的开发集中于消费品(例如web搜索、广告投放和问题回答)。
这个开放并广泛的协会努力开发一个全国性的数据基础设施——一个开放的知识网络(OKN),该协会将合理分配研发费用,让广泛的相关群体和行业推动者可以不受领域限制地进行访问。这种基础设施将有潜力推动医药、科学、工程和金融领域的创新,并实现自互联网以来从未见过的新一轮爆炸性科学和经济增长。