【金猿技术展】文心ERNIE——基于知识增强的语义理解技术

百度技术

该技术由百度申报并参与“数据猿年度金猿策划活动——2020大数据产业创新技术突破榜榜单及奖项”评选。

大数据产业创新服务媒体

——聚焦数据 · 改变商业


文心(ERNIE)是一个取得世界级突破的语义理解技术与平台,依托百度的深度学习平台飞桨打造,将机器理解语言的水平提升到新的高度,全面刷新了各项NLP任务的世界最好效果,取得了诸多权威语义评测比赛的世界冠军。除语言理解外,提出的基于多流机制生成完整语义片段语言生成技术ERNIE-GEN、知识增强跨模态语义理解技术ERNIE-ViL等,均达到世界领先水平。

文心平台基于领先的语义理解核心技术,内置百度自研业界效果领先的预训练模型集ERNIE和全面领先的算法集,将文本数据处理、基于深度学习的模型训练、模型评估和上线部署等NLP开发流程进行易用性封装,为NLP开发者提供一整套效果领先、简单易用、高效灵活的NLP模型开发服务,文心平台已广泛应用于金融、通信、教育、电商等行业。

技术说明

文心的核心技术优势在于,它开创性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化,如同人类持续学习一样。

文心在语言生成领域也取得突破,提出了业界首个基于多流机制生成完整语义片段的预训练语言生成技术ERNIE-GEN,该技术在各类语言生成任务上也显著超越国际最好效果。

2020年7月,文心在多模态语义理解领域取得突破,提出了业界首个基于场景图知识增强的多模态预训练模型ERNIE-ViL,在多项典型多模态任务上刷新世界最好效果。

自2019年3月诞生至今,文心已经完成了3次重要迭代,并在多个公开权威语义评测中获得了近十项世界冠军。2019年12月,文心就在国际权威的通用语言理解评估基准 GLUE 上,首次突破90分,超过人类水平3个百分点,刷新榜单得分并获得全球第一。2020年3月,在全球最大规模之一的语义评测 SemEval 2020上取得了5项世界冠军。2020年7月,文心登顶视觉常识推理权威榜单 VCR。2020年7月9日,文心(ERNIE)获世界人工智能大会(WAIC)最高奖项SAIL奖。

文心相关创新成果也被人工智能顶级学术会议 AAAI 2020和 IJCAI 2020收录,并被全球顶级科技商业杂志《麻省理工科技评论》、德国光谱杂志,以及韩国 AITimes、日本 AI-SCHOLAR 等多国权威科技媒体官方报道。此次获得 SAIL 奖,是对文心技术创新和应用探索的再一次肯定。

开发团队

带队负责人:孙宇

隶属机构:百度

北京百度网讯科技有限公司是百度旗下公司,成立于2001年6月5日,公司人员规模为5000-9999人。

相关评价

百度预训练模型ERNIE超越微软和谷歌获得自然语言处理领域权威数据集GLUE最高分。GLUE测试的满分为100分,人类的平均得分大概在87分左右,百度ERNIE则是在业界首次突破了90分。百度的成就能够表明多样化的贡献参与将有助于推动人工智能研究。ERNIE采用了连续培训的方法,在培训新数据和新任务的同时又不会遗忘已经积累的知识。如此,在不怎么需要人工干预的情况下,就能够越来越好的执行更广泛的任务。

——全球顶级科技商业杂志《麻省理工科技评论》

2019年11月,ERNIE2.0论文《ERNIE 2.0: A Continual Pre-Training Framework for LanguageUnderstanding》被人工智能顶级会议AAAI录用并被选为Oral展示。

2020年1月,推出首个基于多流(multi-flow)机制生成完整语义片段的预训练模型ERNIE-GEN,在摘要生成、问题生成、多轮问答等五个语言生成任务上刷新了SOTA效果。

2020年3月,在全球规模最大的语义评测比赛SemEval 2020中,ERNIE斩获5项世界冠军,囊括视觉媒体的关键文本片段挖掘、多语攻击性语言检测和混合语种的情感分析。

2020年4月,语言生成预训练模型ERNIE-GEN论文被人工智能顶级会议IJCAI录用,在5个生成类任务上取得了SOTA效果。

2020年5月,基于知识增强的持续学习语义理解技术ERNIE荣获《2020年度中国人工智能学会优秀科技成果》。

2020年7月,发布ERNIE-ViL,首次将场景图知识融入多模态预训练,刷新了5项多模态任务纪录,并登顶权威榜单VCR。

(0)

相关推荐