文心ERNIE,百度AI产业化落地的一个样本

从百度发力AI算起,AI在中国商业化进程已超过10年,AI算法、算力、数据等基础设施均已完善。2020年的疫情,直接加速世界数字化与智能化进程,全社会对智能化达成高度共识。今年两会上,百度李彦宏、联想杨元庆、小米雷军等代表们的提案均关系到AI,强调要推动AI在交通、养老、制造等领域的应用落地,避虚向实。十四五规划纲要中,“科技”出现36次,“数字”出现17次,“智能”出现7次,规划纲要明确要“推动互联网、大数据、人工智能等同各产业深度融合。”

2021年将是AI产业化的关键年,那么AI产业化的关键是什么?从百度知识增强语义理解平台“文心ERNIE”的应用历程,可以管中窥豹。

AI产业化的关键到底是什么?

百度文心ERNIE的发展历程可追溯到2013年,当时百度基于神经网络语义匹配技术改进搜索效果,让网页搜索相关性显著提升。2018年10月谷歌发布预训练模型BERT,掀起了自然语言处理技术范式的革命。百度不甘示弱,基于多年来的AI技术积累,在2019年3月发布并开源知识增强的预训练模型文心ERNIE1.0,在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类中文任务上的效果超越BERT;同年7月,发布持续学习的语义理解框架文心ERNIE2.0,在16个中英文任务上超越BERT和XLNet。

百度文心ERNIE本质是语言与知识技术平台,被归类为认知智能,其让机器具有认知能力,是人工智能最关键的一环。截至目前,文心ERNIE已被广泛应用于百度搜索引擎、信息流、智能音箱等几十个内部产品;同时通过百度大脑对外开放,累计支持超过2万名开发者,广泛应用于金融、通信、教育、互联网等行业。

距离正式推出只有两年时间,百度文心ERNIE是如何实现产业化的快速落地的?

首先,打铁还需自身硬,AI要技术先行。

AI产业化本质是让AI技术在行业应用落地,助力对应产业降本增效与创新升级,足够强大的AI技术是最大前提。文心ERNIE就是百度AI技术先行的代表。一方面,百度AI重视底层核心技术的自主研发,而不是拿来主义,深度学习平台飞桨PaddlePaddle与百度文心ERNIE均秉持这一理念。另一方面,百度从未停止技术迭代,因为AI算法要基于数据与场景的锤炼不断进化,提高智能能力,百度文心ERNIE就是百度沉淀多年的NLP与知识图谱技术的集大成者。

不断拿下世界级大奖,足以证明百度文心ERNIE的技术实力。基于文心ERNIE,百度在2019年12月以超越人类3个百分点水平摘得自然语言处理权威数据集GLUE全球第一,在9个任务平均得分首次突破90大关,刷新该榜单历史,相应成果受到国际顶级科技商业杂志《MIT Technology Review》官方报道。2021年3月,在GLUE新排名中,百度文心ERNIE以90.9的分数再登榜首,领先微软 DeBERTa/TuringNLRv4、谷歌 T5以及阿里巴巴、华为等研发的同类别技术。

其次,提供开发套件,跨越AI产业化技术鸿沟。

AI技术应用到产业,存在较大技术鸿沟。对于大多数开发者特别是传统软件开发者来说,AI技术门槛太高,给这些开发者提供简单易用的AI技术解决方案至关重要。

2016年百度开始通过百度大脑开放语音技术、视觉技术、自然语言处理在内的数百项AI能力。百度熟知开发者在应用AI技术时面临的门槛高、复杂度高等痛点。基于此,百度文心ERNIE不是像公有云开发平台一样提供API,而是在2019年11月发布了“文心ERNIE语义理解开发套件”,让不同行业的开发者可以快速、简单、轻松地开发AI应用。

可见,AI技术平台不应该只是底层API,而应该解构AI技术,结合产业特性,提供开发工具组合,让传统IT开发者可以快速轻松拥抱AI。

最后,百度先吃螃蟹,“从内到外”全面落地。

百度文心ERNIE源于2013年百度推出的神经网络语义匹配技术,其最初被用于改进搜索结果相关性。百度文心ERNIE也是在百度搜索等自有业务场景锤炼成熟后,才对外开放。应用于百度自有业务时,在海量知识与数据的锤炼下,百度文心ERNIE技术持续进步,ERNIE2.0模型已学习1500万篇百科语料和词语、实体知识,700万个人类对话,3亿文章的因果结构关系,10亿次搜索查询与结果的对应关系,以及2000万的语言逻辑关系知识。在这些数据的“填喂”下,百度文心ERNIE技术持续进化,在内部锤炼成熟后,2019年百度文心ERNIE才对外开放给各行各业。

为什么百度文心ERNIE的开放对AI产业化很重要?一方面,语义理解是AI基础能力,AI应用均很难绕过,百度文心ERNIE有较大的通用性,其可快速适应各行各业的产业场景,通过开发套件这种模式,直接降低了行业应用难度。另一方面,百度文心ERNIE是百度AI开放“武器库”的一件武器,百度大脑AI开放平台汇聚深度学习平台飞桨、AI Studio、EasyDL零门槛AI开发平台等平台,语音、图像、文字识别、人脸、NLP、知识图谱等AI能力,在各行各业深耕多年聚集了开发者、行业影响力与技术资源,百度文心ERNIE“站在巨人肩膀”上快速普及。

不只是百度文心ERNIE,百度开放的各种AI应用,均是先在自有业务应用、锤炼与进化,到一定阶段再开放给行业,在AI产业化的海量场景中进一步锤炼学习进化,反过来让AI技术则得到进一步提升,这种“由内到外”的开放模式,形成了正循环效应。

AI产业化是一个系统工程

AI产业化是十四五期间我国经济发力的一个重要方向。在经历贸易摩擦后,我国更加意识到自主技术的重要性,AI是未来科技的制高点之一,掌控自主核心科技更有必要,因此在AI产业化进程中,我国强化自主核心AI科技是可预见的趋势。

今年3月,由斯坦福大学发起的人工智能指数(AI Index)报告显示,中国在AI学术工作方面的成绩超过美国。多年前,中国的 AI 期刊发表文章数量即超过美国,现在中国首次在期刊引用量上占据了优势。AI Index 联合主席 Jack Clark 表示: “各种维度的文献分析表明,在人工智能发展方面,美国和中国已经成为彼此对等的国家。”

AI产业化是我国的重大机遇,依托产业资源和市场规模,中国AI产业化更加务实,整体进程有望领先世界。当然,要确保这一点,国家顶层设计、人才生态建设与AI产业生态都不可或缺。

从十四五规划纲要来看,我国在支持AI产业化上已经有较为完整的顶层设计,涵盖底层技术、产业应用、社会民生等领域。十四五规划纲要指出,要加快建设新型基础设施,“围绕强化数字转型、智能升级、融合创新支撑,布局建设信息基础设施、融合基础设施、创新基础设施等新型基础设施。”在“加快数字化发展 建设数字中国”独立篇章则指出,要加强关键数字技术创新应用,“聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域,加快推进基础理论、基础算法、装备材料等研发突破与迭代应用。”

在人才生态上,百度等企业与学校通过产学研融合模式培育AI人才,百度事实上已成为高端AI人才的“黄埔军校”,同时百度已宣称将给行业培养100万AI人才,2020年百度推出两个“500万”计划:预计到2030年,百度智能云服务器台数超过500万台;未来5年,预计培养AI人才500万。去年两会,李彦宏在提案中就曾指出要加强人工智能基础和应用人才培养,今年明确提出进一步加强人工智能教育体系建设,让更多人实现高质量就业。

在AI生态上,以百度为首的AI巨头正持续构建繁荣的AI开放生态。百度智能云面向垂直行业提供端到端解决方案,帮助对应产业快速实现智能化转型,例如在智慧城市赛道,百度智能云用“云智一体”助力北京海淀打造智慧城市“样板间”的案例刊登上《人民日报》;飞桨则已凝聚超265万开发者,服务10万家企业,基于飞桨平台创建了超过34万个模型,在城市、工业、电力等很多关乎国计民生的领域都有飞桨在发挥作用,比如其携手国家电网和山东信通打造电网智能巡检方案,分析准确率达到90%,报警响应速度更是从小时级提升为秒级。独乐乐不如众乐乐,AI开放让百度在AI产业化浪潮中扮演“基础设施承建商”的赋能角色,百度将在创造价值中获取价值。

日前百度已成功在港交所二次上市。在上市仪式现场李彦宏致辞称,百度是一家始终相信和热爱技术的公司,他将百度前二十年的技术布局分为两个阶段:最初10年专注搜索技术开发,演化出语音、图像、知识图谱、自然语言处理等人工智能技术,最近 10 年,“我们在深度学习、对话式人工智能操作系统、自动驾驶、AI 芯片等前沿领域投资,让我们成为一个拥有强大互联网基础的领先 AI 公司。” 文心ERNIE正是从搜索技术“演化”出的AI技术。

2005年百度登陆纳斯达克的标签是“最大中文搜索引擎”,今天百度回归港交所,最新标签已变为“拥有强大互联网基础的领先 AI 公司”,李彦宏说,回到香港二次上市,是百度的再次出发,是百度的二次创业。在AI产业化的关键年,百度10年来沉淀的AI技术价值,正在被开发者社区、传统产业与资本市场认可,在AI产业化浪潮中,百度大概率会成为最亮眼的那朵浪花。

(0)

相关推荐