不变的初心,百度飞桨开源生态的坚持与坚守
三年前,李彦宏撰写《智能革命》一书时,人工智能还是“将来时”。
2020年的岁末,当我们回头审视即将过去的一年时,猛然发现人工智能已经在交通、金融、能源、制造等行业应用开来,在我们生活中的大量场景渗透进来。
我们惊诧于人工智能的发展速度,站在“新基建”、“十四五”规划等国家战略的时代背景之下,产业智能化大潮的翻涌之中,我们同时也在思考,人工智能技术发展与落地的速度还会更快,越来越快吗?
百度首席技术官王海峰在12月20日召开的“WAVE SUMMIT+2020”深度学习开发者峰会上演讲时表示,“开源开放的精神内涵,已不仅是技术开发领域的协作机制,更是驱动技术创新和加速产业发展的核心动能”。被称为AI时代操作系统和百度AI底座的开源深度学习平台飞桨也带来了八大全新发布与升级。
1
产业智能化升级浪潮下,令人诧异的飞桨速度
产业智能化升级浪潮的来势到底有多猛?
我们平时看到的,感受到的一些智能化变化或许过于主观,难以从全局视角对这个问题进行很好的回答,“WAVE SUMMIT+2020”深度学习开发者峰会上,百度集团副总裁、深度学习技术及国家工程实验室副主任吴甜提炼了飞桨上的一些数据,将当前这场智能化升级的时代浪潮进行了立体展示。
其一,产业智能化升级的广度和深度不断扩展,在飞桨平台上,使用AI进行行业应用开发的行业品类明显在增加,非互联网IT行业占比从2018年的53.4%现在已经增长到67.9%。
其二,AI开发者活跃度在全国各地均持续增高,全国范围内,开发者AI热情升温,很多城市的开发者开始拥抱AI,过去一年中增速最高的5个城市分别为佛山、东莞、重庆、福州、天津。AI开发者热度从一线城市向二三线城市迁移,说明产业智能化升级的需求也开始下沉,同时AI开发者的活跃成为了城市发展的新活力。
其三,越来越多高校老师关注人工智能课程,在高校AI培训覆盖的学科数量也在明显的增加,从数据上看到,非计算机专业的高校教师占比从2019年的35%已经增长到了2020年的45%。越来越广的专业领域也在开始拥抱AI了。
一面是国家战略和政策的助推,一面是巨大的市场需求,飞桨作为中国自主可控的深度学习平台,此时既迎来机遇,又承担下责任。
产业智能化升级的车轮滚滚向前,飞桨跟上时代趋势的做法是对自身进行再升级,再强化,本次峰会上,百度飞桨一口气带来了八大全新发布与升级。
其中包括,有支持前沿技术探索和应用的生物计算平台PaddleHelix螺旋桨,开发更加便捷的飞桨开源框架2.0 RC版,端云协同的AI集成开发环境BML CodeLab,支持更强大分布式训练的业界首个通用异构参数服务器架构,开源算法库增至200+,飞桨企业版EasyDL智能数据服务升级,飞桨硬件生态路线图以及携手全球开发者开启“大航海”计划。
特别是生物计算平台PaddleHelix螺旋桨,先期将开源螺旋桨生物计算开源工具集,提供包括RNA二级结构预测、大规模的分子预训练、DTI药物靶点亲和力预测以及ADMET成药性预测等在内的新药研发和疫苗设计环节的核心能力,帮助生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴,更便利地构建AI算法模型。
可以说,产业智能化的浪潮汹涌向前的速度有多快,飞桨奔跑的速度就有多快。
2
飞桨速度的背后,什么才是产业智能化升级的核心逻辑?
我们心中或许会有疑问,飞桨为何能够高速奔跑,什么又支撑了飞桨速度的产生?
我们先来看百度飞桨在峰会上公布的一组数据。
目前,飞桨平台上已凝聚265万开发者,开源贡献者超过5000万,有97位优秀的开发者成为飞桨开发者技术专家(PPDE);在产业应用上,飞桨服务了10万+企业,创造了34万+模型……
很显然,飞桨已经扎根于产业智能化升级的事业之中,与开发者和产业都产生了深度关联:开发者需要什么,飞桨就去做什么;产业智能化遇到了哪些问题,飞桨就去解决它。双向反馈的速度越来越快,造就了飞桨升级的速度也越来越快。
比如,为了让开发者有更好的开发体验,飞桨发布了开源框架V2.0 RC版本,“编程一致、动静统一”,同时还能更好的支持深度概率编程、量子机器学习等前沿学术研究;
比如,今年的疫情让我们对药物研发、疫苗设计等生物工程的效率有了更高的期待,于是飞桨发布了生物计算平台PaddleHelix螺旋桨进行跨界探索。
再比如,宁德时代为解决产品品控和生产效率的问题,需要计算机视觉的大量应用,百度飞桨提供了视觉检测方面的能力,将宁德时代的产品瑕疵目标从百万分之一提高到十亿分之一。
将飞桨速度进行整体总结,飞桨高速迭代,飞速奔跑的最终目的既简单又纯粹,即让AI开发具有更高的技术能力和更低的进入门槛,从而为产业智能化升级的广度和深度提速。
通过此次升级的主要内容,我们来看看围绕着一高一低的核心逻辑(有更高的技术能力和更低的进入门槛),飞桨是如何落地实践的。
首先,提升技术能力上,飞桨通过升级开发性能来实现。
本次推出业内首个通用异构参数服务器架构和升级开源算法库这两项动作中,前者实现了更强大的大规模分布式训练,在训练效率上大幅提升;后者将官方算法数量从140+扩展至200+,同样在能力上保持着持续进化。
为了强化飞桨企业版的服务能力,其底层技术也在不断迭代,本次峰会还升级了EasyData智能数据服务平台,大幅提升智能标注的效能,新增多人标注能力以及高级智能清洗能力。
其次,降低应用门槛方面,很多产业开发者并不具备深厚的AI功底,但又有解决问题的实际需求,飞桨站在开发者的角度,不断推出新的工具来帮助开发者。
此次峰会推出的端云协同的AI集成开发环境BML CodeLab就为AI算法开发者提供了更友好的开发体验,其开箱即用的客户端内置飞桨文心(ERNIE)NLP套件及单机高性能技术引擎,最重要的是它可以无缝扩展到包括百度智能云在内的多个云端算力平台,极大加强了客户端的可扩展性和灵活性。
飞桨对工具、套件及时升级,甚至提前准备好,AI开发的门槛大大降低,产业智能化的进程也大大提速。
产业智能化浪潮的推动造就了飞桨速度,飞桨同时又在反哺着产业智能化,双方协同互促之下,展现的是一幅可以产生奇迹的产业蓝图。
3
厚实繁荣的生态底座,没有终途的开源之路
飞桨之所以能够在产业智能化升级的浪潮中创造飞桨速度,厚实繁荣的开源生态底座是其中关键,起到了巨大的支撑作用。
在讨论飞桨的开源生态之前,我们先来看看几个开发者的故事。
13岁的陈奕帆,只有六年级,但在今年的百度之星大赛中,与上万名博士、硕士同台角逐,并最终杀入决赛,获得百度之星决赛未来之星特别奖,成为百度之星办赛16年来杀入决赛的年龄最小的开发者。
芯片企业工程师安宝磊,在飞桨上贡献的代码量累计超过3600行,他的代码已经在很多的场景中落地运行起来了。安宝磊表示,希望自己的努力能够把AI带入到各行各业中。
飞桨开源社区网友“GT-老张”,一直在飞桨社区进行答疑,现在累计答疑超过12000次,帮助了超过两万名开发者,老张在社区里答疑的时候不分昼夜,大家都称他为飞桨答疑机器人。
站在开发者的角度,飞桨生态如此活跃,给了我们足够的惊喜,究其原因,唯有对开源二字的坚持与坚守。
不同于技术研发,可以有很多路径和思路,开源生态的建设并没有太多可以讨巧的“捷径”,能够发力的方向也仅仅只有产业应用、人才培养和开源社区这三个方面。
飞桨的生态构建也是从这三方切入,如果硬要说出有什么不同,那么就是飞桨建设生态工作落地时不打折扣的执行效率。
产业应用的普及与渗透速度我们不需要再做过多描述,人才培养方面,飞桨致力打造产学研用一体化,形成人才培养闭环。
飞桨生态内,已构建起涵盖“学习、实践、比赛、认证、就业”的开发者全周期服务体系。学习与实训社区AI Studio学习资源数增长180%,累计学习人次290万。12期高校师资培训班覆盖国内所有头部高校,支持超过200所高校开设AI学分课。AI Studio名师专栏首期引入台大教授李宏毅最新系列课程,配套实践项目,帮助开发者边学边练。
飞桨在峰会上还发布了大航海计划,包含面向核心开发者的“领航”、面向人才培养的“启航”和面向产业智能化升级的“护航”三个部分。本次正式发布围绕高校人才培养的启航计划:未来三年,飞桨将投入总价值5亿元的资金与资源,支持全国500所高校,重点培训5000位高校AI教师,联合培养50万AI未来人才。
今年5月,百度发布星辰计划,通过向全社会开放技术、共享流量和生态资源,同时提供一定资金支持,来鼓励公益领域的科技创新,获得了大量开发者和项目团队的响应,涌现了很多极具创新和价值的项目。
本次峰会上,AI濒危物种保护项目、AI文物保护项目、AI沙漠栽树机器人这三个公益项目获得了星辰计划基金,未来将在百度的帮助下进一步孵化。
开源社区建设,则从社区开发者的共建、共享,通过开源开放来驱动技术的创新,像珠算深度概率编程,就是飞桨团队与清华朱军教授团队共同合作,依托飞桨框架和动静统一的开发体验而完成的。
在这个过程中,百度飞桨持续的人才、资金与资源的投入,使得开源生态的底座更加繁荣与厚实,由此飞桨也构建了自己独特的竞争优势,在对开源使命初心的坚持与坚守之下,这场智能化升级的浪潮将持续的更加迅猛与长久。