让AI抛弃“小作坊”,拥抱“工业化”:盘古大模型究竟是什么?
如果你想要一台冰箱,结果只能买到压缩机,金属面板、塑料储物盒,需要自己进行组装;如果你想要一台汽车,结果拿到一坨橡胶,需要自己从头造轮胎,你将会是什么心情?
目前AI开发的状态与上面举的例子很像。熟悉AI的朋友知道,AI应用开发是碎片化、定制化的,场景稍有变化就要重新进行数据处理,海量参数调优,反复迭代。如果模型达不到期望的目标,还要把这个过程推倒重来,模型开发周期动辄一个月,甚至数月。这种耗费大量人工的方式说明AI开发还处于作坊模式中。
在2021WAIC期间,华为云盘古预训练大模型被评选为大会的“镇馆之宝”,为AI带来了工业化开发新模式。我们不妨就着“镇馆之宝”四个字,来掰扯掰扯盘古大模型究竟是什么,预训练模型又与AI工业化之间存在着怎样的关联。
2018年GPT 和 BERT的横空出世,引发了AI行业内外的共同关注。NLP领域的大规模预训练模型,从逻辑上来解释的话,就是采用自监督学习能力在大规模算力的支持下学习海量参数的数据。这不仅让NLP算法能力有了革命性突破,还将大量原本需要用户完成的训练任务预先完成。打个比方,这就像学校先把各种知识教给学生,让他有了基本的行业常识,而不是等到进入企业之后再从头识字,从而降低了企业的培训成本。
如今,大规模预训练模型已经成为全球主流AI厂商、研究机构的“必备功课”,训练参数与算力投入量也水涨船高。OpenAI在2020年发布的GPT-3已经达到了1750亿参数量、上万GPU的惊人训练规模。可以说,大规模预训练模型既要考验厂商的算法创新、调参与优化能力,又是对数据能力、并行计算能力、网络架构能力、开发工具和能力的全面大考。想要让AI在厂商一侧就变成工业化、标准化的“准完成品”,需要投入的技术实力与产业资源都远超大部分AI产品。
想要“镇”住AI工业化中出现的种种挑战,练就真正能解决问题的AI大模型,需要同时具备高效算法、澎湃算力,海量数据吞吐能力基础。
在2021WAIC开幕式上,华为轮值董事长胡厚崑在演讲中介绍了盘古大模型。他认为当前AI的普及应用的瓶颈首先不在技术上,技术已经有了相当的发展,也不在应用上,因为应用的需求都已经蓬勃而出了。它的瓶颈在于开发的效率上,现在的开发效率太低,AI应用的开发太慢,它严重阻碍了技术和需求的结合。
为了提高AI的开发效率,华为云联合伙伴推出了盘古系列预训练大模型,包括业界首个兼具生成与理解能力的中文语言(NLP)大模型和视觉(CV)大模型。
想要具体感知到华为云盘古大模型的能力,我们到WAIC的展馆中一探究竟。盘古大模型在现场展示了成语填空、阅读理解、快速分类三种能力。甚至连 “明明明明明白白白喜欢他,但他就是不说”这种奇葩句子,盘古大模型也能判断出“白白喜欢谁?”“谁喜欢明明?”等问题。
优质的大模型需要三个核心能力,即:可以吸收海量数据的超大型神经网络、强壮的网络结构、优秀的泛化能力。华为云盘古预训练大模型除此之外,还有哪些独特优势呢?
首先,盘古预训练大模型拥有领先的技术创新。
盘古NLP大模型首次使用Encoder-Decoder架构,兼顾NLP理解与生成的能力,且性能领先;在NLPCC生成任务上,Rouge score取得第一,比第二名提升60% 以上。该架构多任务学习的方法,能够让大模型训练更加稳定;同时基于提示的微调, 能够在小样本学习上超越GPT系列。训练盘古NLP大模型使用了40TB的文本数据,包含了大量的通用知识,同时也沉淀了华为云的许多行业经验。盘古CV大模型在业界首次实现了模型的按需抽取,不同部署场景下抽取出的模型体积差异,动态范围可达三个数量级;提出的基于样本相似度的对比学习,凭借小样本学习能力在ImageNet上取得了业界领先的成绩。
其次,盘古预训练大模型拥有丰富的技术沉淀及应用实践。
盘古预训练大模型已经在多个行业、100多个场景成功验证,包括能源、零售、金融、工业、医疗、环境、物流等等。其中,在能源领域,盘古预训练大模型帮助行业客户实现设备能耗的智能控制,可以节约电力成本50%;在金融行业中的异常财务检测,让模型精度提升20%以上;在尘肺检测中,病例识别准确率提升22%等等。
盘古已经在近百个行业场景中进行了应用,未来,华为云盘古预训练大模型还将上线华为云AI资产共享社区(AI Gallery),将AI能力进一步开放出来。
既名“盘古”,便应该去开辟一些什么。翻过AI工业化的山丘,彼端每一家企业、每一位开发者的心中都应该有一个“盘古”。