“中文版GPT-3”来了:会算术、可续写红楼梦,用64张V100训练了3周


  磐创AI分享  

来源 | 量子位(QbitAI)

编辑 | 晓查、发自、凹非寺

今年,OpenAI推出的自然语言模型GPT-3引起了巨大的轰动。

这是迄今为止最大的NLP模型,包含1750亿参数,光是训练就调用上万块GPU,花费了460万美元的成本。

但GPT-3是基于英语语料库进行训练,而且并不开源,业内一直期待着能有一个中文的超大型NLP模型。

现在,它终于来了!

最近,北京智源人工智能研究院和清华大学研究团队,合作开展了一项大规模预训练模型开源计划——清源CPM (Chinese Pretrained Models)。

11 月中旬,CPM将开放第一阶段的26亿参数规模的中文语言模型 (CPM-LM) 和217亿参数规模的结构化知识表示模型 (CPM-KM) 下载,以及相应的Demo。

该项目的源代码和模型已经在GitHub和官网开放下载。

CPM中文语言模型与GPT-3模型类似,仅需要通过少次、单次学习甚至零次学习,就能完成不同自然语言处理任务,具备一定的常识和认知的泛化能力。

官方表示,清源CPM计划所有模型免费向学术界和产业界开放下载,供研究使用。

模型特点

与已有的中文预训练模型相比,本次发布的清源 CPM 大规模预训练模型具有以下特点:

1、语料丰富多样:收集大量丰富多样的中文语料,包括百科、小说、对话、问答、新闻等类型。

2、模型规模大:本次发布的 CPM-LM 的参数规模为 26 亿,预训练中文数据规模100 GB,使用了 64 块 V100 GPU 训练时间约为 3 周。

3、学习能力强:能够在多种自然语言处理任务上,进行零次学习或少次学习达到较好的效果。

4、行文自然流畅:基于给定上文,模型可以续写出一致性高、可读性强的文本,达到现有中文生成模型的领先效果。

Demo展示

为了更直观地展示清源CPM预训练模型的效果,官方提供了一些文本生成的Demo。

GPT-3能胜任的常识性问答,CPM预训练模型一样可以应对:

它能够根据真实的天气预报内容,生成天气预报文本模板:

除了生成文字外,清源CPM还具有一定的数理推理,根据之前的规律生成计算结果:

甚至可以续写红楼梦片段:

另外,智源和清华团队还在几项基准测试中验证了清源CPM的实际性能。

1、中文成语填空

ChID 是 2019 年清华大学对话交互式人工智能实验室(CoAI)收集的中文成语填空数据集,其目标是对于给定的段落,在 10 个候选项中选择最符合段意的成语进行填空。

表中汇报了预测的准确率,可以看到,CPM(大) 在无监督的设定下甚至达到了比有监督的 CPM (小) 更好的结果,反应了清源 CPM 强大的中文语言建模能力。

2、对话生成

STC是2015年华为诺亚方舟实验室提出的短文本对话数据集,要求在给定上文多轮对话的条件下预测接下来的回复。

在无监督的设定下,清源 CPM 具有更好的泛化性,在有监督设定下,清源 CPM 能达到比 CDial-GPT 更优的效果,尤其在多样性指标上表现更佳。以下为生成的对话样例。

3、文本分类

清源 CPM 使用头条新闻标题分类 (TNEWS,采样为4分类),IFLYTEK应用介绍分类 (IFLYTEK,采样为4分类),中文自然语言推断 (OCNLI,3分类) 任务作为文本分类任务的基准。

可以看出,清源CPM能够在无监督的设定下达到比随机预测 (TNEWS/IFLYTEK/OCNLI 随机预测精确度分别为0.25/0.25/0.33) 好得多的精确度。

4、自动问答

CPM 使用 DuReader 和CMRC2018 作为自动问答任务的基准,要求模型从给定的段落中抽取一个片段作为对题目问题的答案。其中DuReader 由百度搜索和百度知道两部分数据组成。

在单样本设定下,CPM 能从给定的样本中学习到生成答案的模式,因此效果总是比零样本设定更好。由于模型的输入长度有限,多样本输入的场景将在未来进行探索。

5、实体生成

CPM 采用 XLORE 中的几种常见的关系三元组作为实体生成任务的基准。在少样本设定 (把少量真实样本拼在待预测样本前作为提示) 下,不同规模的 CPM 模型的 BLEU-1 值如下表所示。

可以看出参数量越大时,模型对于预测实体效果越好。同时,模型在给定 2 个样本时就可以达到不错的效果,大部分时候 N=2 和 N=4 的效果是接近的。

64块V100训练3周

智源和清华本次发布的大规模预训练模型,难以在单块GPU上运行,因此需要将模型在多个 GPU之间分配参数,进行并行化训练。

CPM正是基于英伟达的大规模并行计算训练项目Megatron-LM。

CPM模型预训练过程分布在多块 GPU 上,采用层内并行的方法进行训练,并基于当前已有的成熟技术,减少同步提高通讯速率。

本次发布的CPM-LM的参数规模为26亿,预训练中文数据规模100GB,使用64块英伟达V100 GPU,训练时间约为3周。

而CPM-KG的参数规模为217亿,预训练结构化知识图谱为WikiData全量数据,包含近 1300 个关系、8500万实体、4.8 亿个事实三元组,使用了8块英伟达V100 GPU训练时间约为2周。

未来计划

今年年底开源的两个项目只是清源NLP研究计划的第一步,据了解,清源 CPM 未来一年的研究和开源计划是:

  • 阶段1 (2020年10月-12月):中文大规模预训练语言模型,含约 30 亿参数,训练数据包括 100GB 中文数据。

  • 阶段2 (2021年01月-06月):以中文为核心多语言大规模预训练语言模型,含约 200 亿参数,训练数据包括 500GB 以中文为核心的多语言数据。

  • 阶段3 (2021年07月-09月):知识指导的大规模预训练语言模型,含约 1000 亿参数,训练数据包括 1TB 以中文为核心的多语言数据和亿级实体关系图谱。

清源 CPM 计划将积极配备算力、数据和人力,注重开展原创研究,尽早实现与国际顶尖机构在超大规模预训练模型技术方面并跑,提升中文自然语言的深度理解和生成能力。

与此同时,智源研究院也将积极与产业界合作,在智能客服、个性推荐、文本生成、自动编程等方面,探索新型的人工智能应用和商业模式。

关于清源CPM计划

清源CPM计划是以中文为核心的大规模预训练模型。

首期开源内容包括预训练中文语言模型和预训练知识表示模型,可广泛应用于中文自然语言理解、生成任务以及知识计算应用。

清源CPM计划由北京智源人工智能研究院和清华大学研究团队合作开展。“自然语言处理”是智源研究院重点支持的重大研究方向之一。

智源在该方向上集结了大量国内权威学者,这些学者在NLP领域积累了丰富的研究成果。

如清华大学孙茂松刘知远团队和李涓子唐杰团队提出了知识指导的预训练模型 ERNIE 和 KEPLER,循环智能杨植麟团队提出了性能显著优于 BERT 的 XLNet 模型,清华大学朱小燕黄民烈团队提出了面向情感分析的预训练模型 SentiLARE,融合常识知识的预训练语言生成模型 StoryGPT,面向中文对话生成的 CDial-GPT模型,等等。

研究团队将在智源研究院大规模算力平台的支持下,开展以中文为核心的超大规模预训练模型研究,包括跨语言学习、文本生成、知识融合、模型并行和压缩等前沿课题,并将相关模型及时通过智源社区开源共享。

传送门

清源CPM项目主页:
https://cpm.baai.ac.cn/

清源CPM源代码主页:
https://github.com/TsinghuaAI/CPM-Generate

(0)

相关推荐

  • 人工智能的未来与目前的困难

    人工智能在当今世界越来越流行.许多行业都有人工智能的名字,人工智能已经成为几乎所有互联网技术公司的必备基因.就连很多制造企业都要谈人工智能,就像人类一夜之间就进入了人工智能时代一样. 但是很多企业只是 ...

  • GPT-3记录被打破!谷歌推出1.6万亿参数的人工智能语言模型

    古谚道:"熟读唐诗三百首,不会作诗也会吟." 这句话放在目前的人工智能语言模型中也非常适用. 此前,OpenAI 的研究人员开发出 "GPT-3",这是一个由 ...

  • 写作神器还是魔鬼化身?万能语言模型GPT-3起底

    「工程壮举」「人间奇迹」GPT-3,会让人类离没事做又近一步吗? 编译 |  心缘 编辑 |  漠影 2020年6月,在训练约2000亿个单词.烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红. ...

  • 【NLP】GPT:第一个引入Transformer的预训练模型

    目前两种最重要的预训练语言模型,一种是前面介绍过的BERT,另外一种就是GPT. GPT出了两个版本,GPT1.0和GPT2.0,GPT2.0相对于GPT1.0差别不大,可以认为是它的增强版.本篇介绍 ...

  • GPT-2:OpenAI的NLP商业化野望

    自然语言处理(NLP)技术正在生活的方方面面改变着我们的生活. 客厅的智能音箱在跟你每天的对话中飞速进步,甚至开始跟你"插科打诨"来适应你的爱好习惯. 电商客服总是能在第一时间回复 ...

  • 被捧上天的GPT-3,商业化之路怎么走?

    对于我个人来说,刚刚步入媒体圈,职业生涯就将遭遇一次非常严重的AI威胁. 因为GPT-3来了,而且在写文章.编故事的能力上面比上一代更能打了. 今年5月,已经得到微软Azure算力加持的OpenAI放 ...

  • 开启NLP新时代的BERT模型,是怎么一步步封神的?

    NLP领域的伸手党们,上个月简直像在过年! 不仅号称谷歌最强NLP模型的BERT如约开源了,而且最新版本还支持中文,可以用于中文命名实体识别的Tensorflow代码!最关键的是,这个强大的模型还横扫 ...

  • 无法访问GPT-3?强大的克隆版GPT-J带着60亿参数来了

    编辑|核子可乐.钰莹 去年 9 月,微软宣布与 OpenAI 达成独家授权协议,称该公司将使用 GPT-3 来"创建新的解决方案,利用先进自然语言生成的惊人能力".这一安排不会阻止 ...

  • gpt win7激活工具|非mbr引导的分区激活工具下载 64位/32位完美版

    gpt win7激活工具又可以称之为非mbr引导的分区激活工具,该软件可以在GPT磁盘上成功激活32位和64位的win7系统,小编亲测绝对可用.该工具可以解决以下问题:新买的电脑安装的是win10系统 ...

  • 全球kindle用户指南中文版CN_Kindle Paperwhite_J3_v2

    全球kindle用户指南中文版CN_Kindle Paperwhite_J3_v2

  • 计算机启动知识系列 - UEFI/GPT

    这一章我们主要介绍UEFI固件和GPT分区格式,通过上面文章我们也知道BIOS所存在的缺点,而UEFI就是为了解决这些问题.UEFI除了提供BIOS解决的问题外,它同时也提供了更加丰富的图形界面,对用 ...

  • 全球独家中文版解密外星人留给地球的神秘信息|外星人|解密|地球|ufo|二进制

    对于温特沃塔斯皇家空军基地的<蓝道申事件 >大多数小伙伴们了解的也只是事件发生的一部分内容, 还有一部分相当劲爆的内容当时并没有被公布出来. 网络上关于这部分信息也是少之又少.那么今天我就 ...

  • 山羊大碰撞中文版

    山羊大碰撞中文版是一款支持简体中文语言的安卓策略类型游戏,游戏讲述了黑羊和白绵为争夺大草原上的青草而展开了一场激烈的角斗比赛,他们用最原始的方式来争夺草地,以青草为目标的争夺战,就是比拼力量的开场故事 ...

  • 全球独家中文版解密外星人留给地球的神秘信息

    对于温特沃塔斯皇家空军基地的<蓝道申事件 >大多数小伙伴们了解的也只是事件发生的一部分内容, 还有一部分相当劲爆的内容当时并没有被公布出来. 网络上关于这部分信息也是少之又少.那么今天我就 ...

  • MP3 Sound Recorder(MP3录音机) V2.88 绿色中文版 下载

    MP3 Sound Recorder是个简单的MP3录音机,它可以直接将8kbps-320kbps的音频录制成MP3文件,同时还可以支持自定义计划录制,你可以设定时间做到定时录音,同时可以自动停止自动 ...

  • Allavsoft for Mac(Mac视频下载器)中文版

    Allavsoft for Mac是Mac平台上一款全能的视频下载器,allavsoft中文版可以从各种视频网站下载MP4.M4A.FLV.HTML5.AAC等格式的视频,支持在iPad.iPhone ...

  • 中国卒中报告2019(中文版)(三)

    接上期 院内管理 我们首次依据国家指南利用中国卒中中心联盟2018年数据分析了卒中关键绩效指标.来自1377家医院的297 327例卒中患者(缺血性卒中269 428例.脑出血24 556例和蛛网膜下 ...