“未来技术”人工智能算力网络面世：多模态的最佳“伴行者”？

2024-06-23 08:38:57

用文字描述“一个女人打着红色的雨伞在路上走”，系统呈现出一张唯美的街拍；

有一张飞机起飞的照片，想配上一段适合的声音，上传图片后，一段发动机呼啸声的音频播放出来；

把淅淅沥沥的下雨声导入进去，江南水乡老宅的氤氲雨景图展现在了眼前……

这些，是已经实现了的多模态AI应用，横贯文字、图像、语音，在初级应用功能上就已经展现出相比单模态更智能、更自然、更多样化的魅力，其前景被普遍关注，只不过很长一段时间以来，多模态的发展速度一直不算快。

现在，事情正在发生变化。

在华为全联接2021期间，中国科学技术信息研究所、AITISA（新一代人工智能产业技术创新战略联盟）和鹏城实验室联合了发布《人工智能计算中心发展白皮书2.0——从人工智能计算中心走向人工智能算力网络》，其中明确提到了以“大算力+大数据”使能大模型（多模态多样化的能力一般都由大模型才能更好的实现，或者说多模态的形式表现为大模型）。会上，中国科学院自动化研究所发布了全球首个三模态大模型紫东.太初，这无疑让多模态的发展进入了一个全新的落地阶段。

多模态大模型，正在与人工智能算力网络互相促进，成为彼此的最佳伴行者。

多重因素下，

多模态大模型已成大势所趋

随着AI的技术和产业发展逐步走向深入，多模态大模型的趋势十分明朗，这主要表现在三个方面：

首先，是AI自身的能力进化要求。

在单模态领域，例如归属NLP的跨语种翻译这类应用，机器可以说早已超越人类，实现了重要的技术和产业价值，如果要进一步往前走，多模态自然而然就成为AI技术和产业突围的新方向。与此同时，单模态本身也面临“知识冰山”的瓶颈问题，进一步智能化也需要大模型来支撑，例如对“老王去吃食堂”的理解，单纯的文字数据很难让AI辨别“吃食堂”不是把食堂吃掉而是“到食堂吃饭”，但一张场景图片或视频就可以很容易解释清楚并关联起来。

然后，是“数据”供给的要求。

数据是AI发展的根本、是AI的“食物”，在全球范围内，包括中国市场上，互联网的出现帮助AI模型训练的数据量越来越庞大，它们让AI得到了快速的能量补充。

然而，目前互联网音视频数据高速增长，占比超过 80%，单一数据类型例如文本只占不多的比例，这使得更丰富的语音、图像、视频等数据并未被充分利用与学习，以多模态的方式将更深度、更广泛地挖掘这些数据的价值，反过来，大量的各种属性的数据投喂也将推动AI摆脱单模态，朝着多模态大模型不断前进。

最后，是产业需求的倒逼。

随着AI逐步落地，产业需求也在往深处走，更多场景应用需要多模态大模型来支撑，例如，跨模态检索、智能问答、文学艺术创作、视频配音、视频摘要等等。

可以说，越是在技术层面将图像、文字、语音相互融合，一个应用在场景中表现的价值就越为明显，也更能让AI的场景应用真正告别常常被诟病的“鸡肋”感。

算力、框架、技术积累三位一体，

多模态大模型加速落地

为什么紫东.太初这样的多模态大模型得以实现，原因主要有三大方面，缺一不可：

1、人工智能算力网络成为多模态、大模型的重要推进因素

多模态大模型的一个重要特征，是训练的参数规模呈现指数级的上升。

以往的单模态，单一类型的数据“喂养”帮助AI模型获取知识、迭代能力，相对而言模型本身并不需要太多的参数，就如同小学生不断学习加减乘除一样只要理解基本的数学规则一样。

而当不同模态加入后，一个可以识别图像、文字、语音的通用算法，不仅需要理解单模态的各种数据，还需要理解不同数据之间极端复杂的联系，模型的参数发生膨胀，这就如同专业的大学理工科学习需要综合各种学科知识进行复杂地算一样。

这时候，很显然，算力就成为最基本的支撑，只有超大规模的算力才能支撑大模型的训练，才能让多模态应用有更好的效果。

所以，在提供强大集群化算力的各地人工智能计算中心基础上，人工智能算力网络的出现，进一步解决了多模态大模型的算力需求问题，成为重要的推进因素。

事实上，由于大模型的运算很多时候还有波峰波谷的问题（即计算时算力耗费巨大，而不计算时则算力闲置），而人工智能算力网络又能在全国范围内感知、分配、调度人工智能算力，根据各中心算力资源的情况和各地区的需求情况进行算力动态调配，双方的供需关系除了“量”之外在“节奏”上也十分契合。

反过来看，多模态大模型的技术发展以及在产业中的应用，也将推动本身作为各地产业集群推进力量的人工智能算力网络更好地发展，“物尽其用”同时技术不断进步，可见二者是相互促进的关系。

2、昇思MindSpore特性推动开发加速

由于模型参数十分庞大，光有算力支撑还不行，多模态大模型开发所依托的AI框架也需要有承载和利用算力、支持庞大参数的能力，而这方面，过去国内外已有的一些主流开发框架都只支持简单的数据并行，满足不了大模型的需要。

本次在华为全联接2021上发布的多模态大模型紫东.太初，就基于昇思框架训练的，这是业界首个支持全自动并行的框架，全球首个中文预训练大模型鹏程.盘古就出自其手。

昇思框架与多模态大模型相契合的主要技术优势在于，可以在训练过程中自动将模型切分到不同的设备，并高效地利用庞大的计算设备集群来完成并行训练，相当于建立了一套行之有效的中枢指挥系统，将计算任务以同时进行的方式分配下去，再大的训练任务也能有条不紊实现加速，而不是堵塞起来。

其实现过程，是通过多维度自动并行这一独特能力来实现的——通过数据并行、模型并行、Pipeline并行、异构并行、重复计算、高效内存复用及拓扑感知调度，降低通信时间的占用，实现整体迭代时间最小，简单来说就是通过一系列技术创新来让并行更有规模和效率，无需像其他AI框架一样半自动甚至是手动来完成大模型的并行执行开发。

在最新的1.5版本更新中，昇思框架还增加了多种并行调优，支持在大集群下高效训练千亿至万亿参数模型。

3、已有多模态大模型相关经验基础

多模态能力一定建立在单模态能力的基础之上，这是毫无疑问的。此次紫东.太初的开发者即中国科学院自动化研究所，是昇腾AI的重要生态伙伴，在发布紫东.太初之前，中科院自动化研究所就已经在图像、语音、文本三个方面自研了业界领先的模型：

在此基础上，中科院自动化研究所与昇腾AI携手，还实现了一些“前期准备”能力的构建，包括图文跨模态理解与生成性能、视频理解与描述性能的全球领先，这些都成为紫东.太初的重要支撑：

最终可以看到，全球首个三模态大模型紫东.太初应运而生，让多模态从常见的两个模态一跃迈入了三模态时代，不仅可以实现跨模态理解（比如图像识别、语音识别等任务），也能完成跨模态生成（比如从文本生成图像、从图像生成文本、语音生成图像和视频等任务）。

看起来，两个模态与三个模态似乎只有数量的差别，但从技术上，其实现难度或与二维世界到三维世界的跨越类似，需要大量的技术积累与创新。而一旦三模态得以实现，相比较两模态，AI的交互会变得更加自然，能够离强人工智能更近一步。

结语

多模态大模型正在加速赋能产业，在开源开放的大前提下，昇腾AI加持的紫东.太初正在走入智能驾驶、工业质检、影视创作、智慧医疗等应用场景，合作客户包括上汽集团、魏桥创业等知名企业，一幅多模态大模型赋能千行百业的图景正在展开。

从多模态大模型的发展可以看出，未来，随着人工智能算力网络、昇思框架这样的基础软硬件突破性项目的发展，中国的AI将实现从基础技术到产业应用的全面领先，凭借技术和模式创新拥有真正的竞争壁垒。

大模型时代的AI之变与开发之根

自2018年谷歌发布Bert以来,预训练大模型以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集.随着产学研各界的深入研究,大模型在AI产学研各界的地位得到不断加强.到2021年,我们可以 ...
［首藏作品］（6648）图片、文字、语音都能理解这个AI平台是“全能”选手

图片.文字.语音都能理解这个AI平台是"全能"选手◎本报记者陆成宽"小初,请以天宫为主题作首诗吧?""天宫生殿开成,万花垂露照初.稠云不掩国志,飞 ...
中国AI专利申请量世界第1；不骂人驾校“教练”上线；AI模仿已逝歌手原创4首歌曲｜AI周报

近日,<中国人工智能发展报告 2020>正式发布.数据显示,过去十年(2011-2020)全球人工智能专利申请量 521264 件,总体上呈逐年上升趋势.报告显示,过去十年,全球人工智能专 ...
BERT、GPT-3们有了新名字：Percy Liang、李飞飞等发布200多页综述，阐述大模型机遇...

设为"星标",重磅干货,第一时间送达转载自 | 机器之心在一篇 200 多页的论文中,Percy Liang.李飞飞等斯坦福研究者系统阐述了大规模预训练模型背后的机遇与风险.他 ...
全球最大规模AI预训练模型“悟道 2.0”发布，我们是否可以期待真正的通用人工智能？

记者武大可编辑魏潇 6 月 1 日上午,由北京智源人工智能研究院主办的 2021 北京智源大会在线上线下同步拉开帷幕.会议发布了全球规模最大的人工智能预训练模型"悟道 2.0" ...
像人类一样认识世界，AI需要哪些底层思维？

作者 | 琰琰近几年,多模态已经成为自然语言处理(NLP)领域的热点研究方向之一.得益于深度学习的兴起,大数据+大模型的双轮模式推动人工智能实现了跨越式发展.但大量实验证明,仅依靠"炼大模 ...
商汤推出SenseCore AI大装置，要冲破AI大规模落地的围城

对话商汤科技联合创始人:拆解商汤AI大装置的真招式. 作者 | 心缘编辑 | 漠影智东西7月9日报道,在2021世界人工智能大会上,商汤科技展示并正式推出其人工智能(AI)的集大成者--AI大 ...
地表最强的GPT-3，是在推理，还是胡言乱语？

AI TIME欢迎每一位AI爱好者的加入! GPT-3发布以来,衍生了翻译.答题.创作小说.数据分析.数学推理.玩游戏.画图表.制作简历等诸多玩法.深度学习之父Geoffrey Hinton表示&qu ...
［首藏作品］（6930）同一模型完成多场景任务人工智能大模型或加速技术落地

同一模型完成多场景任务人工智能大模型或加速技术落地◎本报记者华凌首先是要关注训练数据的质量,目前一些模型具有的偏见其实都是由于训练数据本身所引发的.第二,要加强对算法本身及模型内部运作机制的研究 ...
构建中国“人工智能算力网络”，他们在努力！

随着云. AI等数字技术的广泛应用,数字经济对我们的生活产生了越来越重要的价值.9月26日,2021年世界互联网大会乌镇峰会发布的一份报告显示,2020年中国数字经济规模达到39.2万亿元,占GDP比 ...
数据安全的未来：人工智能、区块链和强化加密技术是企业数据安全的未来

本文译者:龙凤娟校对:刘斌欢迎加入上海财经大学创投校友会金融科技俱乐部
俄通信业巨头：人工智能和机器人是未来技术发展方向

据俄罗斯卫星通讯社报道,Veon集团数字产品总监乔治·赫尔德接受采访时表示,人类未来面临的是人工智能.机器学习和机器人技术的发展. 他说:"我认为,人工智能及在其基础上开发的应用程序.机器学 ...
人工智能在网络领域中的应用

在提起人工智能的时候,人们都会联想到其广泛应用与各个领域中,为了能够更好的学习和了解人工智能,需要明白其在各个领域中的应用情况. 人工智能在网络最重要的应用包括智能运维.网络加速和网络优化三部分. 1 ...
一文介绍主流容灾技术对比，网络工程师必知！

网工圈网络工程师阿龙圈内最早的公益公众号,关注留言板不定期公益赠送活动!(关注近6w ) 关注听说99%的网工都来这里充电 @网络工程师阿龙
华南理工大学获批教育部首批未来技术学院，是大湾区唯一一家

广州讯近日,教育部发文公布首批未来技术学院名单,华南理工大学未来技术学院成功入选教育部首批未来技术学院,是大湾区唯一一家. 华南理工大学未来技术学院围绕人工智能前沿技术和跨学科交叉领域,主要 ...
叶匡政：未来的诗歌在网络

11月21日,第三届"香港国际诗歌之夜"在香港开幕.据报道,除了丰富的活动之外,诗歌节还将循例出版发行到场诗人的多语种诗歌手册,"用文本的形式记录诗人们的作品" ...
教育部公布首批未来技术学院名单！北大清华等12所高校入选

教育部近日印发<关于公布首批未来技术学院名单的通知>,经高校自主申报.专家论证,全国共有12所高校获批建设首批未来技术学院.这12所高校全部为"世界一流大学"建设高校. ...
教育部公布首批未来技术学院名单包含清华、北大等12所高校

[环球网教育报道]据教育部官网5月26日消息,近日,教育部办公厅公布首批未来技术学院名单. 通知指出,请首批学院建设高校认真落实相关文件要求,高质量推进学院建设工作. 一.明确建设目标.瞄准未来10- ...

“未来技术”人工智能算力网络面世：多模态的最佳“伴行者”？

相关推荐