大湾区成产业AI化前沿阵地,智算中心如何从理想走进现实?
疫情影响下,2020年上半年创投市场融资热度不如2019年同期,不过虎博搜索的大数据分析结果显示,上半年人工智能却成了投融资的热门赛道,在融资笔数的赛道排名中,从去年同期的第八位攀升至第五,小马智行、云从、思必驰与禾赛科技等AI初创公司均获大额融资,这体现出,后疫情时代,AI与产业加速融合的趋势。
产业AI化加速,对于计算基础设施提供商来说,机遇与挑战并存。作为中国最大的服务器巨头,浪潮一直在给社会提供计算基础设施,在AI方兴未艾时布局智慧计算,在AI服务器领域连续三年稳居第一且占据过半市场份额。今年4月浪潮提出“智算中心”概念,几个月时间过得很快,浪潮智算中心落地进展如何?疫情对AI计算影响如何?AI计算有什么新的趋势?在浪潮 2020云数智中国行深圳站上,我对浪潮相关高管进行了专访,试图找到答案。
AI计算占比或已过半,数据中心亟待升级
2019年AI渗透到人们衣食住行的方方面面,2020年突如其来的疫情让全社会在线化、数字化与智能化加速,人们对AI有了新的认知。与此同时,我国提出加速新基建的战略,人工智能以及配套的数据中心、5G等成为重点领域,全国正在如火如荼地建设智能新基建,AI产业化已进入新阶段。
今天AI应用的阶段再说是AI产业化已经不合时宜,AI产业化,即视觉、语音等技术的产业化,是先有技术再落地到场景形成产业,如今正在进行的是产业AI化,即零售、教育、通信、金融等行业全面应用AI技术,形成了更大的AI市场,综合相关数据,AI产业化是万亿市场,而产业AI化则是十万亿规模市场。
算力、数据、算法与场景是AI应用的关键要素,产业AI化对算力提出全新要求,在原先的通用计算外延伸出的智慧计算分支,正在成为主流。
2016年,中国工程院院士、浪潮首席科学家王恩东曾有一个预判,到2020年智慧计算在整个计算中的占比,将从2015年的四分之一左右增长到超过一半,未来占比将在80%以上。IDC发布的《2019年中国AI基础架构市场调查报告》显示,2019年我国AI服务器出货量为79318台,同比增长46.7%,同期我国通用服务器市场出货量却同比下降3.8%,有分析者保守估计认为,2019年我国新增计算力中AI计算力约为48%。2020年疫情影响下,全社会新增计算中智慧计算占比大概率已过半,当智慧计算占比已经过半时,新形态数据中心呼之欲出。
AI本质是对数据进行深度处理,数据正在爆发式增长,AI计算力会膨胀,同时AI应用会比互联网应用更加广泛而深入地渗透到行业,因此AI计算量会指数级增长,第三方数据显示,当前深度学习模型训练对算力的需求平均每年增长10倍左右,从AlexNet到AlphaGo Zero,最先进AI模型对计算量的需求已经增长了30万倍。
再加上语音、图像、大数据、边缘、IoT、自动驾驶等场景呈现出截然不同的计算需求,AI模型变得日益复杂,AI计算需求变得更加碎片化。在互联网时代扮演关键角色的传统计算基础设施即云数据中心,已经难以满足AI时代的计算需求。浪潮信息AI&HPC产品线副总经理赵帅在云数智中国行深圳站上分享了一组数据:
某地平安城市项目2000万个摄像头每天会产生约50万亿图片,采取传统服务器做图像识别最高峰值是1000张/秒,要实现全量图片实时处理需要50万台服务器,对于一个平安城市项目来说这显然是不现实的。
在产业AI化过程中,类似于这样的“计算难题”遍地都是。面向互联网时代而非AI时代的数据中心亟待全面升级,新投资的数据中心也将直接兼容AI计算。
数据中心挑战如何破解?智算中心成标准答案
专门针对智慧计算构建基础设施,成为越来越多企业的选择。
6月6日,快手宣布在内蒙古乌兰察布市投资百亿自建数据中心,作为快手首个自建的数据中心将面向快手未来五年内的大数据与人工智能场景,设计容量为30万台服务器,将拥有最大规模的离线计算服务器集群。快手不只是一家短视频公司也是一家AI公司,将AI算法应用到业务的方方面面,率先建设专用于AI与大数据的数据中心将巩固其AI优势。
7月3日,腾讯清远云计算数据中心正式开服,规划容纳服务器超过100万台,这是华南地区迄今为止最大的新基建项目。6月,腾讯长三角人工智能超算中心项目已动工,总投资达450亿,建成后将成为长三角最大、全国前三的人工智能超算枢纽。此前,天津滨海新区超大数据中心项目启动。
9月3日,最具AI特质的互联网巨头百度与顺德签约“百度云计算(顺德)中心项目”,接下来百度将在顺德投资100亿元建设两个云计算中心,服务器装机规模达20万台,搭建高性能计算平台承载百度AI等自有业务和百度智能云企业客户的计算需求
在智慧计算需求井喷之际,乘着新基建东风,互联网巨头、运营商等产业龙头、各地政府今年均加大了对数据中心的投资,且无一例外地AI计算均成为重点规划目标。作为国内AI服务器一哥,浪潮成为最大受益者,上半年浪潮信息营收、归母净利润、扣非后归母净利润分别同比增长40.60%、48.45%、47.53%,其中二季度营收同比增速更是高达60.81%,逆势增长的成绩得益于浪潮聚焦“智慧计算”战略,也反映出社会数字化与产业AI化加速的趋势。
面向智慧计算的数据中心该怎么建?行业都在摸索,浪潮上半年提出“智算中心”概念,站在计算基础设施提供商的角度,给出了自己的答案。
“智算中心”是智慧时代计算力的生产与供给中心,是新“电厂”,有望化解AI计算需求爆发与传统算力不足的矛盾,用这一概念提出者王恩东的原话解释就是,“智算中心”以融合架构计算系统为平台,以数据为资源,以强大的计算力驱动AI模型对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务的形式,向组织及个人进行供应。智算中心要满足“开放标准”、“集约高效”、“普适普惠”三个基本要求,来适应智慧计算的特征。
智算中心概念已得到行业共识,关键是要落地。在产业AI化加速的关键阶段,浪潮对2016年就已提出的智慧计算战略变得更加笃定,提出“智算中心”概念后,浪潮上半年聚焦“云、数、智”典型计算形态,全面升级智慧计算战略,围绕智算中心布局与落地。上半年研发投入12.76亿元,同比提升37.87%,主要原因是加大了智慧计算研发投入、扩充研发人员队伍。
浪潮拥有多款产品业界领先的AI计算产品:
浪潮NF5488A5是业界性能最好的AI训练服务器,在全球权威AI基准测试MLPerf创下Resnet50训练任务的最新世界纪录;
推出MX1全球首个AI开放加速系统,可支持多家不同型号的AI芯片直接更换;
上半年浪潮推出5款面向多种应用场景的AI服务器,最新研发成功的AI大模型计算框架LMS,可将NLP智能语言模型参数规模突破73亿,相比业界主流水平提升20倍以上。
数据中心规模越来越大早已是趋势,中国信通院公布的数据显示,2020年超过1万台服务器的数据中心占比已占27%,2012年这一比例只有18%。智算中心会更加“集约高效”,超大规模计算中心面临的挑战日益严峻,针对此,浪潮信息服务器产品线副总经理陈彦灵在演讲中透露,浪潮正在组织力量攻坚性能瓶颈、能耗降低、资源池化与运维负担等难题。
浪潮正在加大对云原生弹性裸金属技术的研发投入,这一技术兼具云服务器的优势(弹性、即点即用)与物理机的利用效率,未来会被广大企业应用;
我国数据中心每年耗电1000亿度相当于三峡大坝全年发电量,绿色数据中心成为趋势,能耗问题亟待解决,针对此浪潮积极投入到液冷技术、高压直流等技术的研究,不断降低数据中心TCO;
在资源池化上浪潮不只是关注I/O、存储等资源的池化,也在研究内存/GPU等计算资源的池化;
在运维层面,超大规模数据中心不可能依靠人力,一个人能运维的服务器极限是100台以内,装机量在10万台以上的超大规模数据中心必须要靠自动化运维,实现智能预警监测,未来目标则是实现机器人更换检修等。
智算中心要“开放标准”,浪潮在2016年就走上了开放计算的道路,以CBD(云、大数据与机器学习)为核心,构建“硬件重构+软件定义”的融合架构技术体系和开放创新的计算生态,为客户提供可精确按需扩展、满足多样化应用场景的智慧计算。如今浪潮开放计算已涵盖计算、存储、网络、管理等全领域,硬件支持OCP、ODCC、Open19等三大硬件开放社区标准,云海OS全面转向OpenStack,在整机柜、服务器等领域的开放设计上扮演关键角色。基于开放计算发展智慧计算,让浪潮事实上成为智慧计算标准参与者,有能力成为“搭台者”,让不同环节的玩家可以在开放计算体系内共建智算中心。
针对智算中心“普适普惠”的特征,浪潮在研发侧通过提高性能、降低能耗、资源池化、自动化运维等手段降低计算成本,基于开放计算战略给企业更多选择,多管齐下推动智慧计算的普惠。同时浪潮以2019年提出的元脑生态计划为抓手,积极构建智算生态,左手连接像百度、阿里这样的具备AI技术开发能力的科技公司,右手连接具备实施AI整体解决方案能力的SI、ISV伙伴,共同为客户提供端到端的Al模型和方案,加速AI产业化进程,进一步让智慧计算普惠。
围绕智算基础“集约高效”、“开放标准”和“普适普惠”三大特征,浪潮依托开放战略与智慧计算战略,大规模投入,在研发技术、产品服务、开放生态、标准建设等维度打基础,与此同时,在市场端,浪潮则在一步一个脚印地推动智算中心落地,让“梦想照进现实”。
依托大湾区试验田,浪潮让智算中心变为现实
浪潮 2020云数智中国行首站在深圳与成都同步开启,浪潮对粤港澳大湾区一直都十分重视,它在广东特别是深圳的经营是超出外界认知的:2014年浪潮在广州成立广东浪潮子公司,在深圳成立了南方制造基地,目前在深圳的两个智能制造基地服务器年产能高达120万台,年产值400亿元,浪潮深圳办事处员工超过1000人,2019年实现营收80亿,服务对象包括平安、腾讯、顺丰、华润、招商银行、深圳地铁等当地巨头企业以及深圳各委办局。
深圳是世界的“智能硬件之都”,聚集了大量的科技企业,堪称中国的科技中心;广东是世界的制造中心,具备落地工业互联网的条件;粤港澳大湾区在科技产业上同样走在世界前列,就在日前,浪潮的重要伙伴百度就拿下广州开发区4.6亿大单,落地“面向自动驾驶与车路协同的智慧交通’新基建’项目”。
智算中心落地关键在于丰富的AI应用,这离不开创新,粤港澳大湾区无疑是一块很好的“试验田”。赵帅向罗超频道表示,在产业AI化上,浪潮是非常重视大湾区的,一方面是因为这里AI初创企业十分活跃,他们对算力有极强的需求,要实现跨越式发展就要计算基础设施,浪潮智算中心概念强调“普适普惠”、元脑开放计算生态均是在解决初创企业的AI计算需求,帮助他们基于AI创新。另一方面,浪潮布局AI生态,需要将AI产业链的公司拉入进来,形成1+1>2的效果,解决传统企业想要AI化却不知道怎么做AI的问题,湾区中有大量的AI企业成为浪潮元脑的合作伙伴。
(浪潮信息AI&HPC产品线副总经理赵帅)
此前,IDC与浪潮联合发布的《中国人工智能计算力发展评估报告》显示,在中国人工智能算力排行中,北京、杭州、深圳、上海、广州领衔第一梯队,广东成为唯一有两个城市上榜的省份。
在大湾区这一产业AI化的“试验田”,浪潮在推动智算中心落地上做了很多实践,赵帅向罗超频道分享了一些案例。
亚略特是深圳的一家人工智能和生物识别核心技术方案提供商,在2004年就已成立且在细分市场领先,专注于以多模态生物识别核心技术驱动人工智能产业应用,今年疫情期间在很多公共场所应用的AI人脸识别测温一体机就来自于这家企业。随着人脸识别等应用的爆发,亚略特的算法采取原来的计算设备遇到很大瓶颈,浪潮通过专用的AI计算解决方案,基于多年来沉淀的产品、系统与调优能力,帮助其加速比提高了10倍,可以对15亿的图像库实现秒级比对,解决了算力瓶颈。
智能手机AI化的趋势下,一加手机原先采取传统服务器,通过分组做模型训练计算资源利用率只能做到30%多,浪潮给一加手机提供平台级的AI计算能力,包括企业级的AI训练平台、整合计算资源的AIStation,将资源利用率从30%多提升到80%多,最终让一加手机在AI体验上拥有业界领先的优势,进一步提升其用户口碑。
(一加手机通过AI算法可智能切换拍照模式,图为一加手机拍摄到的画面)
AIoT的重要应用场景是物流,作为国内物流业老大,顺丰也在持续布局智慧物流,在公众印象深刻的无人机送货等应用外,顺丰已将AI应用到物流业务方方面面,比如用机器视觉技术来识别暴力分拣行为,站点的数据不会全部同步到云端,只会将疑似数据传到云端确认,站点全量数据放在分站,一般是非专业机房,环境可能会比较恶劣,浪潮提供边缘计算设备,助力顺丰实现智能物流应用。
类似案例不胜枚举,浪潮在深圳有上百家深度合作的产业AI化相关企业,有的是类似于亚略特、奥比中光这样的低调的细分领域的产业AI化龙头;有的是顺丰、一加这样的产业巨头……涵盖物流、医疗、交通、教育、政务、安防、能源、水利、金融、智造、零售、科研等等场景,浪潮核心只做一件事:帮助它们用智算中心的思维,解决AI算力短缺的问题。
算力要被应用,要经历四个步骤:生产、聚合、调度与释放,浪潮在四个环节均已布局:
基于领先的AI服务器以及加速卡等产品生产AI算力;
基于AI计算平台、框架和算法聚合算力,消除计算瓶颈;
基于AIStation管理平台对AI计算进行流水式生产与一站式交付,精细调度算力;
基于自动机器学习平台AutoML Suite,降低AI应用门槛,快速释放AI算力,加速AI落地。
基于此浪潮成为具有全栈AI技术的专业AI计算力提供商,实践层面,每一个算力作业环节企业会面临许多具体问题,赵帅也分享了浪潮的不少实践。
浪潮有一个大客户在做AI应用时,采取传统数据中心,资源利用率低,算力跟不上,大举投入计算设备又难堪重负,同时数据全部在云端,流转不顺畅,不适合本地训练,因此,虽然有AI算法与应用却跑不起来,算力成了瓶颈。
针对此,浪潮通过聚合与调度手段帮助它聚合了分布在不同地方的、分别面向消费级与企业级的1000多片卡;为其提供一套本地文件系统,与云端打通实现云端数据快速流转,聚合数据等于有了AI电厂所需的“燃料”;帮助其将本地化计算系统与企业管理系统打通,这一过程还要克服大量的细节问题,浪潮均帮助其成功解决,聚合与调度算力,最终大幅提高了计算资源的利用率,“让1000张卡发挥1000张卡的价值”,AI应用成功部署。
还有一个金融量化公司,原先做AI应用采取的是传统的分组,即将手里的300多张卡分给不同研发组,每个人再分一台机器去做AI训练,本质是手动调度,当这家公司要将AI应用规模扩大三倍,要一次性买1000张卡时,传统聚合与调度模式就完全跟不上需求了,浪潮给其提供了一套专门的系统,解决了大规模AI计算时的存储、网络等关键问题。在金融行业,浪潮推出的AI Station以及AI Station推理版都卖得很好,因为它具有弹性、可伸缩、分布式的能力,可以很好地支持AI计算云边协同的算力调度。
一步一个脚印,浪潮摸索智算中心建设方法论
不同企业AI应用场景截然不同,AI计算需求十分个性化,浪潮如何解决这一问题?
首先是对JDM模式进行升级。2014年浪潮基于前期定制模式形成了独家的JDM(联合定制模式)模式,通过与客户“共创”的机制,满足云时代复杂的服务器需求,成功抓住AI服务器这一波机会,为后来的开放计算布局创造了有利条件。
AI时代信息产业都在加速创新,特别是服务器产业变化特别快,浪潮提前布局的JDM模式就是一个杀手锏,不过原来的JDM模式面向大中型客户,今天中小与初创企业有了AI创新需求,在落地智算中心时,浪潮将延续JDM模式,并针对AI计算场景拆解升级,与客户共创,交付不是结束,而是给企业提供持续服务的开始,浪潮也会与伙伴一起建立大量的区域级的智算中心,来满足这一片区域的AI创新的算力需求,陈彦灵认为智算中心本质就是交付服务,运营比建设更加重要,数据中心将从建设走向建设+运营。
其次就是开放,拉上合作伙伴一起来解决产业AI化中企业的AI算力需求。
比如就能耗问题,要实现48V高压直流光靠浪潮一家的力量就不可能实现,这需要能源企业等产业链玩家一起从标准、供电、输电上一起来解决。陈彦灵认为,智算中心一定要大家“献计献策,一起来贡献力量,众人拾柴火焰高,让火能够燃烧烧起来。”
要实现这一点,就要开源开放,包括硬件开放设计与软件开源、芯片架构、建设模式和应用服务的开放标准。浪潮积极参与全球开放计算生态的建设,在AI领域积极建设元脑生态,截至目前已有50多家左手伙伴和120多家右手伙伴加入了浪潮元脑生态,在IPF2020大会上,浪潮宣布将投入亿级资金成立“E基金”发展元脑生态,在联合技术创新、市场推广、AI人才培养等维度对生态伙伴提供支持,联合左右手伙伴打造100+应用场景解决方案,并推动400+行业AI项目落地。
赵帅透露,浪潮元脑生态一年多来一直在做左、右手伙伴,左手伙伴擅长AI等基础技术以及解决方案的研发,右手伙伴则是具备实施行业AI整体方案交付的SI、ISV,负责AI到场景的落地。浪潮元脑生态目前已积累130+解决方案,且在持续增加中。2019年元脑生态方案不够多时,落地就“只能打点、很难出面”,如今场景积累多了,与右手伙伴合作,与场景资源丰富、落地能力成熟的服务商/集成商合作,全面铺开落地。同时,浪潮正在研发类似于AppStore的面向企业的AI Store平台,聚合全场景应用,浪潮会扮演跟苹果一样的角色去做应用的测试验证,通过后再上架,让产业AI化的企业可以按需获取。
最后浪潮积极响应国家新基建战略,给新基建添砖加瓦。
浪潮正在济南建设的“中国算谷”,致力于成为全球算力产业新高地,带动山东传统企业智能化改造和升级,做智算中心标杆,同时也在陕西西咸新区投资智算中心,助力西部人工智能创新创业。
赵帅认为,智算中心会成为政府新基建投资行为,建设周期会比较长,浪潮一方面苦练内功,另一方面推动产业AI化落地。针对企业巨头投资AI计算中心的趋势,浪潮则会提供优质的AI计算基础设施,今年也成立了SA团队去助力企业优化AI计算架构,帮助客户业务成功。
在4月IPF大会上提出智算中心概念时,浪潮集团高级副总裁彭震就曾对罗超频道表示:“某种程度来说,浪潮是一个做平台的公司,在做智算中心的砖和瓦,真正搭建一个为各行各业提供一个完整服务的智算中心,需要我们的合作伙伴,把他的应用能力、软件能力、服务能力糅合在一起,才能真正变成一个面向最终客户完整的端到端的解决方案。”
具体来说,服务器和AI产品、分布式存储等存储产品和网络产品三件套,以及相关软件如数据中心间的云服务、云管异化容器,云边操作系统、边缘计算产品,是浪潮提供的砖与瓦,这些是合作伙伴构建智算中心不可或缺且不可能自主研发的基础设施——建房子的公司一般都不会制砖瓦,正是因为此,彭震认为,“浪潮是基建里的基建。”半年来,浪潮正在实实在在给新基建添砖加瓦,自身也从中获取了价值。
在陈彦灵看来,当前产业AI化依然处于“初级阶段”,距离AI无处不在很远,远程智能医疗这样的应用非常有前景但尚未普及,产业AI化依然面临数据、通信、人才、应用等多重挑战。就算力来说目前看似不存在瓶颈,但是当未来产业AI化真正实现时,当“机器制造机器、AI制造机器、AI制造AI的时候”的“超级AI”时代来临,现在的计算力远远是远远不够的,摩尔定律失效,单个芯片性能不可能指数级增长、功耗也不可能越来越大,当前的计算体系物理极限到了,未来一定会有新的计算架构如量子计算的普及。
浪潮在研发前沿技术的同时,更着眼于在当前的计算体系下,帮助行业将算力最大化利用、能效最大化降低。浪潮一边通过类似于裸金属、液冷散热这样的技术,一个百分点一个百分点地去提高效率、找回效率、降低TCO,另一边则是推动智算中心概念落地,去适应智能社会的算力需求。
写在最后:
智算中心绝对不只是概念,而是现实,是智能社会基础设施。全国产业AI化与新基建建设都在加速,浪潮不断完善和强化面向智算中心的产品技术布局,同时马不停蹄地给智算中心建设者们提供“砖瓦”,避虚向实,以新基建核心承建商的角色,扎实推动智算中心落地。
哪里有产业AI化的需求,哪里就有浪潮的身影。
END
▼