数据中心进化史:从本地机房到IDC到云再到智算中心
浪潮给计算与AI行业打开了未来计算世界的一扇大门。
疫情将我们的生活从线下搬到了线上:从线上教育、线上办公、在线问诊,到疫情期间行程追踪、智能工厂的快速复工,社会的智慧进化在加速。
4月9日,由浪潮主办的IPF2020大会以在线的形式如期举行,浪潮集团执行总裁、浪潮集团首席科学家王恩东首次提出的“智算中心”概念,引发行业高度关注。王恩东指出,“智算中心”将成为智慧时代经济社会运行所必须的重要基础设施,成为AI计算力的主要生产中心。
2016年的IPF大会上,浪潮首次确立“智慧计算”战略,在后来的IPF大会上又陆续提出“计算力是生产力”、“产业AI化”等预判,均在后来被证实,这一次王恩东提出的“智算中心”会再一次被计算产业接纳,并最终被验证成为行业趋势吗?
01
什么是智算中心?
在2016年AlphaGo战胜李世石后,各行各业都逐步意识到AI技术的价值,AI应用越来越多,从手机解锁支付到工厂生产线的质检,AI在人们的生活与生产中扮演日益重要的角色,特别是随着2019年AI产业化的加速,AI也已成为各行各业的基础能力。
马化腾说算力是AI应用的四大要素之一,李彦宏则认为:“由数据、算力、算法’三位一体’共同驱动的人工智能或将成为推动经济增长与时代进步的新引擎。”AI产业爆发催生了庞大的AI计算需求,传统数据中心已经越来越难以承载这样的需求。
2020年是一个分水岭。在2016年IPF大会上,王恩东就曾预计到2020年智慧计算在整个计算中的占比,将从2015年的四分之一左右增长到超过一半。当智慧计算占比已经过半时,对新形态数据中心的需求就变得日益强劲。
从AI服务器这一新兴服务器类目的崛起,也能看到AI计算需求的蓬勃,IDC报告显示2019年上半年中国人工智能基础设施市场销售额达到8.37亿美元,同比增长54.1%。IDC另一份报告则显示,未来五年中国人工智能服务器市场复合增长率将超过30%,增速是服务器市场整体增速的三倍。
AI服务器是因为AI计算需求而生的一种服务器形态,其采取异构形式,支持CPU+GPU、CPU+TPU、CPU+其他的加速卡等不同组合,在存储上针对AI计算的大数据场景设计,更好地满足训练、推理等各种AI计算场景。不过,服务器的进化已经远远不能满足爆发式的智慧计算算力需求。浪潮认为,未来人工智能计算需求占比将在80%以上,专门面向AI计算的计算中心呼之欲出,这就是“智算中心”,即AI算力中心。
智算中心,有望化解AI计算需求爆发与传统算力不足的矛盾。
用王恩东的原话来解释就是“智算中心”将以融合架构计算系统为平台,以数据为资源,以强大的计算力驱动AI模型对数据进行深度加工,源源不断产生各种智慧计算服务,并通过网络以云服务的形式,向组织及个人进行供应。智算中心将是智慧时代计算力的生产与供给中心,是新“电厂”。
02
数据中心4.0时代
不论是外卖、电商、视频、直播还是搜索,一切跟互联网有关的应用背后,都有数据中心在发挥基础作用,服务器在数据中心日夜不眠地响应需求、运行代码、运算数据、给出结果。2015年,谷歌公布过一组图片引发外界震撼,当时它已拥有以太级别的数据,遍布全球的36个数据中心:美国19个、欧洲12个、俄罗斯1个、南美1个和亚洲3个(北京-Google.cn、香港-Google.com.hk和东京各1个),驱动着这个全球最大的搜索引擎,谷歌将数据中心成为“互联网实体”,即唯一能够让你肉眼可见的“互联网”。
传统数据中心已经有多年发展历史,跟网络的出现几乎同龄。
第一阶段的数据中心就是物理数据中心,基本上就是电信企业面向大型企业提供的机房,包括场地、电源、网络、通信设备等基础电信资源和设施的托管和线路维护服务。
第二阶段的数据中心就是后来的IDC即互联网数据中心,90年代互联网走向民用,网站数量激增,服务器、主机、出口带宽等设备与资源集中放置与维护需求激增,主机托管、网站托管等商业模式出现,再到后来IDC服务商出现,他们围绕主机托管提供数据存储管理、安全管理、网络互连、出口带宽网络服务等等,这一阶段的数据中心由互联网企业自行搭建或者租赁,存在建设与维护成本高、难以随业务发展而灵活扩展诸多问题,云计算应运而生。
第三阶段是数据中心就是如今普遍应用的云化数据中心。早在1961年就有人预料到计算会成为公共服务,1990年代网格计算(Grid Computing)与云计算(Cloud Computing)等概念就已先后出现,不过直到本世纪初亚马逊AWS才真正拉开云计算的序幕,计算真正成为所见即所得的公共服务,数据中心从分散在各地的“小电站”逐步走向集中式的“大电厂”,一般都是科技巨头搭建的大型化、虚拟化、综合化数据中心,通过对存储与计算能力虚拟化,变为一种按需使用的计算力,对于使用者来说,集中规模化降低了成本,同时具备了灵活拓展能力。
云化数据中心本质上依然是在数据中心的物理基础设施上,采用虚拟化等云计算技术,提供传统的数据中心业务和各种新型网络应用服务,数据中心本质形态没有发生什么变化。
如今由浪潮提出来的智算中心,可以说是数据中心演进的第四阶段。智算中心不再是类似于传统数据中心这样的有一栋楼承载的物理中心,而是对数据中心的虚拟化,它可能是多个云数据中心协作起来提供算力,也有可能只是云数据中心中的部分机组构成。
数据中心给数字社会提供算力,智算中心给智慧计算提供算力,不同的是,智慧计算使用者面对的可能不会再是一个个服务器,一个个IP,而是按需使用AI计算能力。如何理解这样的差异?我们可以看看云计算行业的变化:2018年11月底阿里云升级成阿里云智能,2018年底百度将ABC智能云事业部升级成智能云事业群组,2019年4月“百度云”品牌全面升级为“百度智能云”……所有云计算巨头都强调智能,体现出云计算与AI结合的大势所趋,说得更直接一点:云计算未来要给客户提供的计算都是智能计算。
去年我跟立白集团数智中心总经理阮群锟交流时,他的一个看法让我印象深刻:对于立白来说,把系统上云不是上云的目的,而是所有业务要在云上有一个更有效的协作,否则的话只会带来一个企业数据中心建设成本的节约,意义不大。
企业都要上云,然而今天上云跟十年前以节省计算成本的上云已截然不同,今天上云的目的是数字化和智能化。企业需要智慧计算,而不只是计算。既然如此,传统的云数据中心已经不能满足智慧时代的计算需求,唯有进化才能适应AI计算的需求。基于此,智算中心的出现可谓是正逢其时。
03
数据中心新物种
智算中心究竟会是什么样子?王恩东认为“智算中心”需要满足三个基本要求:“开放标准”、“集约高效”、“普适普惠”,他的原话是这样说的:
从硬件到软件、从芯片到架构、从建设模式到应用服务,智算中心都应该是标准化、开放的,开放计算的发展为智算中心提供坚实的产业基础;集约高效,要求智算中心的建设要有超大规模,要采用领先的技术,以保障自身的先进性;必须做到普适普惠,让计算力易用、可用和低成本,智慧计算像水电一样成为社会基本公共服务,融入生产生活全部场景。
智算中心的三大特质不难理解:
1、为什么要开放标准?AI时代的计算变得更加复杂,在语音、图像、大数据、边缘、IoT、自动驾驶等场景呈现出截然不同的计算需求,基于此计算基础设施本身会变得碎片化,比如AI服务器都是异构模式,往往要支持CPU+GPU、CPU+TPU、CPU+其他的加速卡等不同组合,同样,智算中心本身也会变得“异构”,软硬件、芯片、架构、网络、机房等等都会变得复杂,唯有标准化且开放才能整合碎片化的计算资源,就像安卓做到的一样。
2、为什么要集约高效?最核心的原因是AI时代计算量会出现指数级增长,一方面,AI核心是对数据进行处理计算,数据正在爆发式增长,AI计算力会膨胀。另一方面,AI时代计算场景远超互联网时代,互联网时代计算需求来自在线应用以及互联网+教育等少数行业,AI应用则将无处不在,在互联网产业外,交通、工业、农业、城市等传统实体产业都会与AI结合……都会带来海量AI计算需求,IDC数据显示目前互联网是AI服务器最大市场,但能源、服务、建筑、通信、公共事业等传统行业增速已超过或接近200%。传统云计算的成本,对AI计算来说已日益奢侈,智算中心一定要集约高效,自身应用AI、大数据、IoT、机器人等降本增效的数字科技,大幅降低计算成本。
3、为什么要普适普惠?云计算做到了传统通用计算的普惠,智算中心不只是要让计算本身变得普惠,同时要让AI这一高门槛的应用变得跟互联网一样人人可得,让智慧计算像水电一样惠及到各行各业,让每个企业/组织/个人都能按需使用。成本降低是普惠的前提,其外在技术架构、服务模式、输出形式和收费形式等维度都要有配套的变革才行。
第一代数据中心让计算变得前所未有的普惠,一个数据中心的计算量超过了数千年人类计算量的总和,智算中心不只是在计算力上提高了一个数量级,同时变得更加开放标准、集约高效和普适普惠,也将是数据中心发展的趋势。
智算中心有望成为新基建的重点。3月4日,中央在一次会议上强调要加快数据中心、5G、AI和工业互联网等新型基础设施建设进度,“新基建”将助力疫后经济复苏,成为我国经济增长的新引擎。跟“老基建”是“铁公基”为代表不同,新基建则更强调数字科技对传统产业的拉动作用,这将对智慧计算提出更强的需求,作为“新基建”重点领域的数据中心将不再以传统的云数据中心为主,而是会朝着智算中心发展,数据中心将全面进入AI时代。
04
智算中心怎么建?
最早的数据中心由运营商主导建设,IDC数据中心由IDC巨头建设,云数据中心由云计算巨头建设,智算中心建设的主导者会是谁?答案可能是:没有明确的主导者。有AI核心技术、有智慧计算能力,有云服务能力,有AI应用场景的玩家,以及运营商、IDC服务商均可参与智算中心建设,就像前面说到的那样:智算中心不是一个实体的数据中心,而是数据中心的虚拟化,不同数据中心组合在一起来提供智慧计算所需的计算力。
AI不等于深度学习技术,应用层面AI更像是多种技术的融合,浪潮智慧计算以CBD(Cloud Computing、Big Data、Deep Learning)为核心,互联网行业都在说ABC或者AIoT,均体现出AI技术与大数据、云计算、IoT、5G以及区块链等技术融合的趋势。智算中心建设一定是基于开放计算的融合建设模式,拥有不同核心技术的玩家都将参与其中,一起建设智慧计算时代的基础设施。
如今ICT产业的分工正在被重构。硬件开放设计与软件开源,让不同玩家间的边界在变得模糊,大有“你中有我,我中有你”的趋势,比如阿里云可以做芯片,百度可以做服务器,浪潮可以做深度学习框架,而且都在开放,都在建自己的生态,看上去大家都在向彼此领域渗透,实际上却是一种开放融合,所有玩家都在突破自有边界,去探索智慧计算的全新可能。
但不可否认的是,作为智慧计算和开放计算的先行者、智算中心提出者的浪潮,在智算中心建设中依然会发挥不可替代的作用。
首先,浪潮具有全栈AI计算能力,有能力成为智算中心核心建设者。
浪潮是智慧计算的提出者,在AI服务器上已经稳居行业第一多年,IDC报告显示,2019年上半年,浪潮AI服务器销售额4.2亿美元,市场份额50.2%,自2017年以来,浪潮AI服务器就一直占据超过50%的市场份额,稳居市场第一。浪潮在生产AI算力后,基于AI计算平台、框架和算法聚合算力,基于AIStation管理平台对AI计算进行“流水式生产”与一站式交付,精细调度算力;基于自动机器学习平台AutoML Suite,降低AI应用门槛,快速释放AI算力,加速AI落地。
浪潮已经完成从AI计算力生产、聚合、调度到释放四大作业阶段的布局,是专业的AI计算力提供商,业务覆盖芯片、平台、管理和框架等领域的全栈AI领域,势必会是智算中心的核心建设者。不过,浪潮的野心,不只是提供AI服务器这样的基础计算设施,而是要做标准与建生态。
其次,开放计算战略的成功让浪潮成为智算中心的搭台者。
浪潮在2016年提出“智慧计算”战略时,就对开放计算这一路线很笃定,其以CBD为核心,构建“硬件重构+软件定义”的融合架构技术体系和开放创新的计算生态,为客户提供可精确按需扩展、满足多样化应用场景的智慧计算。早在2014年,浪潮基于前期定制模式就形成了独家的JDM(联合定制模式)模式,通过与客户“共创”的机制,浪潮抓住了云时代复杂的服务器需求,成功抓住AI服务器这一波机会,也为后来的开放计算布局创造了有利条件。
如今浪潮开放计算已涵盖计算、存储、网络、管理等全领域,硬件支持OCP、ODCC、Open19等三大硬件开放社区标准,云海OS全面转向OpenStack,在整机柜、服务器等领域的开放设计上扮演关键角色。在IPF大会上浪潮发布全球首款AI开放加速计算系统MX1,基于OCP社区OAM开放标准设计,在网络带宽、供电系统上可以适配多种不同规模的AI加速器,从而极大提升了用户的AI基础架构部署效率,体现出其在智慧开放计算领域的技术实力。
基于开放计算发展智慧计算,让浪潮事实上成为智慧计算标准参与者,有能力成为“搭台者”,让不同环节的玩家可以在开放计算体系内共建智算中心。
最后,基于AI服务器的领先地位构建元脑生态,浪潮给智算中心添砖加瓦。
AI产业化过程中,客户的AI计算需求是非常庞杂的,不可能靠一个公司的技术或者能力实现,因此每家AI服务商都在做自己的生态。浪潮2019年提出了元脑生态计划,左手连接像百度、阿里这样的具备AI技术开发能力的科技公司,右手连接具备实施AI整体解决方案能力的SI、ISV伙伴,共同为客户提供端到端的Al模型和方案,加速AI产业化进程。
要做开放生态,关键是要有号召力,在智算中心服务器这一环,浪潮拥有最高行业话语权,基于AI服务器的市场地位,只用半年时间浪潮的元脑生态就已初步成型,目前,已经有50多家左手伙伴和120多家右手伙伴加入了浪潮元脑生态,在金融、铁路、电力、交通、智慧城市、石油石化及泛行业,落地了一系列的解决方案。
聚集了伙伴的能力后,元脑下一阶段重点就是实打实地落地。在IPF2020大会上,浪潮宣布将投入亿级资金成立“E基金”发展元脑生态,在联合技术创新、市场推广、AI人才培养等维度对生态伙伴提供支持,联合左右手伙伴打造100+应用场景解决方案,并推动400+行业AI项目落地。
这些合作伙伴理论上都是智算中心的建设者,浪潮作为平台方则负责添砖加瓦。浪潮集团高级副总裁彭震对罗超频道表示:“某种程度来说,浪潮是一个做平台的公司,在做智算中心的砖和瓦,真正搭建一个为各行各业提供一个完整服务的智算中心,需要我们的合作伙伴,把他的应用能力、软件能力、服务能力糅合在一起,才能真正变成一个面向最终客户完整的端到端的解决方案。”
具体来说,服务器和AI产品、分布式存储等存储产品和网络产品三件套,以及相关软件如数据中心间的云服务、云管异化容器,云边操作系统、边缘计算产品,是浪潮提供的砖与瓦,这些是合作伙伴构建智算中心不可或缺且不可能自主研发的基础设施——建房子的公司一般都不会制砖瓦,正是因为此,彭震认为,“浪潮是基建里的基建。”
因此在IPF2020大会上,我们可以清晰地看到数据中心正在变革的关键时期。智慧计算占社会计算已过半且未来有望达到八成,传统数据中心已无法满足社会算力需求。下一代数据中心或者说数据中心4.0一定是具有开放标准、集约高效和普适普惠三大特质的智算中心,AI计算、开放计算将是智算中心建设的主要方向,浪潮在其中会扮演关键角色。
弹指一挥间,短短几十年数据中心已有几代变迁,云计算商用才20年不到,在中国普及更是不到10年时间,如今面临被智算中心取代的命运,科技可谓是日新月异,正是因为此,我们很难断言智算中心最终会进化成什么样子,浪潮如今给出的定义只是一个开始。可以确定的是,智算中心将是计算基础设施发展的方向,浪潮给计算与AI行业打开了未来计算世界的一扇大门。
END
▼