我国智算中心该怎么发展?专家呼吁:是时候出台标准规范了!
2021年7月2日,以“数智创新,算力赋能”为主题的2021算力中心健康发展研讨会在北京举行。会上,专家学者们围绕“中国算力如何健康发展”的话题展开热烈讨论,共同呼吁智算中心出台标准规范。
如今,中国已站在数字经济浪潮之中,算力成为驱动经济发展和产业变革的重要源动力。科学理性地认知算力,尤为重要。若想抓住数字经济的时代先机、引导算力健康发展,接下来这关键的一步要怎么走?
1
算力时代,为何雾里看花?
当下,新一轮科技革命方兴未艾,各行各业开启全面数字化。大数据、云计算、人工智能、区块链等数字化技术落地应用,对计算能力提出更高要求。算力,与经济社会发展的联系愈发密切,成为驱动产业变革的新兴动力。
数据表明,算力指数平均每提高1%,数字经济和GDP分别增长3.3‰、1.8‰。信息技术浪潮推动人类社会由“电力时代”迈向“算力时代”,以算力为根基的智能化数字经济世界即将来临。
为打造经济发展新高地、应对国际激烈竞争、抢抓战略制高点,近年来,党中央、国务院高度重视数字经济发展,推动算力相关技术研发,加快部署各类算力中心。
2020年,国家发改委提出,要建设以大数据中心、超级计算中心、智能计算中心(以下简称“智算中心”)为代表的算力基础设施。
在需求与政策的双重驱动下,全国各地大力推进算力基础设施建设布局,智算中心也迅速成为新基建热点。智算中心,简单地说,是为人工智能(AI)应用提供所需算力服务、数据服务和算法服务的算力基础设施,支持交通、物流、医疗等生活场景的智能化。政策支持下,区域智算中心正如火如荼的开展建设。
然而,如此大力度的建设规划,特别是智算中心的发展,真的意味着我们交出了一份漂亮的“智算成绩单”吗?
实际上,智算中心迅速发展的背后,不少地方政府、企事业单位正陷入“现有的不够用、新建的用不了”的窘境。以气象部门为例,目前气象部门的AI应用还停留在各单位各自为战的阶段,低水平的重复现象十分普遍,缺乏整体规划。
透过这些现实困境,不难看出:当前,我国智算中心的建设方向和路径尚不清晰。如何让AI算力真正助力产业升级、推动区域经济发展,亟待社会共识。
2
超算智算,有用才是好“算”
当前区域在建设算力中心时,一个严重问题是,常常将“超算”“智算”概念混淆,张冠李戴,导致建设成果与规划预期相差千里。所以想要用好算力这本账,先是要正本清源——理清概念、科学理性地认知两种不同算力。
*比较算力,不仅要看数字还要看精度。
算力表示处理数字化信息能力的强弱,不同类型的算力存在较大差别。超算的算力单位是FLOPS(每秒浮点运算能力),而智算的算力单位是OPS(每秒操作次数)。两者虽都表示为“P”,却是完全不同的单位度量。
此外,衡量算力水平还要看算力精度。根据参与运算数据精度的不同,可把算力分为:双精度算力(64位,FP64)、单精度算力(32位,FP32)、半精度算力(16位,FP16)及整型算力(INT8、INT4)。数字位数越高,意味着精度越高、可支持的运算复杂程度越高、适配应用场景越广。
目前,业界多用Linpack测试来衡量超算,它测试的是超级计算机的双精度浮点运算能力,即64位浮点运算,而智能计算机的衡量精度是单精度、半精度或整型计算。
双重维度下,判断算力大小显然不能直接横向比较不同精度等级的运算次数,否则就会缺失技术逻辑和标准。1000P的智算中心与1000P的超算中心,虽然数字一样,但蕴藏在数字背后的单位和精度并没有可比性。
*超算与智算,各有千秋。
超算与智算并不是同一种计算精度、同一种计算能力,这也决定了它们在擅长领域和应用场景上各有千秋。
超算是通用算力,高精度计算能力更强、应用范围更广,譬如大气模拟、运算化学、分子模型、天体物理模拟等。这些领域对数据的精度要求高,适用于以双精度数值计算为主的超算系统。相对的,智算是种专用算力,擅长推理或训练,处理对象主要是语音、图片或视频。这类应用对精度要求较低,一般仅用到半精度计算或整型计算。
简言之,超算是为高精尖科学领域提供极致算力的服务,而智算本身的性能就决定其在图像分类、自然语言处理、循环翻译等场景下更有优势,两者有各自的发展方向。不同领域有不同要求,各自发挥所长、落实应用,才是发展算力中心的目的。
“混淆传统超级计算与智能计算,可能会导致用户或地方政府错误决策——他们本意是建设强大的、面向多应用的计算集群,最后却建成了只适宜人工智能应用的机器”,中国计算机学会高性能计算专业委员会秘书长张云泉说。
*智算中心的三类性能,不容混淆。
智能计算机有推理、训练和模拟三类性能。
张云泉介绍道,目前人工智能芯片有训练芯片和推理芯片两种,与推理相比,训练性能往往需要计算精度高一些的计算机。半精度或整型算力即可满足推理性能需要;而训练性能一般要使用单精度及以上的算力;对算力要求最高的是类脑的“模拟”性能,需要双精度和单精度算力同时支持。
正因其难度差异大,在实际投建中,有些厂商会刻意模糊三者的性能差别,进而导致部分区域建设方向和建设需求错位。
3
智算中心,要摈弃“野蛮生长”
近些年,我国数字经济发展处在全面提速阶段,可算力概念混淆、应用需求不明等现象层出不穷。“乱的原因,主要是没有标准”,张云泉表示。
由此可见,我国智算中心的建设需要加强统筹引导,根据区域产业定向建立智算中心,合力规划算力经济,以保证人工智能算力资源得以健康、可持续发展。
首先,明确智算中心标准,防止行业乱象。
“智算中心需要一个新的标尺来引导其走上健康发展的道路。”张云泉认为,要实现智算资源健康发展,应针对不同智算中心的技术、价格、应用标准,制定一把可以度量的“尺子”。
合理控制算力基础设施建设成本、避免智算中心价格混乱,是其中关键的一环。目前,部分智能计算中心存在价格混乱与虚高现象,亟待业界权威的算力定价标准予以规范。
以粤港澳大湾区的两家算力约等的智算中心为例:项目A整体算力为1170P OPS,造价约为5亿元;项目B整体算力为2000P OPS,性能略超前者,造价却近30亿元。同精度算力单价相差近4倍。区域在建设智算中心时,应进行多方比较,确定价格合理性,避免花费冤枉钱。
此外,建设智算中心不仅包括基础设施投入,还有后期运维、应用、人才投入。与会专家们提醒,区域前期建设智算平台时,不应一味追求算力规模。规模与产业应用匹配即可,要将更多的资金留在后期软件、应用、人才培育等需要进行长期投入的领域。
其次,引导智算中心明确应用场景和优先任务,保证算力建设落实到应用上。
“不同领域有不同的要求,适合产业应用的才是最好的。”区域应根据不同应用场景和产业发展的实际需求,选择建设真正适合、有用的智算中心,充分实现经济效益。
对此,中国工程院院士、清华大学教授郑纬民表示,要促进算力健康发展,就“需要明确应用是什么,发展人工智能中心,一定要有重大的产业应用。”
我国数字经济发展的现实已经向我们发出信号:只有形成业界普遍认可的统一标准,做好顶层设计,把算力中心建设落实在国家重大应用上,才能促进算力产业转型升级、良性发展,共同构建“开放、融合、绿色、经济”的新一代人工智能计算中心。
(结束)