6问阿里云“盘古”:何以代表存储技术“世界领先”
作者 | 赵广立9月26日,2021年“世界互联网领先科技成果发布活动”如期举行,世界互联网大会第六次面向全球发布“世界互联网领先科技成果”,“北斗全球卫星导航系统建设和应用”等14项国内外有代表性的领先科技成果被评出。其中,阿里云自主研发的分布式存储系统“盘古”在列,这是该活动6年来首次有存储技术入选。从互联网底层基础设施到上层应用,计算、存储、网络“三大件”的支撑缺一不可。此前“世界互联网领先科技成果发布活动”中,计算及网络技术已多次入选,存储技术却暌违日久。填补这一空白,“盘古”凭什么?带着问题,《中国科学报》连线了阿里云技术专家,对“盘古”的入选试解读一二。问题一:近年来存储技术水平有哪些进展?答:60多年前,世界上第一台硬盘“IBM Model 350”问世,它由50块24英寸的磁盘构成,总容量不到5MB,体积却有两台冰箱那么大;时至今日,单块硬盘最大容量可达20TB(1TB≈1048576MB),体积只有手机大小。但是,相对于日新月异的计算能力迭代和网络技术革新,存储技术进步的脚步逐渐放缓,特别是近年来有“掉队”迹象,存储渐渐成为“木桶理论”中最短的那块。问题二:现阶段存储技术是否能满足人们需要?答:随着数字化、智能化等的进步,人类社会正进入一个数据井喷的时代。万物联网和5G时代的到来,首当其冲的问题就是海量数据的存储、传输、计算、应用。尤其是,数据的存储可以通过不断堆积硬盘来实现,但数据存储不是目的,其价值在利用。换言之,人们需要的不是存储,而是存储系统——要保障数据的安全、可靠、可用以及应用时要高效和高性价比。与这些需求相比,无论本地硬盘还是网络云盘,都难以同时满足,存储技术与市场需求存在“断档”。问题三:给存储技术进步带来曙光,阿里云“盘古”是什么?答:“盘古”是阿里云自研的分布式存储系统,是阿里云底层的统一存储架构。其采用分布式系统先进的容错架构和柔性平台设计,具备弹性伸缩、自动负载均衡等能力,可大幅提高存储系统的可靠性和安全性,同时可支持块存储、对象存储、表格存储、文件存储、离线大数据处理等多种存储模式。“盘古”主要包括“分布式存储软件”“高性能存储网络”“云存储硬件架构”“深度软硬融合的闪存存储架构”“智能运维管控”以及“网络和SSD控制器芯片”核心关键技术。“盘古”解决了超大规模下数据不丢不错和高可用的难题,让存储更加稳定可靠、拥有更大的容量和更高的性能,以满足数字经济对海量存储和快速存储的需求。基于这些原因,“盘古”得以入选世界互联网领先科技成果。问题四:“盘古”有哪些经典案例,它在实际应用中表现如何?答:从科学计算到个人数字空间,“盘古”做到了一力承担。案例一:今年1月,国家天文台北京—亚利桑那BASS巡天团队、DESI国际合作巡天项目团队联合发布最新巨幅宇宙二维天图。这是目前人类测量获得的最大宇宙天图——全球200名科研人员历时6年联合观测和数据分析,覆盖两万平方度的天空,约为全天球面积的一半,容纳10万亿数码像素,包含20亿天体。BASS巡天团队负责了其中北半球的星空,观测从2015年1月至2019年3月结束,获取天体图片2.5亿张。中国虚拟天文台团队依托国家天文科学数据中心,为BASS巡天项目提供了专业的数据管理与发布服务。而国家天文科学数据中心正是基于阿里云开展的大规模的数据处理和分析,“盘古”等阿里云计算资源让数据处理大大加速:此前需半个月才能完成对这些图片的完整处理,被缩短到不到一天的时间。此外,阿里云也在为中国“天眼”(FAST)提供存储服务,以端到端的计算、存储解决方案实现FAST数据的实时处理。案例二:底层基于阿里云“盘古”,用于个人云端存储的阿里云盘坚持“不限速”。“不限速”的潜台词,就有多快就跑多快。阿里云利用多区域部署的优势,采用“盘古”分布式机房的架构,阿里云盘可以实现数据就近存储,减少用户到数据存储中心的距离,缩短数据传输的延时。同时,用户在阿里云盘中存储的数据,会通过哈希函数打散,分布到阿里云对象存储(OSS)、表格存储(OTS)中。根据《阿里云存储白皮书》,基于“盘古”这一分布式存储文件系统,阿里云的对象存储能够提供99.999999999999%的数据可靠性,以及 99.995% 的SLA服务可用性。还有很多案例,比如在金融领域,民生银行基于“盘古”搭建分布式核心系统,建设成本降低90%,并可支持未来十亿级客户规模扩展;在智慧城市建设上,珠海横琴基于阿里云建设跨境多维大数据服务云平台,实现了服务统一入口,等等。问题五:“盘古”是如何横空出世的?答:“盘古”并非横空出世,而是经历了长期的技术演进和实践打磨后的结晶。“盘古”团队自2008年开始组建,2009年开始推出第一个版本,2013年完成上线单集群5K台的规模,此后2015年突破了单集群上万台的技术门槛,2017年正式推出“盘古”2.0并成功支撑了此后的天猫“双11”全球狂欢节。相比1.0版本,“盘古”2.0面向人工智能、科学计算、深度学习等未来存储场景做了优化升级,整体IOPS性能提升50%,同时推出基于“盘古”2.0的ESSD高性能云盘,IOPS从2万提升到了100万。从“培养世界级运动员就得让他带到世界级赛场”的思路出发,阿里云在打造“盘古”2.0的过程中,也将它放在阿里巴巴的各种应用场景中“历练”。目前,“盘古”作为数据统一存储底座得到了规模化应用,支持了阿里巴巴所有数据存储业务,包括阿里集团的所有电商核心交易系统、蚂蚁关键业务、阿里云各类存储产品等。问题六:“盘古“还将提供哪些存储服务?答:如今基于“盘古”系统,阿里云已建起全球最丰富的云存储产品家族,从公共云存储到混合云存储,从数据迁移到云上丰富的数据管理服务,能够覆盖多元数据应用场景,为客户提供安全、稳定、高可用、低成本、弹性可扩展的云存储服务,提供99.9999999999%的数据可靠性。阿里云“盘古”的全球部署规模已超100EB。未来,用户可以在互联网任何位置存储和访问数据,并可弹性扩展容量和处理能力,同时阿里云将全面优化存储成本,并提供多种存储类型供用户选择。