数据基础设施白皮书(附全文)

数据基础设施的范围应涵盖接入、存储、计算、管理和数据使能五个领域,通过汇聚各方数据,提供“采、存、算、管、用”全生命周期的支撑能力,构建全方位的数据安全体系,打造开放的数据生态环境,让数据存得了、流得动、用得好,将数据资源转变为数据资产。新的数据基础设施是传统IT基础设施的延伸,以数据为中心,服务于数据,最大化数据价值。

数据基础设施由基础设施层和数据管理层组成,其中基础设施层包括存储、计算、网络等硬件设施,数据管理层由操作系统、数据库系统及大数据系统组成,构成支撑数据存储及数据全生命周期管理的软件设施。

在基础设施层,区别于传统的硬件设施,数据基础设施将引入多样性计算,从单一算力到多样性算力,匹配多样性数据,让计算更高效;存储也会从单一类型存储走向多样性融合存储,构建融合处理基础,应对存储效率低、管理复杂的问题。

在数据管理层,将结合大数据系统和数据库系统提供的“采、存、算、管、用”全流程的软件支撑,从单一处理向多源数据智能协同、融合处理发展,应对更实时和智能的数据应用需求,加速实现数据价值。数据基础设施需要面向数据构建全方位的安全体系,保障数据端到端的安全和隐私合规,打造开放的数据生态环境,推动全社会数据的共享和开放,创造更大的价值。

数据基础设施应具备以下5个特征:融合、协同、智能、安全、开放,以帮助企业实现存储智能化、管理简单化和数据价值最大化。

数据基础设施正在向“一横一纵”两种融合架构发展。

横向融合是指数据全生命周期存储的融合。数据产生的第一环节是生产存储,以支撑交易型的数据处理;通过扩展至分析型存储来支撑核心的分析业务;备份存储进一步扩展分析场景;主存增加混合云备份、分级等特性,实现冷数据上云。通过对生产存储叠加轻量化备份和管理特性,拓展存储场景,实现从热到冷的数据全生命周期存储整合。

纵向融合是指数据处理与数据存储的垂直优化。包括交易型数据处理与生产存储相融合,提升性能,增强可靠性;数据分析与分析型存储融合,提高分析效率。

在存储层,通过重定义存储架构,将块、文件、对象、HDFS等多种存储服务融合,打通数据孤岛,解决多样性数据存储和共享问题;

协议方面,通过多协议融合技术,实现一份数据同时支持数据库、大数据、AI等多种业务的分析需求,节省数据无效流动时间,让分析更高效;

算力层面,通过将数据库、大数据、AI多引擎融合分析和多样性算力统一调度,降低海量数据处理难度,实现高效分析;

管理层面,通过将AI融入存储全生命周期管理,从资源规划、业务发放、系统调优、风险预测、故障定位等方面实现智能运维,从容应对数千节点规模的复杂管理。

大数据的本质是复杂数据的处理技术,它和成熟的数据库、数据存储技术是相辅相成的关系。因为这种复杂性,在硬件、算力、数据等趋于融合的过程中,多种数据源以及与之相关联的特定的数据处理技术还是长期并存的,需要对异构异地数据源进行协同分析。

数据智能是一个跨学科的研究领域,它结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从数据中提炼、发掘、获取有揭示性和可操作性的信息,使数据“智能”,为人们在基于数据制定决策或执行任务时提供有效的智能支持。数据智能的标志是数据驱动决策,让机器具备推理等认知能力,大数据能够指导决策。同时完成业务数据化的进程,开始进入到业务智能化,依靠数据去改变业务。智能的数据基础设施应该从每个环节都能够提供智能化的能力支撑。

数据基础设施承载着海量的数据,包括业务的核心数据以及隐私数据。这些数据支撑着企业的所有业务和运营,关系着企业的生命线。需要构建全方位的数据安全体系,帮助企业实现数据在全生命周期过程中的数据不丢失、不泄露、不被篡改、业务永远在线、可追溯和隐私合规。

‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。

(0)

相关推荐