干货:某保险企业数据备份系统的规划设计 | 最佳实践

【导读】本文从保险企业数据备份系统建设的实际需求出发,充分利用重复数据删除等数据备份技术,来优化传统备份架构,从而完成备份系统建设方案的规划设计,对同行有一定的借鉴和参考价值。【作者】陈萍春,现就职于保险行业,拥有多年的系统、存储以及数据备份等运维工作经验。1. 项目背景数据是企业的核心资产,数据备份可以有效应对系统运行过程中的存在的数据损失风险,是业务连续性的保障。随着云计算、大数据等新技术的广泛应用,传统基于结构化数据备份的数据备份模式面临着以下三方面的挑战:非结构化数据:非结构化数据的数据量越来越大,海量数据带来了更长的备份时间窗口;数据库:适配多种类型数据库备份方案的需求,且数据量与日俱增,需要平衡备份方案的成本与收益;虚拟化和云平台:适配多种云环境下VM、容器的备份需求,关注备份恢复的效率。为应对新的备份恢复场景,数据备份系统也需要与时俱进。本文从保险企业数据备份系统建设的实际需求出发,充分利用重复数据删除等数据备份技术,来优化传统备份架构,从而完成备份系统建设方案的规划设计,希望对同行有一定的借鉴和参考价值。2. 备份系统的规划设计2.1需求分析完整的备份系统一般包括备份管理系统、备份介质、备份网络以及备份策略。结合我司的实际情况,备份系统需要满足以下方面的需求:可靠性:备份系统需要较高的可靠性,才能保障备份作业定期稳定运行;备份管理系统的容灾:备份是数据容灾的重要手段,数据恢复又依赖于备份系统,所以备份系统本身也需要具备容灾能力,才能保证容灾方案的施行;备份数据的容灾:备份数据应采用两份拷贝的方式,分别存放在双数据中心机房,重要数据还需满足离线保管的需求。扩展性:备份系统需要具备良好的扩展性,满足新备份节点、备份域的需求;性能:性能需求体现在两点,一是备份过程对源系统的性能影响较小 ,二是备份时间窗口要短,避免影响到源系统的非备份时间窗口;数据保护功能:需能覆盖Oracle、SQL Server、Mysql、PgSQL等数据库、非结构化数据、虚拟机的备份场景以及Exchange邮箱归档场景;管理性:需对接现有监控平台实现备份系统的监控告警,并定期生成运行情况报表;性价比:在设计备份系统时,在考虑上述几项需求的同时,还需要兼顾系统的总体投入和项目收益。2.2 备份管理系统规划备份管理系统主要包括备份软件和备份管理服务器这两类组件。2.2.1 备份软件备份软件方面的工作包括:备份软件选型和备份软件架构规划。备份软件选型选型可参考的因素包括:场景适应性、技术支持服务能力、成熟度、Gartner企业级备份与恢复软件的评测、运维人员技能储备等等。通过备份软件POC测试,以确定最终选型,测试项规划为下表:测试项目具体测试项测试项说明备份存储对接配置本次磁盘库配置物理带库配置虚拟带库配置NAS磁盘库数据备份DR备份文件备份Oracle数据库备份Mysql数据库备份PgSQL数据库备份Vmware虚拟机备份NAS备份数据归档文件归档邮件归档数据恢复DR恢复文件恢复oracle数据库恢复Mysql数据库恢复PgSQL数据库恢复Vmware虚拟机恢复NAS恢复其他管理功能重复数据删除定时任务策略存储池拷贝策略监控、报告定制用户权限管理其他特色功能非功能性指标软件UI软件易用性备份软件架构规划规划生产、灾备、邮箱归档域等备份域,按照主流备份软件架构实践,采用经典的三层架构,主控服务器用于集中管理各备份域,备份服务器用于提供备份介质管理和数据传输,客户端包括备份客户端及各种备份代理,整体架构示意图如下:

2.2.2 备份服务器规划一台主控服务器,三台备份服务器。主控服务器主控服务器与备份服务器的功能分离,本质上是一个管理数据库,负责备份软件层的调度管理,是备份软件层最重要的组件,其他组件依赖它去重建或修复配置,需要保证高可用性与容灾;主控服务器本身不涉及到备份介质管理与备份数据传输,IO压力并不大。结合主控服务器的特点,可规划虚拟机部署方式,通过虚拟化集群来保障主控服务器的高可用;容灾方面,主控服务器可以通过虚拟机即时恢复技术恢复到灾备集群,也可以通过备份软件自身的DR备份恢复来实现,整体规划架构图如下:

备份服务器三台备份服务器受主控服务器管理,分别负责各自备份域的备份存储介质、客户端、数据流。生产域、灾备域需要对接虚拟带库、物理磁带库、NAS存储等备份存储,承担所有客户端的备份数据流,规划各部署一台X86服务器,生产域与灾备域的备份服务器可互为备份。这是由于主控服务器承担了备份系统的大脑功能,备份服务器较容易灾难恢复,只需要把备份介质与客户端指向新的备份服务器即可。邮件归档域的备份服务器主要用于Exchange邮箱的邮件归档,对性能要求较低,规划部署为虚拟机。数据备份流程数据备份流程参考下图:

数据恢复流程数据恢复流程参考下图:

2.3 备份介质规划传统的备份介质主要是磁带、硬盘、光盘等,对应的设备包括物理磁带库、虚拟磁带库、NAS存储、光盘库等,光盘相对小众,主要用于特定的数据保护场景,暂不考虑。对于主流备份介质的规划,可以从容量、性能、重删压缩、保存方式等特性来考虑,具体可参考下表:闪存盘(SSD)虚拟带库(Data Domian)NAS存储(SAS/SATA)磁带(LTO7)性能多线程访问,比SAS/FC更好的多线程顺序数据流处理;读操作拥有顶级的快速访问,写操作比读操作慢多线程访问;读写性能较好多线程访问;读写性能一般单线程;顺序读写性能较好,读写带宽300MB/s容量单位容量价格高单位容量价格较高单位容量较廉价近6TB原生容量,较廉价重删压缩与备份软件的重删压缩功能结合自身硬件重删压缩性能好与备份软件的重删压缩功能结合不能开启备份软件的重删功能保存使用在线便于擦写重用在线便于擦写重用在线在线保存与擦写重用易于离线保存离线保存与擦写重用结合上表中不同备份介质特性的对比,我们做出了如下的备份介质规划:SSD存储池规划利用备份服务器本地SSD盘(后续可通过SAN存储扩容)构建SSD存储池,用作数据备份系统的主缓存池,结合备份软件的重删压缩,有效减少落盘的数据量。大部分数据缓存保留3天,数据备份、恢复速度均能得到保障。虚拟带库池规划分配较多的虚拟driver以保障充足的备份并发流,虚拟带库池作为数据备份系统的副缓存池,本身硬件层的重删压缩性能较好。NAS存储池NAS存储池主要是两个用途:归档数据和保存期限相对短的数据。归档数据可满足一定的数据在线能力,方便随时调取(如果归档数据量较大,后续可以替换为对象存储池);数据保存周期短,对容量需求相对较小,数据擦写重用方便。磁带池磁带的特性适宜用于需要数据离线保存、数据保存周期较长的场景。新的LTO7带机driver读写速度快、单盘磁带容量大。但磁带池是通过物理带库的带机driver提供并发能力,而本方案中磁带池不直接对接备份客户端,而是经缓冲池的重删压缩后的数据,相比传统直接对接客户端备份的方式,可以有效减少带机driver的使用。备份介质整体使用思路如下图:

2.4 备份网络规划备份网络主要包括备份SAN、备份LAN网络两种,是数据备份时间窗口的重要影响因素之一,也是备份数据稳定传输的保障。备份网络规划主要从以下几个方面考虑:容灾规划由于数据备份系统的容灾功能,需要保障备份数据流能跨数据中心同步,包括LAN网络、SAN的同步数据流。备份带宽备份带宽很大程度上会影响到备份时间窗口,特别需要关注数据流汇聚处的带宽。本方案中主要关注的是备份服务器层的带宽,采用万兆LAN网络,备份客户端则视情况选择备份网络。备份SAN主要用于备份服务器连接磁带库、存储设备以及客户端Lanfree备份,而备份软件可以在客户端开启数据重删压缩,重删压缩的数据流比较小,备份速度快,可以替代绝大部分Lanfree场景。安全隔离性备份服务器一般规划在独立网段,在备份数据流较大的情况下可能会影响到正常的业务网络访问,除了注意备份窗口做规避外,还需要重点考虑数据库场景、虚拟化场景以及对网络核心交换层的影响,在条件允许的情况下,组建独立备份局域网具有一定的必要性。2.5 备份系统整体架构综上,备份系统整体架构图如下:

2.6 备份策略制定备份策略的内容包括需要备份的数据对象、备份的方式方法、备份数据落地的存储介质以及数据保留周期等要素。按照不同的备份数据对象,适当错开各自的备份时间窗口,并分别制定备份策略。通用的备份策略参考如下表格:数据对象名备份数据流时间窗口数据量数据增长量备份方式数据保留2.6.1 数据库策略数据库一般都需要安装单独的备份客户端,结合不同的数据库用途,可再规划分成三类策略:核心类数据库这类策略需要重点保障核心级系统的RPO、RTO、备份窗口这三种指标。RPO对应的措施是数据库每日全备份,归档日志定时备份;RTO对应的是需要保证数据恢复速度;备份窗口则是要提高备份速度,减少备份时间。核心类数据库通过Lanfree备份方式,数据恢复时间比较能保证;而开启备份软件的数据重删功能,通过LAN网络就可以迅速完成数据备份。综合考虑后,选择LAN网络和备份软件客户端重删压缩的方式,管理成本低,数据并发要求低,容错性高。备份数据流策略如下图:

报表类数据库这类策略可以通过备份软件重删压缩来做全备份,但一般这类数据库未开启日志归档,DBA选择了定期导出数据文件来备份,数据保留周期短;如后期选择定期离线全备份,可以参照核心级的备份方式。其备份数据流策略如下图:

其他数据库其他数据库采用备份软件重删压缩来做每日全备份,无其他定时备份归档日志策略,备份数据流策略如下图:

2.6.2 虚拟化与容器策略虚拟机VM虚拟机备份不需要安装其他agent,而是基于VMware虚机备份代理VSA实现备份功能。规划选取业务重要级别高的虚拟机来做备份,每日增量备份,每周做一次合成全备份,数据保留周期比较短。虚拟机中的数据重复率也非常高,重删压缩收益较高,采用的备份数据流策略如下图:

虚拟机恢复策略相对更加多样。不同的恢复方式对应于不同的恢复场景,可以整机恢复,也可以恢复虚机中的某些文件,也可以通过备份系统直接拉起虚拟机等方式。容器目前容器场景暂未部署到生产环境,但数据备份也需要提前规划。容器中的数据主要包括容器云集群组件配置信息备份、K8S资源对象信息、容器镜像、容器PV快照等等,规划采用备份脚本等方式定时将数据导出,备份到NAS存储池。2.6.3 非结构化数据策略非结构化数据也规划了三种数据备份方式:文件目录级备份规划一台专门用于非结构化数据备份的服务器,挂载需要备份的NAS,减少对业务系统的影响。文件目录级备份方式在数据恢复时,恢复的颗粒度比较细,能做文件级恢复。其特点是首次全备份时间长,但后续只需要每日增量备份,定期合成全备份即可。对于数据文件特别多的目录,文件目录扫描时间也会很长,不适宜海量文件目录场景。文件归档文件归档主要用于合规要求,需要对长期保存的文件定期归档。文件归档适宜于与文件目录级备份配合使用。NDMP方式备份NDMP方式是NAS存储特有的数据传输协议,主要用于NAS文件系统级的备份,备份速度较快,但恢复颗粒度是整个NAS文件系统,适宜于文件数较多、数据量大的NAS文件系统的备份非结构化数据备份数据流策略如下:

2.6.4 邮箱归档策略邮箱归档设置了单独的备份域,由一台虚拟机作为备份服务器去对接邮箱系统。邮箱归档主要是需要满足邮件合规保存要求,一般要求保存3年以上的邮件,设置好归档策略后,只需要每日定时归档,其备份数据流策略如下:

2.7 管理功能规划监控规划备份系统的监控应对接现有的zabbix监控系统,并重点关注如下四个方面:1)备份设备硬件状态:需要确认存储设备硬件状态正常2)备份软件进程和服务:需要确认备份软件进程和服务端口正常3)备份作业执行结果:需要确认定时备份作业以及其他后台作业都执行正常4)备份介质可用容量:需要确认备份介质的可用容量,提前做好容量预估报表规划报表规划主要需要订制每日、每周、每月的运行情况定时报表,主要包括特定时间段内的不同备份数据对象的备份作业统计信息,包括完成作业数、失败作业数、运行中的作业数、备份存储消耗情况等等。配置管理通过自动化手段,定期抓取备份系统的配置信息,包括主控服务器、备份服务器、备份客户端、备份策略集、存储策略、定时策略以及存储库等的详细配置信息,关注整体备份窗口长度、重要数据的备份性能等信息,适时做出相关的备份配置策略调整。3. 总结和反思容量规划容量估算公式:后端容量 = (前端容量 x 备份周期 增量合计)/ 去重比。由于重复数据删除技术的应用,容量估算难度加大,增量和去重比都是以经验值计算,所以需要预估相当的容量冗余。运维过程中,更需要重点及时关注各存储池上的数据备份周期、增量、去重比以及空闲容量的变化数据。SSD存储池为进一步确认核心类数据库的备份方式,已完成备份恢复测试。根据测试结果,LAN网络备份方式下,2.5TB的核心库的重删压缩数据流量约为456GB,备份时间只需要46分钟,恢复时间与lanfree方式接近。SSD存储池的使用,可以显著地提高备份性能,不受SAN网络、带机driver数的限制,在运维管理方面,也避免了磁带机相关故障导致的备份报错问题。另外一方面,在服务器本地SSD盘构建SSD存储池的方案,具有一定的成本优势,但整体规模受限,可靠性并不高;但采用更复杂的存储方案,又加重了管理等成本问题,也需要做好权衡。原标题:某保险企业数据备份系统的规划设计

(0)

相关推荐