一文看懂金融行业如何进行云环境网络流量采集项目设计、实施和运维 | 最佳实践
一、需求分析阶段
1、金融行业为什么要上云环境网络流量采集项目?
随着云和虚拟化技术的不断发展,金融行业数据中心越来越多应用系统从原来的物理机迁移至云平台,金融行业数据中心的云环境东西流量呈显著增长。但是传统物理流量采集网络无法对云环境东西流量进行直接采集,导致云环境中的业务流量成为盲区。
(1)云环境东西流量无法直接采集使在云环境的应用系统无法部署基于实时业务数据流的监控探测,我们不能及时发现云环境中的应用系统的业务真实运行情况,给云环境中的应用系统的健康稳定运行带来一定隐患。
(2)云环境东西流量无法直接采集使云环境中的业务应用发生问题时无法直接提取数据包进行分析,给故障定位带来一定困难。
(3)随着金融行业网络安全和各类审计要求越来越严格,如BPC应用交易监控、IDS入侵检测系统、邮件以及客服录音审计等系统,对云环境东西流量的采集需求也越来越迫切。
基于以上情况分析,实现对云环境东西流量的数据提取成为必然趋势,我们必须与时俱进引入新的云环境东西流量采集技术以使部署在云环境的应用系统同样可以拥有完善的监控支持,在发生问题和故障时可以采用抓包分析的手段进行问题的分析和数据流的跟踪。实现云环境东西流量可提取可分析,是保障云环境部署的应用系统稳定运行的有力法宝。
2、如何评估云环境网络流量采集项目的整体成本?
云环境流量采集网络项目的成本主要包括项目采购成本和项目实施管理成本。其中项目采购成本是指采购云环境流量采集产品的成本,包括采购云环境流量采集管理平台、云环境流量采集虚拟机和高级功能许可。项目实施管理成本是指采购云环境流量采集产品商务流程准备、云环境流量采集需求统计、云环境流量采集技术学习和云环境流量采集网络方案制定以及实施和管理的成本。云环境流量采集网络项目可能关联成本是指如果没有云环境流量采集网络,将无法实现对云环境上的应用系统进行基于数据包的实时监测,也无法对云环境上的应用系统出现异常时进行基于数据流的有效分析,给故障处置带来困难和损失的成本,这部分关联成本和损失是无法估量的。
在选择云环境流量采集技术和产品时,我行采用在云环境每台物理宿主机上安装统一的采集虚拟机,由采集虚拟机统一采集云环境东西流量后汇总传输至传统物理流量采集网络,再由物理流量采集网络分发至各个流量分析系统的方式进行云环境流量采集。这种方式对云平台资源开销较小的方式,同时满足各流量分析系统上可以查看到云环境东西南北方向的所有流量的需求。即使后期有更多云环境东西流量采集需求也无需增加在云平台采集虚拟机的资源和开销,较好地控制后期的成本。
某行采购云环境流量采集产品中,云环境流量采集管理平台占采购成本14%,云环境流量采集虚拟机占采购成本83%,高级功能处理许可占采购占比3%。
3、金融行业中上云环境网络流量采集项目的企业多吗?现在是什么形势?
目前12家股份制银行中的中国广发银行和中国光大银行均已在测试环境部署了云环境流量采集网络。其它大型企业例如中国外汇交易中心、上海证券交易所等也都搭建了自己的云环境流量采集系统。随着金融业对云环境中应用系统的监控要求越来越高,各大企业对云环境东西流量的采集方法和采集的数据质量也越来越重视。云环境流量采集网络已经是金融行业的一种刚性需求。在金融业均认同对云环境中的东西流量的采集作为流量采集网络的基础架构来统一管理。同时随着金融行业数据中心推行云和虚拟化技术,如何在云环境中采集质量良好且稳定的流量数据也是金融业共同面临的课题。
二、方案设计
1、如何进行云环境网络流量采集项目的系统方案设计?有哪些具体的设计内容?
云环境流量采集网络项目系统设计方案主要由云环境流量采集管理平台和部署在云平台物理宿主机上的采集虚拟机两部分组成,如图一。其中流量采集管理平台负责采集虚拟机的部署、云环境流量采集策略的配置下发以及采集虚拟机到物理采集网络中的设备的通道建立等管理工作;而采集虚拟机部署在云平台每台物理宿主机上,用于采集同一物理宿主机中的虚拟机之间交互的东西流量,并将流量传送至物理采集网络中的设备进行过滤和高级功能处理后分配至各个流量分析系统。
图一 云环境流量采集网络架构
云环境流量采集网络方案具体设计内容:首先,虚拟化集中管理平台vCenter授予流量采集管理平台所需权限,以保证流量采集管理平台可以获取vCenter中相应物理宿主机和虚拟机信息。其次,通过流量采集管理平台对vCenter每台物理宿主机部署一台采集虚拟机,该采集虚拟机具有多个虚拟网卡,通过API从虚拟交换机中对同物理平台的各虚拟机不同网卡流量进行采集。在云环境中虚拟机不同网卡的流量对应在不同的Port-Group中。采集虚拟机可以根据需求以虚拟机的Port-Group为单位对虚拟机流量进行提取。例如如果我们对虚拟机上的业务流量感兴趣而对虚拟机的备份流量暂时无需求,那就可以针对虚拟机的业务数据的Port-Group进行流量采集。再次,在流量采集管理平台制定流量采集策略,可以根据数据的MAC地址、Vlan Id、IP地址和端口等条件指定采集各虚拟机出入网卡的所需流量,更有效地提取云环境中所需的流量,同时保护流量采集网络中的传输带宽资源。
在运维过程中虚拟机发生了迁移时通过流量采集管理平台的通知机制同样可以保证相应迁移到新物理宿主机的虚拟机的流量可以提取到。在虚拟机发生迁移时,流量采集管理平台会得到VCenter发出的虚拟机迁移消息通知,告知哪台虚拟机迁移到哪台物理宿主机,流量采集管理平台会根据迁移消息在新的物理宿主机重新部署和下发对该迁移虚拟机的流量采集策略,这样即使虚拟机发生了迁移,关于这台虚拟机的流量我们同样可以采集到。
2、在云环境网络流量采集项目中,为进行系统规格设计,如何进行定量需求分析?需要收集哪些需求数据信息?
建设云环境流量采集网络项目需要前期收集需求信息,根据需求信息按规模部署建设云环境流量采集网络。收集的需求信息数据包含以下三方面:
(1)各云环境虚拟机的镜像流量采集需求。需要确定云环境中的云平台数量和不同云平台的物理宿主机和虚拟机数量规模。用以确定云环境流量采集网络中需要安装的流量采集管理平台和采集虚拟机的license数量,以保证各云平台的虚拟机流量都具备采集条件。
(2)云环境流量中虚拟机镜像流量带宽预估。需要预估云环境各虚拟机的镜像流量带宽,以部署配套带宽线路和过滤策略,以使云环境虚拟机镜像流量在传输时带宽充足且不过分消耗云环境资源和性能,保证云环境虚拟机镜像数据质量良好。
(3)各流量分析系统流量采集需求。需要收集各流量分析系统对云环境流量的需求,例如BPC监控工具对数据有去重、去除标签的高级功能处理需求,科学分析系统对数据有切包的高级功能处理需求等。针对不同的流量分析系统的不同流量高级功能处理需求需要统计和梳理,在流量采集网络按规模部署高级功能处理板卡,以满足各流量分析的流量采集需求。
3、如何解决云环境网络流量采集项目的中的某个难点问题?
(1)监测难点:云环境虚拟机漂移后相应虚拟机的镜像流量如何采集。
在云环境下虚拟机一旦发生迁移,之前在这台虚拟机所提取的流量如何保证仍然可以及时按需采集到是云环境下虚拟机镜像流量采集的难点。
解决方案:在虚拟机发生迁移时,流量采集管理平台会得到VCenter发出的虚拟机迁移消息通知,告知哪台虚拟机迁移到哪台物理宿主机,流量采集管理平台会根据迁移消息在新的物理宿主机重新部署和下发对该迁移虚拟机的流量采集策略,这样即使虚拟机发生了迁移,关于这台虚拟机的流量同样可以按需采集到。
(2)监测难点:云环境虚拟机镜像流量带宽控制。
在云环境流量采集网络中,如何控制云环境虚拟机镜像流量传输带宽,防止因虚拟机东西镜像流量太大产生云环境虚拟交换机性能下降和带宽过载等影响是云环境流量采集网络项目中一个非常重要的问题。
解决方案:1、在云环境中选取采集的流量时只采集同物理宿主机上不同虚拟机之间的同网段东西流量,其它可以在传统物理流量采集网络中可以采集到的流量不在云环境流量采集网络中采集。2、在云环境采集流量时可以按需设置基于L2-L4层明细过滤条件进行流量采集过滤和数据包末端精细化裁剪,减少无用流量传输进一步保护云环境传输带宽资源。
4、在云环境网络流量采集项目中,Tunnel模块如何进行设计?
在云环境流量采集网络项目中,Tunnel模块作用比较重要,承担桥梁作用。Tunnel模块的作用是将在云环境采集的流量采用GMIP等格式封装后,通过Tunnel传输到传统流量采集物理设备并在物理设备上进行相应GMIP等格式解封装。这样传统流量采集物理上即可得到在云环境上采集的东西流量了。Tunnel模块的输入是在云环境中采集的虚拟化流量。Tunnel模块的输出是通过Tunnel传输到流量采集物理设备且已经解封装的云环境流量。
Tunnel模块的工作原理:(1)将通过采集虚拟机采集到的虚拟化流量进行基于GMIP等格式的数据包封装;(2)通过云环境流量采集管理平台下发策略至采集虚拟机将已进行GMIP格式封装的虚拟化流量通过Tunnel传输至流量采集物理设备指定接口;(3)在流量采集物理设备指定接口开启GMIP格式的解封装功能,对Tunnle传输过来的虚拟化流量进行解封装操作。经过以上三步流量处理后,流量采集物理设备即可得到云环境采集到的原始数据包。
5、在云环境流量网络采集项目中,如何进行云环境流量采集产品的选型?
在选择云环境流量采集技术和产品时,现在比较主流的云环境流量采集技术主要分为以下三类:
(1)基于Agent部署。需要在云环境中的每一台虚拟机上安装Agent代理软件,然后各个流量分析系统通过Agent代理软件提取云环境东西流量。
(2)在云环境每台物理宿主机上针对每个不同流量分析系统安装不同的监测采集虚拟机,不同的流量分析系统通过自己的检测采集虚拟机提取云环境东西流量。
(3)在云环境每台物理宿主机上安装统一的采集虚拟机,由采集虚拟机统一采集云环境东西流量后汇总传输至传统物理流量采集网络,再由物理流量采集网络分发至各个流量分析系统。
上述三种云环境东西流量采集技术中,第一种基于Agent的方式很难大规模在金融行业数据中心应用,因为一旦Agent采集进程与云平台虚拟机内的应用产生冲突将会影响到云平台虚拟机运行的业务应用,风险较大。第二种方式中每个物理宿主机安装多个不同流量分析系统的检测采集虚拟机方式对云平台资源开销较大,试想如果有7套流量分析系统,就需要在每台物理宿主机上安装7个不同的监测采集虚拟机,这种云环境东西流量采集方式对云平台的资源开销是很难接受的,同时很难保证所有流量分析系统都有相应的检测采集虚拟机可以用来提取云环境流量。第三种方式在云环境每台物理宿主机安装统一的采集虚拟机进行流量采集,再通过物理流量采集网络将云环境东西流量分发至各个流量分析系统的方式是对云平台资源开销较小的方式,同时满足各流量分析系统上可以查看到云环境东西南北方向的所有流量的需求。综上所述,第三种方式适合在金融行业数据中心进行云环境东西流量采集的一种技术方法。
三、工程实施
1、如何规划云环境网络流量采集项目的工程实施步骤?
云环境流量采集网络项目实施主要分为云环境流量采集方案和架构设计、申请相应云环境虚拟机资源和软件安装部署、云环境流量采集系统试运行和云环境流量优化过滤和分配等步骤。因为云环境流量采集网络的采集数据质量影响各流量分析设备的监控和安全防御准确性,所以云环境流量采集网络建设需要严格把控每一项工程步骤的进度与质量。
(1)云环境流量采集方案和架构设计。该步骤主要根据我行的云环境分布架构和云环境流量采集需求,设计我行的云环境流量采集网络的架构和规模。确保我行的云环境流量采集系统可以对我行的各云环境的流量均有采集途径。
(2)申请相应云环境虚机资源和相应权限,并进行云环境流量采集系统软件安装。该步骤在我行云环境申请满足云环境流量采集管理平台和流量采集虚拟机安装需要的系统资源并在云环境取得云环境流量采集管理平台所需权限后,在相应环境下部署云环境流量采集系统。该步骤以下3个难点:
1、云环境流量采集管理平台需要的虚拟化资源较大超出我行一般情况申请虚拟机的限制。
解决措施:首先协商虚拟化管理员在测试环境特批云环境流量采集管理平台需要的虚拟机资源,后续根据实际测试资源使用情况对云环境流量采集管理平台虚拟机申请的资源进行调整。
2、云环境流量采集管理平台需要的云平台权限较高,授予流量采集管理平台较高权限对云平台虚拟机稳定运行带来隐患。
解决措施:在测试环境进行流量采集管理平台部署,并对所需权限进行逐步开通测试,在测试环境逐步确认部署流量采集系统需要开通的云环境权限并确保流量采集系统授予权限后并不影响云平台虚拟机的正常稳定运行。
3、云环境流量采集系统部署时发现存在版本不稳定和存在不少缺陷,使云环境东西流量采集网络的部署进度滞后。
解决措施:对于发生在流量采集系统部署时发现的每一个缺陷和BUG,积极思考解决办法并反复在测试环境进行测试验证。需要时协商厂商技术人员进行远程和现场支持,确保我们碰到的产品缺陷和BUG在测试时即可解决。
(3)云环境流量优化过滤和采集实施。该步骤是云环境东西流量采集网络建设完成后,针对我行云环境流量采集需求对云环境流量进行特定条件的过滤,使我行流量采集系统采集数据效率更高,同时减少云环境采集流量向物理流量采集网络传输时的带宽压力,保护流量采集网络带宽资源。
四、项目运维
2、如何对云环境网络流量采集项目上线后对运维工作进行管理安排?
云环境流量采集网络平时运维工作主要分为以下两个方面:
(1)系统级生产任务:根据各个流量分析系统的采集需求,将所需云环境流量发送至指定流量分析系统。首先由需求方提出流量采集需求单,经过审批通过后方可进入我方团队。我方团队根据云环境流量采集需求准备变更方案及步骤。并在变更窗口期进行实施同时通知云环境流量需求方进行验证。
(2)产品级生产任务:定期对云环境流量采集网络进行巡检,发现产品软件问题并及时解决。
云环境流量采集网络的运维人员配置和任务分配:
(1)人员配置:两名行员和两名驻场人员。
(2)任务分配:行员:关注和推进流量云环境流量采集技术发展;牵头解决云环境流量采集网络发生和碰到的问题;实施云环境流量采集网络相关变更。驻场同事:掌握云环境流量采集技术;配合处置云环境流量采集网络发生的问题;准备云环境流量采集需求日常变更。
云环境流量采集网络运维工作难点是云环境流量采集技术是比较前沿的技术,运维经验较少。对此我们积极学习并掌握云环境流量采集技术,积累云环境流量采集运维经验。同时积极借鉴同业对云环境流量采集系统的运维过程中碰到的问题和难点的解决办法和思路,并加以运用,保证我行的云环境流量采集网络稳定运行。