某大型商业银行容器网络监控实践

业务大量上云与应用架构变迁

在过去数年里,在十三五规划指引下,金融行业通过私有云、行业云、生态云的建设以及大力发展金融科技的战略,已经成为上云的领航者。目前各金融企业正在大力建设基于容器和K8S的云平台,用于快速部署或迁移发展迅猛的生产应用。

某大型商业银行作为国内领先的金融企业,在上云的道路上进行了广泛的探索,较早地认识到容器轻量化、标准化、弹性、可移植、高效发布等好处。目前已建设了自己的应用容器云平台并在全面推广使用中。随着该银行应用的容器化,创新类应用得以快速上线、快速迭代;传统的应用借助容器加速了DevOps和微服务改造,业务在部署和调度方面的效率得到了大幅提升。但容器的引入再一次扩大了云网络的边界和层级,随之而来的监控问题也摆在了桌面上。

金融容器云平台

容器轻量化、标准化的特性降低了管理的复杂度,满足了业务大量上云的需求。随着Kubernetes赢得了容器编排之争,企业采用容器大多会选择Kubernetes,容器网络方面,在Kubernetes官网登记的CNI已有几十种。为了解决隔离性和跨节点的容器通信,Overlay Network成为众多企业建设容器网络方案的首选。某银行容器云平台也是基于Kubernetes和Docker技术构建,容器网络采用了Flannel Overlay模式。网络部门一直肩负着业务统一管理和发布的重任,并随着云计算和IT技术的发展建设了完善的网络监控平台。但容器业务的监控涉及注入负载均衡等网络设备、Kubernetes池内的Service资源以及Ingress资源,并且容器的原始网络模型对多租户或者说业务隔离的体制并不完善,这都为容器业务的监控带来了许多新挑战。

云原生的监控网络

容器环境中的常见故障一般有三类:应用类故障通常表现为应用的执行状态和预期不符;容器故障通常表现为无法正确的创建、停止或更新容器;集群故障通常表现为不满足一致性或无法连接。多数企业在容器部署及管理方案中,对系统监控报警多采用Prometheus、Grafana、Zabbix等开源工具,但所能获取的指标数据和展示维度相对有限,尤其是当容器资源池规模继续扩容后,上述工具的扩展性和部署问题将难以满足深入的分析需求。以容器Host模式为例,通常每个节点运行100~200个Pod,获取每个Pod的网络流量并结合全网流量数据,实现秒粒度的查询分析并不容易。

获取完整的网络流量尤其是容器网络的流量是保障业务上云连续性和安全性的重要前提。在容器云平台中,业务与网络的结合更为紧密;在容器云平台内部,默认的网络模型在东西向访问隔离方面缺少必要的安全保障;在微服务架构中,服务间的网络监控是业务保障中重要部分;在容器网络中,POD间的网络流量迫切需要工具手段进行监控保障。该银行构建了统一的云网络监控平台,具备满足业务上云持续演进的能力,确保业务上云后的可视、可管、可控以及快速排障。这就要求对容器业务的监控能够识别到Pod粒度,能主动感知容器资源的变化监控手段也应随之改变。借助开源组件和商业产品如云杉网络DeepFlow®等,该银行的监控平台实现如下目标:

安全可控:在容器环境下,满足平滑部署且容器业务不能间断,对计算资源的消耗可控。
一体化:监控能力覆盖包括容器、KVM、VMware、公有云、裸金属等异构资源池,同时具备多租户服务能力和容器业务的端到端诊断能力。
云原生:监控平台采用分布式架构,满足云服务的弹性、敏捷需求,当容器业务进行跨资源池弹性部署时,监控系统可以自动跟随。
开放性:多类分析终端或平台对容器网络的流量数据有消费需求,确保现有的分析工具可以无缝使用。

企业选择Kubernetes构建容器云平平台时,一定程度上解决了管理的便利性问题。但在容器网络方案中却面临着一些不足,尤其是在大规模场景中,容器的网络隔离、地址管理、网络性能以及故障诊断方面存在不足。具体到该银行的业务场景中,云端业务的发布主要借助蓝鲸系统,网络监控依赖统一的网络数据平台——由前端的TAP设备实现各网络和业务环境的全量网络数据采集,通过流量汇聚设备进行流量预处理(包括去重、过滤、复制等),然后分发到后端网络流量分析、安全分析、交易分析等数据消费工具使用。

该银行数据中心安全和业务规划为多个区域,容器集群部署在多个区域。面对业务向私有云和容器环境过度中虚拟网络流量采集的不足,借助云杉网络DeepFlow NPB方案,首先与各区域的容器资源池进行对接,掌握了容器环境中的相关信息,包括集群(Cluster)、节点(Node)、Pod、服务(Service)、Ingress等;根据容器环境分别部署对应规格的采集器,采集器获取POD原始流量,在业务梳理过程中标定监控对象,并加入相关的资源组、归类IP、功能服务、链路,描述容器业务的网络访问路径,并根据采集策略为分析工具做流量标记、业务标记,并将标记信息同步到CMDB供各类分析工具使用。采集器将资源池内的流量按业务画像梳理出来的规则过滤,并分发到后端各类分析平台或设备,从而实现容器业务端到端的监控与诊断。

云原生监控的展望

当前,容器云在金融行业落地还存在许多问题需要解决,例如容器业务的安全隔离,容器网络与数据中心网络的统一监控等。容器在金融行业的部署规模日益增长,未来应用微服务化、容器化将会是一个主流技术方向。通过进行针对性适配和改造,容器在该银行的应用将逐渐规模化。但对容器网络的监控仍需要精细化,需要从区域、节点、Pod、IP等多个维度查询展示容器业务,在容器业务路径中实现分段排查、快速缩小问题范围、定位异常原因;并为回溯取证提供数据支撑。未来,该银行将持续推进容器网络监控方案持续落地,助力业务创新,践行科技金融战略。

关于DeepFlow®
DeepFlow®是北京云杉世纪网络科技有限公司(以下简称云杉网络)推出的一款虚拟网络流量采集、可视化与分析产品。DeepFlow®软件基于x86集群和通用网络设备,支持集群部署,支持容器(Kubernetes)、OpenStack、vSphere虚拟化环境和AWS、阿里云、腾讯云等公有云环境,帮助企业在混合云环境中统一采集并分发任意工作负载之间的网络流量,实现对云端业务关键链路的全面性能监控,并提供业务网络端到端的全路径诊断。凭借领先一代的技术优势和完整的产品解决方案,DeepFlow®已在50多家世界500强企业落地部署,不断为客户提供云网络治理的最佳实践。
RECOMMEND
(0)

相关推荐

  • .Net 微服务架构技术栈的那些事

    一.前言 大家一直都在谈论微服务架构,园子里面也有很多关于微服务的文章,前几天也有一些园子的朋友问我微服务架构的一些技术,我这里就整理了微服务架构的技术栈路线图,这里就分享出来和大家一起探讨学习,同时 ...

  • 生产环境中的Kubernetes最佳实践

    DevOps从提出到现在,已经走过了一段很长的路.包括Docker和Kubernetes在内的多种平台也已经帮助企业用前所未有的速度实现了软件应用的交付.同时,随着应用的容器化构建和发布比率不断上升, ...

  • Kubernetes生产环境最佳实践

    来源:https://baijiahao.baidu.com/s?id=1687609645264653650 众所周知,Kubernetes很难! 以下是在生产中使用它应遵循的一些最佳实践.遵循这些 ...

  • 云原生初学者入门必读

    近年来腾讯.阿里巴巴.华为.网易.百度等大厂,中国信通院.各大技术大会和社区都在推广的云原生究竟如何入门?本文是入门向,适合所有想要入门云原生的新人阅读.另外,云原生社区还发布过一篇投资人视角下的云原 ...

  • 第10讲:架构的演进之路与前沿技术

    本课时会讲解分布式系统架构以及面试中做项目介绍的技巧,重点有如下三部分. 介绍系统架构的演进:包括微服务架构.云原生以及业界最新趋势 ServiceMesh. 讲解微服务的基础知识点:Docker 和 ...

  • 云杉网络:一家自带“产学研”基因的公司

    编辑:阿由 设计:紫菜 北京云杉世纪网络科技有限公司,是一家成立于2011年的创新企业.前期在与该司市场部进行对接时,我用了几次"云杉科技",就几次被对方以"云杉网络&q ...

  • DeepFlow全栈混合云网络监控最佳实践【阿里云篇】

    多云和云原生趋势渐成主流.RightScale 2019年云状态报告显示,有84%的受访企业采用了多云战略:Gartner 预测,2020年全球90%的组织将利用混合云管理基础设施:Nutanix全球 ...

  • 各种网络监控拓扑图,十分齐全!

    拓扑图就是网络结构图,拓扑图的作用是可以更直观明了的看清楚网络中各个节点之间的链接,还有接口之间的链接,方便配置和排除错误. 接下来起来看一下各类网络监控拓扑图吧.都能看懂就算入门了~ 一.公安交通视 ...

  • 怪不得家里装了网络监控后,网速就变慢了,原来它一直占用着宽带

    怪不得家里装了网络监控后,网速就变慢了,原来它一直占用着宽带

  • Nagios 网络监控软件曝出严重漏洞,可被黑客劫持

    近日,东方联盟网络安全研究人员披露了有关Nagios网络监控应用程序中13个漏洞的详细信息,这些漏洞可能会被攻击者滥用而劫持基础架构,而无需任何操作员干预. Nagios是类似于SolarWinds网 ...

  • 超大型网络监控系统,最简单的解码上墙方式

    前段时间到一个现场调试解码设备,个人认为此系统简单而方便,可供大家参考.此系统如下: 项目案例分析: 摄像机共353个,录像机32路共14台,分成三个厂区(A/B/C),在三个厂区相隔在10公里以内, ...

  • 干货 | 各种网络监控拓扑图

    拓扑图就是网络结构图,拓扑图的作用是可以更直观明了的看清楚网络中各个节点之间的链接,还有接口之间的链接,方便配置和排除错误. 一起来看下各类网络监控拓扑图吧. 一.公安交通视频管理应用平台解决方案

  • 各种网络监控拓扑图集合「非常齐全」

    拓扑图就是网络结构图,拓扑图的作用是可以更直观明了的看清楚网络中各个节点之间的链接,还有接口之间的链接,方便配置和排除错误. 接下来起来看一下各类网络监控拓扑图吧.都能看懂就算入门了~

  • 网络监控系统工程中,网络带宽的基础概念!

    有位网友求助说,网络监控摄像机的图像会卡顿,但是自己算了带宽,一台网络摄像机占8M带宽,交换机百兆,接入11台,理论上100÷8=12.5台,一共接11台那么网络带宽是不是够了,但还会网络卡顿,问到底 ...

  • “春之韵,唱响春天”自媒体网络大型综艺晚会网络受关注

    扬州网讯(记者丁鹤林) 阳春三月,莺飞草长,一派春意盎然景像,2021年3月26和27日晚,分别在快手和抖音两大平台完美呈现的巜"春之韵,唱响春天自媒体网络大型综艺晚会>,则让近10万 ...