DeepFlow全栈混合云网络监控最佳实践【阿里云篇】
多云和云原生趋势渐成主流。RightScale 2019年云状态报告显示,有84%的受访企业采用了多云战略;Gartner 预测,2020年全球90%的组织将利用混合云管理基础设施;Nutanix全球企业云指数调查报告显示,86%的企业受访者认为混合云是是理想IT基础架构的最佳选择;《IDC FutureScape: 全球云计算2020 年预测——中国启示》则认为,到2021年中国90%以上的企业将依赖于本地/专属私有云、多个公有云和遗留平台的组合,以满足其基础设施需求。
中国信通院的混合云调查报告指出,减少基础设施投资是企业采用混合云的首要原因,灾难恢复、数据备份和负载扩容是混合云三个重要的应用场。混合云兼具公有云和私有云之长,在混合云下实施微服务架构,能够提供更好的软件伸缩性和企业的敏捷性,满足企业客户快速响应市场变化、加速业务创新的需求。
在金融等重点行业领域,随着企业基础设施从传统自建IDC到混合云的演进,网络流量数据采集和智能分析已经成为支撑业务稳定运行和快速演进的重要能力,云上、云下一致性的网络流量分析能力成为混合云平台的强需求。本文主要介绍DeepFlow在阿里混合云全栈流量监控与分析的实现,主要适用于具有精细流量可视化、报文质量分析、多维数据聚合、云原生兼容等特点的客户场景:
流量采集分发:提供物理网络探针、虚拟网络及容器全网流量采集、存储及引流再分发的能力。
网络质量分析:高效展示多地区、可用区、虚拟机、宿主机、应用、POD、服务等维度的关联性、连接状态、性能等网络性能指标。
多维数据聚合:构建网络知识图谱,提供关联网络、云平台、容器平台、服务等各平台信息,快速查询关联信息。
监控纳管:报警、报表、视图、资产管理等。
云原生兼容:流量分析组件支持弹性伸缩,满足云原生场景下架构横向扩容的需求。
在专有云环境中部署DeepFlow之前,用户需要开通服务隧道资源,并记录相关服务及其IP地址信息、服务隧道IP地址信息。其部署示意图如下:
阿里专有云部署示意图
在阿里混合云的部署示意图如下所示,用户完成DeepFlow部署之后,通过登录管理后台进行配置管理(为控制器和数据节点绑定隧道IP地址信息),关于部署的详细信息可参考
https://help.aliyun.com/document_detail/201110.html
阿里混合云部署示意图
云杉网络DeepFlow自5.6之后的版本开始适配容器,并最终全栈覆盖网络 应用的流量监控和分析,具备了细至端到端及服务端口的逐跳流粒度检索能力。即,覆盖流量从业务POD经过容器节点、物理宿主机、物理网络链路(包括负载均衡器、网关等),到另外一台宿主机上某个容器节点内的业务POD,提供全栈混合云环境下的全链路监控追踪能力。
网络拓扑功能聚焦于从逻辑、虚拟、物理的视角展现网络的配置信息和状态指标数据。完整描述各虚拟资源及虚拟网元之间的访问关系以及流量状态,帮助用户全面掌握虚拟网络整体情况,有效应对虚拟网络内部组件关系复杂、容器或虚拟机变动频繁等现象。
当用户遇到业务问题时,可以借助DeepFlow逐跳的监控能力排查性能问题:
通过广域网追踪,过滤网流,定位问题地域;
通过物理链路追踪查看网络性能指标的变化,定位丢包和时延位置;
通过虚拟链路追踪查看网络性能指标的逐跳变化,定位丢包和时延位置;
通过精细搜索,过滤指定网流:源、目的、协议、服务端口。
全景图是DeepFlow重要功能之一,5.6版本后提供了多个维度(包括IP、VPC、子网、区域、可用区、宿主机、虚拟机、容器节点、容器POD、业务、资源组等)的资源流量搜索和知识图谱展现。全景图展示的视角包括:
流统计:以IP五元组聚合流,以流属性为基础统计吞吐、负载、时延、性能、异常及流量属性数据,支持以趋势、排名、分布、拓扑的方式进行可视化。
包统计:以IP二元组聚合,对包的播送类型、TCP标志位、TTL、包长区间等属性进行吞吐量统计,支持以趋势、排名、分布、拓扑的方式进行可视化。
广域网:从地理位置的视角展示资源与Internet之间的流量分布,支持以中国省份维度进行分组统计,支持的指标量与流统计相同,支持以趋势、排名、分布的方式进行可视化。
用户可通过DeepFlow对物理链路、虚拟链路统一进行链路逐跳的排查,快速定位丢包和时延的位置。针对需要钻取或详细查看的环节,用户通过通过点击拓扑中的资源、路径,以及分布图中的分组等选项,可在多个维度的展示界面之间进行随意切换,从不同的视角对目标段的数据进行细致的展现。
此外,在钻取环节,页面还可进一步跳转到流量曲线二级页面,以折线图的视角,展现现拓扑中的节点、路径或分布图中分组的统计数据在不同时间的结果,并与虚拟机、容器POD的启停、创建(同步)、删除、迁移、IP变更事件进行关联展示。进一步的,可以跳转到流日志三级页面,查看对应的原始流日志详细信息。
DeepFlow采集器分布式部署在用户的计算节点,拥有多种形态的版本、以进程形态独立运行并支持在异构的混合云资源池中一键部署。DeepFlow控制器按角色分为主控制器、备控制器、从控制器,用户可根据实际部署要求进行灵活选择;控制器集群最大可管理10万台规模的采集器,分布式部署的采集器与控制器构建成一个与云网规模一致的分布式流量处理系统。满足大型企业私有IT、公有云、容器等对云数据中心资源池建设持续演进的网络流量监控分析要求。