智能IT运维系统如何运作?山东大学的实践案例告诉你!
随着大数据、物联网、互联网+、移动互联等信息化应用不断深入,信息化与山东大学的教育教学和科研、管理、生活已经深度融合,成为了学校发展的重要支撑。为了解决传统校园网在网络部署、运维和管理等方面长期存在的诸多问题,山东大学青岛校区校园网建设采用SDN架构,在控制区部署SDN控制器、认证系统及DHCP等,核心设备全部为100G骨干网,汇聚和接入设备1500多台,无线设备6700多台,满足业务高性能需求,智能化终端接入数量约10000多个。
随着学校基础设施建设日趋完善,如何高效的运维和管理这部分设施和应用成为了学校信息中心新的挑战。
基础设施品牌众多、种类复杂,通过传统的人工管理方式,不仅效率低下,而且被动式的运维体系,无法优先于用户发现潜在的问题;随着接入网络的终端日趋增加,对于终端和IP地址的管理变得更加复杂和困难,无法及时追溯终端的位置信息和IP地址的分配情况;用户的上网日志存在着大量的数据价值,有利于管理员进行定位溯源,如果仅仅将日志分散于网络设备中,将失去数据的价值。
随着山东大学青岛校区信息化建设的深入推进,学校工作对校园网络的依赖性越来越强,对网络的稳定性和可靠性也提出了更高的要求。完善的IT运维管理体系能够保障网络基础设施的稳定和高效运行,能够改善业务的可用性及可靠性。鉴于此目的,山东大学青岛校区构建了一套以基础设施数据为基准,多方运维数据联动的新型IT运维管理体系,有效提升了整体运维效率,实现了管理可视化、数据多样化和效益最大化。
智能IT运维管理系统
目前青岛校区核心网络已率先实现了100G互联,楼宇上联核心全部支持扩展到40G/100G,楼宇接入全部通过万兆上联汇聚,有线网络终端全部实现千兆接入;无线网络使用超过6700台最新的802.11acwave2无线AP,实现校区Wi-Fi全覆盖。
为有效监控青岛校区这张有线无线融合网络,避免在多套运维系统之间来回切换,贯彻一个平台原则,在青岛校区部署了一套智能IT运维管理系统。系统可自动对现网中运行的交换机、路由器、安全设备、无线控制器、无线AP实时全面的监控。在统一的平台上实现全方位的资源监控,通过数据收集和处理进行集中展现,实现性能数据、告警数据并行输出,并通过3D动态建模,实现资源动态可视化管理,构建IT运维人员全新运维视图。
智能运维系统可自动计算有线及无线网络设备之间的连接关系,以层级拓扑方式清晰展现整体学校网络结构。拓扑图中(如图1)以不同颜色直观展示设备及链路健康状态,并支持展示链路流量信息、动态实时更新,帮助运维人员掌控全局网络运行状况。
图1 学校网络结构中的设备及链路健康状态
以业务系统健康度为导向的监控体系
在学校信息化建设过程中,业务系统建设的运行状况直接体现信息部门的服务水平。如果业务系统出现故障,将导致全校师生无法进行正常教学和学习。因此对于业务系统的监控,青岛校区采用了CFIA理论树形逻辑关联算法为核心的监控体系,以应用系统为核心,结合该应用系统关联的网络设备、服务器、数据库、中间件等故障信息,进行联动计算,计算出业务的健康值,并且以业务拓扑方式直观呈现,清晰展现各层IT资源的结构脉络,当业务出现异常时,可从故障点自上而下的溯源分析,实现事前预警、事中感知、事后追溯。
数据联动实现终端上网全轨迹追溯
随着学校接入网络终端激增,需要采用更加智能的方式来管理网络和终端。青岛校区通过集成的核心服务、工作流和自动化,关联网络设备的接口数据、网络设备的机柜位置数据、配线架信息数据、房间墙插数据、无线AP的位置数据以及上网终端数据,构成有线无线终端上网轨迹链,支持网络设备、用户终端和IP地址之间关系的深刻洞察,提高安全性,确保终端始终可追溯性。
移动运维颠覆传统"座椅式"模式
随着移动互联网迅猛发展,利用移动互联网技术提升学校的运维服务和效率,无疑是一项新的尝试。青岛校区构建了一套基于智能运维管理平台开发实现的移动端智能运维系统,通过在移动端,可以随时随地接受来自运维管理平台的告警产生信息和告警恢复信息,并且可以联动运维流程进行移动化处理,例如提交服务请求、故障申报及流程审批处理,真正实现了运维的移动化,不必再受位置和空间的限制。
"账号+终端+IP+端口"数据链
运维管理范围不仅只管网络设备,用户的上网信息数据同样重要。青岛校区构建了一套以用户账号信息为基准,覆盖用户终端信息,NAT数据的全日志记录,将网络行为数据与用户标签数据关联,建立完整的用户网络行为数据模型,组成最直接简洁的数据链:谁(账号)在哪里(位置)用什么(终端设备)干了什么(在网络中做了什么);将传统的以IP为标识的行为数据变为以账号和终端为标识,溯源更精准。
在进行运维日志系统建设过程中,青岛校区网络运维人员探索了一条新的思路,可以基于用户的行为数据进行分析,例如可根据用户身份(如本科生、研究生、教职工)分析他们的访问行为,同时从时间以及院系、年级等标签维度进行分析,了解不同群体的行为特点,从而更有针对性的提供IT运维服务。又例如可根据网站域名统计用户访问量,获知哪些内部发布资源的访问量最高,并基于此及时调整资源带宽分配策略以及资源服务器数量;同时可统计校内学生访问哪些网站最多,获知学生的日常动态。
构建三地一体化运维体系
图2 智能IT运维体系
山东大学青岛校区智能IT运维体系(如图2)是应用大数据、智慧运维、移动运维等新IT解决方案在运维工作中的成功实践,运用新型IT技术解决教育教学中的实际需求,将在未来教育行业形成常态。同时山东大学青岛校区将继续探索新的技术路线,努力打造三地一体化运维体系,构建"集中化、一体化、智能化"的设计模式,分层设计,实现功能总集成、流量总调度、资源全监控,提升三地协同运维的能力。
(作者单位为山东大学信息化工作办公室)
(来源:《中国教育网络》2019年5月刊)