案例分享丨学工大数据服务学生管理
新形势下,满足和保障高校学生的需求与权益成为新形势下衡量学生工作的主要指标。如何树立服务理念、创新服务机制、完善服务举措和提升服务水平成为新时期高校学工队伍建设亟需解决的问题。
由于指导思想的转变,高校的学生工作由过去的招生、考勤、纪律、毕业生分配、学生住宿等,转向心理健康咨询中心、资助中心(奖、助学金发放,贫困生补助)、学生管理、综合管理(制度颁布、规范行为)、国防教育、就业指导等,这就要求规范行为,精准指导,智能服务。
传统的办公手段已经无法达到准确的分析,无法提供贫困生管理、学生心理辅导、学生综合管理等的流程数据,需要融合学工管理流程,增加学工数据服务,建设学工大数据分析与服务平台的需求已经跃然纸上。
信息化现状
1.学工部的信息化诉求
按照《江苏省高校智慧校园指导意见(试行)》的要求,结合历年学校信息化建设的积累,南京林业大学已经建成较为完备的信息化基础设施、较为成熟的虚拟化云平台、较为丰富的信息化应用和较为安全的防护体系。
学校目前运行了各类与学生相关的主要应用系统,包括门禁系统,一卡通系统,教务系统、勤工助学,奖(助)学金系统,迎新系统,毕业生离校系统,宿舍上网管理系统等50多个,已有结构化数据表约1500多个,记录5亿条,积累数据500G。
图1 学工大数据分析平台
根据信息中心的调研发现,学工部门对大数据分析最大的诉求主要集中在对学生高危行为的预判、对学生思想动态的研判、精准资助和精准就业等方面。那么对于信息化部门来说,就需要利用学校各类应用中的海量数据进行深入整合、挖掘、分析,并得出有价值的信息。
2.建设大数据分析平台的现实困难
首先由于现有信息系统建设的时间不同、建设单位水平参差不齐、后期数据维护能力不同,以及部分信息系统具有较强的独立性,如图书馆数字资源数据等,造成了“信息孤岛”现象仍然部分存在;
其次由于各应用系统的数据类型繁多,传统的数据挖掘算法因无法满足这些结构化和非结构化数据的处理要求而面临挑战;
最后,部分应用系统及数据库的维护和管理仍然在各业务部门,而其习惯于站在自身角度考虑问题,数据需求不够强烈,数据价值没有得到体现。
因此,在推进学工大数据分析平台建设时,信息中心首先需要解决数据规范、数据统一等技术问题,同时还必须加强顶层设计,通过与现有数据管理部门的沟通,引导其认识到数据资产的重要性,以及学工大数据分析平台对学校的重要意义。
系统建设过程
1.学工大数据分析平台构建思路
(1)
解决“信息孤岛”问题
由于历史原因,和学生相关的50多个应用的数据分属不同职能部门,其中校内门禁系统、一卡通系统和宿舍上网管理系统的数据在信息中心,安防摄像头和进出学校的门禁数据在保卫处,学生成绩、课表、论文、竞赛奖项等数据在教务处,勤工助学、奖(助)学金系统,迎新系统,毕业生离校系统等数据在学工处,图书借阅、自习室预约等数据在图书馆,各部门管理各自的服务器和数据库,且数据没有共享机制。
图2 大数据分析平台整体构架
为解决上述问题,信息中心需要建设一个“中间数据库”,确保能将各部门所管辖的数据以数据推送或数据抽取的方式实时汇总到“中间数据库”。这个数据库包含海量类型不一、各种结构的数据信息,目的是要掌握大而全的信息样本。实际建设过程中这个“中间数据库”的功能由“智能数据采集中心”来实现。
(2)
解决数据规范问题
“中间数据库”解决了数据样本问题,但是这些数据类型杂乱无章、质量参差不齐,因此必须对数据作统一规范化处理,需要建立一套适用于我们大数据挖掘和分析算法的机制,并对不规范数据进行处理,在实际建设中此功能由“智能数据预处理中心”来实现。
(3)
加强顶层设计问题
学校于2019年多次召开网络安全和信息领导小组会议,从网络安全、数据资产规范管理和提高学校管理效率等多个方面对各数据建设和管理部门提出了新的要求,同时信息中心多次与相关部门进行充分沟通,较好地促进了大数据分析平台建设的推进工作。
2.学工大数据分析平台建设内容
考虑到大数据分析平台的可扩展性、灵活性和安全性,我们将平台规划为三个层面七个模块。分别是底层的智能数据采集中心,中间层的智能数据预处理中心、智能存储及检索中心、智能挖掘算法中心、智能数据运维中心、智能数据安全中心,以及上层的数据应用层,主要包含各类大数据的分析应用。
(1)
智能数据采集中心
作为海量数据来源的底层,智能数据采集中心通过采集各业务系统数据、硬件设备数据等方式获得了各种类型的结构化、半结构化及非结构化的海量数据,这些数据是大数据知识服务模型的根本。
图3 智能数据采集系统构架
学校目前的平台采用分布式高速高可靠数据采集、高速数据全映像等大数据收集技术,可以实现高速数据解析、转换与装载等功能,并且可以设计质量评估模型对数据质量进行评估和分析。
(2)
智能数据预处理中心
通过近一年的系统梳理发现,学校数据不一致问题主要体现在以下几个方面:
首先,这些应用的原始数据缺乏统一的原数据存储方式,在填写和录入的时候缺乏严格的数据质量检查,导致数据质量不符合大数据分析平台的数据标准;
其次,各类应用数据来自十几个不同品牌的业务系统,导致数据存在多种格式,标准不一,各业务系统之间的数据变更后原数据无法快速实现统一;
最后,各业务系统之间的业务词汇描述无统一标准,经常出现各业务系统对同一类数据的描述不一。
因此,数据预处理的功能在整个平台中就显得尤为关键,做好此项工作不仅需要从技术角度入手,更需要弄清学校各部门的管理流程,深刻理解同一类数据在不同应用系统内部的含义。
为此,我们花了较大精力来建设好智能数据预处理中心,汇集了学工、教务、保卫等相关部门的人员进行前期研讨,并对统一数据标准算法提供逻辑支撑。
图4 智能数据预处理系统
目前的智能数据预处理中心可以实现将现有各个业务系统内的数据进行统一的标准化,主要包括数据清洗和数据集成。去除重复数据、脏数据,建立起了包含学校业务系统及信息化建设需要的标准共享数据库,实现了基础数据的共享和订阅式访问,保证了数据的一致性。
(3)
智能存储及检索中心
经过智能数据预处理中心处理过的数据形成了标准数据,用于存储并为其他部门提供检索和共享服务,因此需要进一步建设智能存储检索中心,其主要包含数据仓储的建设和数据检索及管理两大内容。
图5 智能存储检索系统构架
信息中心以Hadoop数据仓库为存储工具构建了海量可扩展的存储仓库为存储介质,提供分布式,高并发性的海量存储数据存储及访问,并提供数据的管理及检索。
(4)
智能挖掘算法中心
建设和维护这些海量标准数据的最终目的是要利用这些数据、算法和模型决定大数据分析的核心。为了更好地实现数据价值,目前我们采用了在大数据行业有着较强技术实力,并在教育行业有着一定积累的算法及模型库——InCenter-MA。
学校在InCenter-MA智能数据挖掘中,将整体的分析和计算的框架分为三个层次来设计,数据层、算法模型层、使用层。
在数据层中,主要解决了数据的采集、调度、存储等问题,采用了Hadoop框架搭建整体的计算、存储框架,保证系统的高效计算及可靠存储。采用分布式框架,可保证系统的横向扩展和持久运行。Hadoop框架中特有的并行计算和调度能力,保证了整个平台的实时计算和实时交付功能。
算法模型层主要功能在于积累了适合大数据不同功能及实现不同计算效果,匹配不同模型的算法库。在整个大数据系统中,常见的功能算法有时序分析、主成分分析、关联和推荐、深度机器学习、统计、分类、聚类、回归、特征工程、判别、信念网络、图计算等算法。
使用层主要针对前端业务应用效果,开发对应的开发和开放接口,对接响应的模型算法,计算和呈现对应的结果。提供机器学习算法库,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。通过大数据平台的深度挖掘和关联分析,为全校师生员工及各部门、各学院提供数据服务及综合数据分析服务。
图6 智能算法挖掘系统
(5)
智能数据运维中心
智能数据运维中心主要功能在于对整体的大数据平台管理及运维,涵盖了对平台架构、数据仓储、权限控制等方面的功能,同时对建模分析控制、标准接口等方面进行管理和控制。
(6)
智能数据安全中心
数据安全的重要性日益凸显,一个拥有3万师生的高校,存储着海量信息的系统,一旦发生数据泄露将造成不可挽回的后果。因此在整个大数据平台的规划阶段,我们就设计了智能数据安全中心模块。
除了进行大数据分析平台系统外部的网络安全构建,例如防火墙、堡垒机和统一身份认证等,我们还在智能数据安全中心加入了Kerberos认证机制,使得集群中的节点就是它们所宣称的,是信赖的。
Kerberos将认证的密钥在集群部署时事先放到可靠的节点上。集群运行时,集群内的节点使用密钥得到认证,只有被认证过的节点才能正常使用。企图冒充的节点由于没有事先得到密钥信息,无法与集群内部的节点通信,防止了恶意使用或篡改集群的问题,确保了数据集群的可靠安全。
(7)
业务应用
业务应用是以现有标准数据为依据,根据学工部门的需求利用智能算法开发出的大数据分析应用工具。目前,已经实现了学生画像、综合预警、行为轨迹、精准无感知资助分析和精准就业分析等功能,此外还可以提供定制的数据分析,为学工的日常管理和学校决策提供有力支撑。
应用场景
1.学生画像
平台根据学生的特性和行为数据建立了标签,通过收集与分析学生基础信息、生活习惯、消费行为、学习行为等主要信息的数据,完美地抽象出一个学生的行为全貌,准确描述学生的特点。
通过该应用我们已经对学生精准推送了各类学生活动信息、考研资讯和分类就业信息等,提高了信息推送的精准度,也减少了学生终端的信息负载。
2.综合预警
大数据分析平台通过将学生一卡通、Wi-Fi、有线网络和教务等信息进行数据关联分析,建立了不同种类预警分析模型。
图7 综合预警应用场景
3.危险行为研判
学生危险行为研判是高校学工部门最迫切应用场景,决定了学校是否能在学生突发情况发生之前就提前介入。当前的大数据分析平台已经在这方面展现出一定的优势,我们通过学生一卡通、门禁数据、Wi-Fi等数据框定了一个行为轨迹异常的动态学生群体库,定期排查他们的上网日志内容是否具有潜在危害,并及时报送学工部门。
我们曾经发现有学生在短期内连续进入校内某高楼顶层,大数据分析显示该生的社交关系单一,总是独来独往,且短期内上网浏览的内容非常消极,该信息及时通知学工部门并进行干预,避免了突发事件的发生。
4.精准就业分析
平台通过对大学生就业市场的实时监测,对学生的就业环境进行分析和就业方向统计,并向低年级学生精准推送实时市场需求动态,使其能够形成参照,调整自身学习的方向。此外平台还从多维度、多角度进行往届毕业生情况分析,可视化展示毕业数据,为就业工作提供有力的依据和参考。
例如系统展示近三年各学院/专业毕业生就业趋势分析,其中又细分为就业率趋势分析,毕业生升学趋势、毕业生性别趋势、就业层次趋势分析、就业区域分析、就业单位性质趋势、就业行业趋势分析、就业岗位趋势、回生源地趋势等,对就业指导中心、各学院开展精准就业指导提供了有力支撑。
南京林业大学的学工大数据分析平台一期已经建设完成,学生画像、精准资助、综合预警、行为轨迹分析和精准就业分析等多个应用已经上线,从反馈来看,得到了相关部门的认可。后期随着数据的进一步积累和大数据分析工具的完善,信息中心将根据需求开发更具价值的应用,助推学生成才和学校管理效率的提升。
作者:潘卿 顾炜江 窦立君(南京林业大学)