五大层面!高校如何搭建学科评估数据平台?

教育部的学科评估是衡量我国大学综合实力的重要指标之一,此项工作于2002年首次在全国开展,至2017年已完成四轮评估,第四轮学科评估结束后的四年来很多高校的学科建设都取得了很大进步,第四轮的评估结果已经无法准确、客观地反映当前各高校学科状态,在此背景下,2020年11月3日教育部正式发布了《第五轮学科评估工作方案》,第五轮学科评估工作正式启动。

第五轮学科评估体系更加完善,包含一级指标4个,二级指标12个,三级指标25个。一级指标有人才培养质量、师资队伍与资源、科学研究水平、社会服务与学科声誉,然后细分为12个二级指标、25个三级指标,几乎涉及学校所有核心业务数据。

上海财经大学(以下简称“上财”)第四轮学科评估工作模式是各学科组线下分散地去收集数据,然后整理、汇总、提交报告,整个过程持续时间长、工作量大,而且很难保证数据全面、准确,从而会直接影响最终上报的质量,所以研究生院和信息化办公室决定联合开发数据平台来支持第五轮学科评估工作的开展。

上海财经大学

困难与挑战

Difficulties and Challenges

随着高校信息化建设的发展,各高校都积累了大量业务数据,已初步具备通过信息技术手段支撑学科评估的基础条件,一方面可以节省评估工作量,另一方面可以全面、快速、准确筛选出最具代表性的数据进行上报,有利于本校参评学科取得更好的评估结果。

然而有大量业务数据只是具备了最基础的条件,离通过搭建数据平台来支持学科评估工作还有很远距离,还有很多工作要做,同样存在很多困难与挑战,在技术和业务方面存在以下两个比较突出的问题:

1.技术方面

不同业务系统数据库可能存在异构性,系统独立部署,业务数据分散存储,无法跨业务跨系统集中融合使用;

业务系统的数据属于OLTP型数据,无法便捷地为OLAP型应用需求使用,无法实现敏捷开发。

2.业务方面

评估需求与实际业务和系统数据并不能完全直接对标;

学校缺乏既熟悉主要业务又掌握全局核心业务数据,能够将数据准确映射到评估需求的技术人员。

对于第一个技术问题,本文将详细介绍上海财经大学如何基于数据中心快速搭建学科评估数据平台,开发数据查询和分析应用,支持学校第五轮学科评估工作开展。

对于第二个业务问题,结合学校在数据服务、数据分析方面的长期实践,给出一些建议、方法和思路供探讨。

数据平台架构

Data Platform Architecture

第五轮学科数据平台架构主要包含数据源层、数据处理层、应用数据层、应用服务层和应用访问层五个部分(图1):

图1 第五轮学科评估数据平台架构

本质上与一般的数据应用平台差别不大,抽象出来就是数据源层、数据处理层和应用服务层,但是该平台在设计和实现方面充分利用了学校在数据服务方面长期积累的基础条件,充分发挥我校主数据中心的优势,快速搭建平台,灵活支持应用需求,实现敏捷开发。

1.数据源层

本平台选择上财的主数据中心作为数据源,屏蔽业务和源数据的复杂性,重点关注需求和数据内容,根据应用需求选择主题数据进行组合使用即可,大大降低数据处理复杂度,节省数据处理开发工作量。

2.数据处理层

完成评估需求与业务数据的对标,准确选择主题数据,根据评估详细说明确定取数口径及计算指标,将评估的详细说明落实到数据处理程序中,生成应用层数据。

3.应用数据层

抽象评估需求,设计应用数据层数据集市模型,能够直接支持前端开发分析和查询应用。

4.应用服务层

应用服务层以数据分析和查询报表的形式进行展现,借助BI工具或报表工具快速完成开发。

5.应用访问层

学科评估数据平台完成与上财认证的集成,通过上财门户进入访问,并且完成权限控制,不同学科组查看各自学科的内容。

系统设计及实现

System Design and Implement

1.数据源

常见的数据应用平台是将业务系统作为数据源,通过ETL工具或存储过程将业务数据加工成满足应用需求的数据集市。

由于业务系统数据是按三范式模式组织,而分析型应用使用的数据集市是维度模型,由业务数据直接生成应用数据集市的最大问题是数据处理程序特别复杂,响应需求变更较慢,无法实现敏捷开发,而且程序没有复用性,维护成本较高。

本系统数据架构采用分层的理念,将上财的主数据中心作为数据源,该主数据中心于2014年开始建设,目前已经覆盖了所有核心业务数据,包含约150个核心主题数据,都是按照维度模型设计的宽表,已经完成了由业务系统到主题数据的复杂数据处理过程,封装成与应用需求无关的数据实体,提高了复用性和易用性,特别适合分析型应用需求,使用时只需根据业务需求挑选相关的几个主题数据进行关联、筛选就能快速实现应用需求。

通过分析第五轮学科评估的内容,同时考虑学校现有业务及数据的支持程度,选择教师、学生、教学和科研主题的相关数据。

2.数据处理

本系统的数据处理层首先要做三项工作,将业务元数据转换为技术元数据:

一是评估需求与数据源的映射,找出满足每一个需求需要的主题数据,以及如何关联组合;

二是细化评估需求,完成评估表格与数据字段映射;

三是确定取数口径和指标的计算逻辑。整个过程需要既熟悉业务又熟悉数据的人员参与,现实中这一点其实有一定难度。

完成以上三项工作就可以开发数据处理程序,本系统使用物化视图生成应用数据集市,也可以使用存储过程开发,不是特别建议使用ETL工具,对于复杂的数据处理过程,物化视图和存储过程开发效率更高,也更容易调整和维护。

由于篇幅问题,本文给一段业务需求和数据都相对简单的真实代码,图2是生成“III-3-1国家级科研项目”数据集市的处理程序:

图2 III-3-1国家级科研项目”数据集市的处理程序

从中可以看到由于数据源选择了主题数据,数据处理程序已经没有大量表的复杂关联,主要是处理取数口径和简单计算,开发难度和工作量已经很小,而且可以快速响应变更,维护也更容易。

3.应用数据集市

应用数据集市模型设计前首先对应用需求进行梳理分析、抽象提取出数据实体,一般相同业务下的应用需求可以使用同一个应用数据集市,分析型应用的数据模型以简单实用为原则,不拘泥于严格的数据库范式约束。

与业务人确认需求对应的业务数据以后就可以设计数据模型并开发数据处理程序,表1是上财第五轮学科评估开发的数据集市。

表1 学科评估数据平台数据集市列表

4.展示平台

本系统使用数据可视化工具Tableau进行快速开发,并对报表进行了二次封装,将平台设计为人才培养质量、师资队伍与资源和科学研究水平三个模块。

其中有两个问题要特别注意,一是对于特别复杂的填报表格,数据平台无法做到样式完全一致,拆分为多个子报表;二是对于报表展示的数据,有些填报表格有限填数量要求,对于类似无法准确提取出取数规则的,平台将展示全部数据供业务人员选择。

按照敏捷开发模式,一个模块两个迭代,与研究生院的业务人员确认需求后一周内完成数据集市设计和数据处理程序,第二周开发查询分析报表、演示讨论、修改完善,整个平台开发大约投入五周的工作量,图3、4是平台的实际展示效果。

图3 学科评估数据平台首页

图4 学科评估数据平台-人才培养质量

得益于我校在数据服务应用方面长期实践打下的基础和积累的经验,才能够选择敏捷开发模式,使得该数据平台从需求讨论、架构设计、数据开发、应用开发到平台上线在一个半月内全部完成。

平台简单实用,各学科组基于该平台填报评估简况表不仅可以节省大量工作量,关键是可以拿到准确、全面的基础数据,保障填报质量。

一直以来,数据填报都是高校业务的一个痛点,而且今后上级主管部门要求的各类数据填报会越来越多,比如国家“双一流”建设、上海高校分类评价、学位点合格评估、校内学科评估等。

作为技术部门如何充分发挥信息技术优势、系统化地去支撑这项工作,结合多年的实践经验和工作体会给出几点建议供参考和探讨:

1.技术队伍方面

高校信息化部门非常有必要建立和培养自己的数据团队,具体要求就是要熟悉学校主要业务及信息系统,掌握核心业务数据的内容、结构、关系和存储方式等,能够准确选择数据、快速加工数据、灵活实现应用需求。这一点要求相对较高,只要肯投入时间并逐步积累是完全可以做到的。

市面上已经有非常多的数据应用服务商,为什么还要建立自己的数据团队,主要是由数据工作本身的底层和细节倾向性决定的,项目中需要非常熟悉数据的细节内容,第三方厂商不可能熟悉高校那么多业务、应用系统以及数据的细节情况,即使由服务商负责开发,也离不开校方数据团队的深入参与。而且数据应用需要长期运维,必须依靠自己的团队才能保证应用的可用性。

关于开发模式,对于临时的、突发的、紧迫的需求可以由自己的开发人员去实现,对于大型项目可以和服务商合作开发,两种开发模式都需要我们自己的数据团队。

2.数据基础方面

有必要尽快建立主数据中心,形成覆盖核心业务数据的主题库,为数据共享、数据分析等数据相关应用提供基础能力。

也即需要数据团队去了解业务及流程、熟悉数据内容及关系、抽象业务数据实体、建立主题数据模型,一般设计为类似多维模型的宽表,实现复杂的数据处理过程完成数据实体封装,这样应用端可以更加关注需求和数据内容本身,而不用花精力去研究业务系统源数据,才能实现快速开发数据应用。

3.开发方式方面

我们要避免走入一个误区,就是按照填报表格样式原样开发。

上级部门要求的很多填报表格是非结构化和混合数据,这类报表技术上肯定是可以实现的,但付出的成本会非常大,表现为实现技术难度大、开发周期长、响应变更慢、维护扩展难,而且开发质量很难达到预期。

所以,首先应将这类数据平台定位为应用辅助平台,支撑业务人员完成填报工作使用,开发中将复杂的报表拆分为结构化的单一表格,能够覆盖填报表格内容即可,对于无法通过明确规则实现的计算指标,将基础数据明细展示出来供业务人员查询导出使用会更加灵活实用。

作者:高亮、胡庆亮(上海财经大学信息化办公室)

(0)

相关推荐