高校信息应用系统,在日常教学和管理中积累了大量历史数据,但这些海量数据却没有得到有效的分析和利用,各部门人员在日常数据录入和维护中只是通过统计和排序对数据进行简单的功能操作获得一些表面、浅显、价值不高的结果。构建一个大数据分析平台,从学校其他应用平台中抽取海量数据进行管理、整合、分析和利用,从中发现潜在问题和有价值的规律,并通过可视化的方式进行展示,能够为学校管理层提供科学决策的支持,并满足教师、学生的个性化需求,从而提高高校信息化服务的质量。
1.构建目标
(1)实现数据的共享和交换。将学校各应用系统的数据进行集成和整合,使来源各异、种类不一的各类数据可以相互使用,丰富数据的来源,打破系统间的信息孤岛,实现数据的共享和应用。
(2)大数据的采集和存储。研制数据适配接口,对接校内各应用系统获取各类异构数据,并采用大数据主流的框架和系统对数据进行统一存储,为数据的挖掘和分析打好基础。
(3)大数据分析与决策。采用数据挖掘、数理统计等相关技术,构建大数据分析框架,提取数据中隐含的、未知的、极具潜在应用价值的信息和规律,为学校的教务管理、科研管理、学生管理、后勤管理等各项工作提供决策和指导。
2.构建原则
(1)安全性。高校信息化工作中有许多保密性内容,大数据分析平台应采取安全性高的访问认证机制,同时在平台建设中要充分重视系统自身的安全性以及其他应用系统的安全性。
(2)可扩展性。对高校教育大数据的分析和应用是一项长期持久的工作,随着管理工作的重点、教育信息化工作的变化推进,对于信息平台的规模和要求也会不断变化。因此,要求平台的设计和实施要具有良好的扩展性,以满足不断发展变化的要求。
(3)灵活性。在平台的设计和实施中要考虑到与其他应用系统的整合,开发出多个类型的接口,能够灵活接入其他系统、拓展服务类型。
3.总体框架
平台应适应于大数据处理要求,能支持PB级数据管理。系统架构应高安全性、易扩展性,能够支持各类主流开发语言,并提供丰富的接口。同时能够支持结构化和非结构化数据的存储和应用。Hadoop作为开源的大数据处理平台和工具,其提供的HDFS分布式文件系统和MapReduce模型能够很好地满足以上的要求。
基于Hadoop技术的高校大数据分析平台自下而上分为三个部分,分别为:数据层、大数据采集与存储、数据分析及展示。
(1)数据层,针对不同系统进行分析,制定系统数据采集范围与目标,收集本校在日常管理和教学中的产生的各类数据,将各种结构化和非结构化数据进行整合,为大数据的分析提供支撑。
(2)大数据采集与存储旨在为各类异构数据研制适配接口,与校内其他各系统对接,并为数据提供适配、转换、存储等基本管理功能。
(3)数据分析和展示是核心业务层,通过数据报表工具,根据需求制定多样的,针对性的数据报表。通过基于的Hadoop的MapReduce编程模型实现的数据分析系统,针对存储的数据进行数据处理、算法运行、结果转换操作,将结果保存为报表文件,每日形成的报表文件集。报表展现系统将生成的报表文件以可视化方式进行展现。