二、心理学与教育学大数据的搜集与整理
由于心理学和教育学都是研究人的科学,所有与人相关的数据均可能成为研究所需的数据。结构化的数据多来源于问卷、实验、文献等; 非结构化的数据则包括政府机构、企业的产品、服务中产生的大量密集型海量数据,以及互联网上发生的、蕴涵丰富的、可被发掘的具有社会价值、商业价值或科研价值的大数据。如何搜集、整理这些数据,使之成为可分析处理的对象,是现代心理与教育研究面临的难题。
( 一) 建立最小数据集
最小数据集目前没有通行的概念,它是业务管理过程中的重要指标,是指通过搜集最少量的数据,最好地掌握一个研究对象所具有的特点或一件事、一份工作所处的状态,其核心是针对被观察的对象建立一套精简使用的数据指标。美国医疗领域最早建立了自己的最小数据集,而不同行业均致力于建立符合本行业需求的最小数据集。建立最小数据集,包含了两个要求: 一是要将数据在具有代表性的前提下尽量简化,摒弃冗余的部分; 二是建立一个好的数据结构,即每条样本数据具有唯一的ID、每个变量内部具有一致的属性等。建立心理学与教育学领域的最小数据集,有利于指导数据搜集的方向,避免研究迷失在海量的大数据中。
心理学和教育学是研究人的学科,包括人的心理生理发展状况、学业水平和行为、个体的动机与成就等。因此,心理和教育研究的最小数据集应围绕能够区分某一类人群或某一个体的指标来进行设定。如果研究对象为较小范围内的个体,如某一所学校中的学生,可能搜集的变量包括年龄、班级、性别、学号、身高、体重、父母职业、历次考试成绩、人格量表得分等; 如果研究范围扩大,最小数据集所需的变量就要多一些,如国家、种族、区域等,另外还应对如考试成绩、量表得分等不同标准获得的数据进行标准化处理,满足后期数据分析的需要。由此可见,建立心理学与教育学共同的最小数据集,是相关研究在大数据时代的必要条件。
( 二) 大数据的收集
在大数据背景下,心理学与教育学的数据搜集方式将不再局限为实验、问卷、访谈等传统方式,文字数据、多媒体数据、行为数据无需到用户的终端进行逐一复制,云技术、云存储功能将用户的数据实时同步到云服务器上,有网络的地方即可随时对数据进行搜集、浏览与分析。按照搜集渠道的不同,心理与教育领域的数据可划分为线上搜集与线下搜集两种类型。
线下搜集数据,即搜集政府、企事业单位、非盈利组织等机构运营过程中产生的数据。如教育部从1985 年开始,每5 年开展一次全国青少年体质调研,每次调研人数均在25 万人以上; 某地区的全部医院拟建立统一的标准化数据库,对每位患者标识唯一的ID,将就诊信息上传至统一平台; 保险领域已经对搜集到的海量的不同品牌车辆的出险情况、驾驶者的驾驶习惯等数据进行分析,以此细化不同车辆、不同驾驶者的续保保费。这些数据均可应用于心理、教育领域的相关研究。
线上搜集数据,包括搜集由自然人产生的数据和数据库数据两方面。在已知的研究中,研究者多通过互联网、智能移动终端、可穿戴设备搜集数据,动态地获取被试的实时信息。如搜索引擎可记录用户的搜索词频; 用户在不同网站的停留时间、阅读速度、鼠标点击习惯等数据,均可以通过计算机终端获取,并上传到后台服务器; 智能移动终端的GPS、WIFI、蓝牙等功能,能够实时回传用户的位置信息、软件使用时长、通话时长、短信敏感词等,供研究使用; 大多数可穿戴设备能够搜集用户的心跳、血压、血氧等生理指标和步频、步幅等运动指标,亦附带与其他设备的数据同步,或网络回传功能,高频率大规模地搜集行为数据。
另一方面,随着历史调查研究的数据积累,数据库也是心理、教育领域研究的重要数据来源。除了能够直接使用的结构化数据外,各类文献库的体量增加十分迅速。以往研究中所使用的数据总量已达到大数据的标准,但不同文献所使用的数据缺乏统一的标准,并未发挥它们的最大价值。元分析方法解决了这一问题,它是对众多现有实证文献的再次统计,通过对相关文献中的统计指标利用相应的统计公式,进行再一次的统计分析。因此,对文献中的数据进行搜集与整理,是大数据时代心理与教育研究的又一重要方法。
( 三) 建立数据仓库
数据仓库( data warehouse) 是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。数据仓库的前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具,以及基于数据仓库的应用开发工具等。一方面它类似于原始的数据库,具有存储数据的作用; 另一方面又具有数据分析、决策支持的用途。在心理与教育领域,已有建立并应用数据仓库的初步研究。例如,李幽竹在其硕士学位论文中讨论了建立高校学生信息数据仓库的可能性,提出该数据仓库的总体设计技术、组成、功能和特点,讨论了数据仓库中事实表与维度表的建立,以及部分数据挖掘算法和决策支持系统中商业智能( BI) 的应用。
心理与教育研究所使用的数据仓库,不仅应具有数据存储、筛选、过滤、按照主题组织等功能,还可以根据学科特点进行数据管理与分析。数据仓库可以通过联机分析处理( OLAP) 服务器,具备透析数据所反映的信息的能力,为研究和决策者提供帮助。刘丽丽等人搜集南京市三所中学的初一学生数据,使用SQL Server 软件构建数据仓库,在OLAP 服务器上分析多维数据集,得到了学生受欢迎程度与性别、是否为独生子女、父母婚姻状况、父母受教育程度等变量之间的相关关系。
|