三、心理学与教育学大数据的研究方法
传统的统计学数据分析方法,在大数据时代依然有其用武之地。对于截面数据,可以采用描述统计、推断统计、多元统计分析方法进行分析; 纵向数据的研究则可采用重复测量方差分析、时间序列分析、多元回归分析等方法; 面板数据模型能够更好地识别和度量单纯时间序列模型和单纯截面数据模型所不能发现的影响因素,克服共线性的困扰,提供更多的信息、更多的变化、更高的自由度和更高的估计效率。静态面板数据模型可采用固定效应模型或随机效应模型进行分析; 动态面板数据模型可采用自回归面板数据模型与有外生变量的线性动态面板数据模型。
伴随着大数据的发展,针对大规模、高频次数据的研究方法应运而生。传统的数据挖掘方法首先对样本的分布进行假设,之后通过各种计算方法对总结进行推断,从而预测数据的概率分布。但是对于大数据而言,其样本量的规模无法应用传统方法,机器学习技术正好解决了这个问题。机器学习通过应用海量数据对模型进行拟合,优化模型的误差,从而使模型拟合逐渐逼近已有数据的真实水平,实现预测的准确性。目前比较流行的机器学习算法包括决策树、支持向量机、人工神经网络、关联规则、聚类分析等,主要解决包括数据的分类、关联、聚类、判别、可视化等方面的问题。
( 一) 分类算法
分类算法就是通过对已知类别的训练集的分析,用样本的其他属性建立一个关于类别属性准确划分的模型,以便用来判定新的测试数据的类别。目前可供心理学、教育学领域使用的分类算法有决策树分类、贝叶斯分类、神经网络分类和支持向量机分类。南京师范大学的王冬燕等人对全国10 个省市的1 294 名留学生进行测量,对留学生的社会适应、心理适应和学习适应建立分类回归树,结果表明分类回归树可以有效地对留学生适应性进行预测。吉林农业大学的刘晓彦将支持向量机( SVM) 理论应用于独立学院教学评价系统当中,根据教育学等相关理论,结合目前国内院校的教学评价指标,尝试建立独立学院教学评价指标体系。
心理学对分类算法这种机器学习方法的应用也呈上升趋势。认知诊断评估利用被试在标定了项目属性的测试项目上的作答反应,对被试知识、技能或属性的掌握情况进行推断或分类,反馈测试结果给学生、老师等以供补救教学之用。卡勒斯·康达( J. L. Carus Candas) 等人利用决策树、贝叶斯方法、支持向量机等数据挖掘方法,成功识别了装备可穿戴设备的被试的异常数据,为精神异常人群的早期发现提供了重要的工具。
( 二) 关联分析
数据的关联分析在机器学习中的算法被称为关联规则,它起源于超市的购物篮分析。大型连锁超市沃尔玛使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,发现啤酒与尿布的销量存在关联关系,于是将二者捆绑销售,结果销量双双增加。关联规则挖掘过程主要包含两个阶段: 首先从资料集合中找出所有的高频项目组; 其次再由这些高频项目组中产生关联规则。
吴玉婵在对新升本科院校大学生学习效果的影响因素的研究中,搜集了陕西省某新升本科院校信息工程学院2009 级、2010 级学生的相关学习动态、静态数据,应用关联规则算法寻找学生的入学高考成绩、学习自我评价数据、家庭信息、学习状况、学习行为、生活习惯、期末考试成绩等信息的相关关系,得到了如高考英语成绩对大学学习成绩有显著影响等一系列结论。
( 三) 聚类分析
在机器学习中,分类分析属于监督式学习方法,而聚类分析属于非监督式学习方法。监督式学习方法要求研究者给定配对的训练数据,通过分析训练数据产生推断; 而非监督式学习主要用于处理未被分类标记的样本集。
聚类分析是一种探索数据分组的踪迹方法,其目的是建立一种归类方法,将一批样本或变量,按照它们在特征上的疏密程度进行分类,使得组内样本的相似度达到最大,而组间的差异达到最大。聚类分析广泛地应用于客户细分、文本归类、结构分组和行为追踪等问题。
李晓巍以北京市和西安市的718 名中学生为被试,采用聚类分析技术对青少年的社会适应状况进行分类,按照社会适应状况的不同将青少年分为三种类型: 和谐型、低人际—高孤独型、低自尊型。在网络教学( E-learning)的研究过程中,研究者会根据学生的学习行为、合作行为、记忆能力、阅读速度等指标,通过不同的聚类方法,将学生划分为不同类型,分类进行教学与指导。
( 四) 其他方法
除了上述几类方法外,机器学习还有如下算法已在心理、教育领域被应用。
贝叶斯分类和因果学习算法将分类问题转化为分布的决策问题,它包括朴素贝叶斯和贝叶斯网络两类方法,为教育与心理学的分类与因果研究提供了又一工具。伍斯特理工学院的阿罗约( Arroyo) 等人应用贝叶斯网络方法,搜集学生在学习过程中的行为数据,对其完成特定学习任务的目标和态度进行预测。王小丽和远俊红采用加权朴素贝叶斯分类法对学生的考试成绩进行预测和分析,通过实验证明研究所采用的分类法对于预测成绩具有较好的准确度。
社会网络分析是研究一组行动者关系的研究方法。一组行动者可以是人、社区、群体、组织、国家等,他们的关系模式反映出的现象或数据是网络分析的焦点。从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,这种结构的量化分析是社会网络分析的出发点。社会网络分析在教育与心理研究中已有初步应用。郁晓华和祝智庭从微博的特征入手,结合社会网络研究的相关内容,提出了聚焦模式、关联模式和发散模式三种微博社会网络教育应用的模式。李永强和黄姚在总结前人对于个性特征与社会网络特征关系的研究基础上,提出了基于本土化的人格理论和社会网络研究成果开展研究是未来的研究重点。
数据可视化是数据挖掘中的又一利器。使用可视化技术的首要动机是人们试图能够快速吸取大量可视化信息,并发现其中的模式。对于属性较少的数据,可绘制包括茎叶图、直方图、二维直方图、箱线图、饼图、散点图等图形; 对于时间空间数据,可视化技术可以采用等高线图、矢量场图、低维切片等进行分析; 对于高维数据,可以绘制像素的矩阵、平行坐标系、星形坐标和Chernoff 脸等。在认知科学研究中,大量眼动数据需要通过合理的可视化方式进行处理与分析。程时伟和孙凌云总结了眼动数据的预处理与参数化方法,在此基础上介绍了眼动数据的四种主要可视化方法———扫描路径法、热区图法、感兴趣区法和三维空间法———及各种方法的优缺点。
四、启示与展望
前文主要介绍了心理学与教育学领域的大数据类型、搜集与整理和研究方法。已有研究关注的重点在于以下几点: 分析历史数据,对心理与教育领域的研究对象进行评价,并总结其内在规律; 应用研究成果,对个体或群体的心理健康指导、教育政策制定提供理论支持; 改进研究方法,不断对心理学、教育学的学术研究提供创新有效的研究工具。在未来的研究中,心理学与教育学领域对大数据方法的应用变革主要表现在以下四个方面。
( 一) 从抽样分析向总体分析转化
传统的社会科学研究大多通过对样本特征的分析来推断总体的特征。在资源充足的情况下,研究者可能选取几千甚至上万个样本作为研究对象;实验室募集的被试量也可能有几百个; 发展学家选择性地对几个或者几十个研究对象进行多年的跟踪调查。这些研究的前提条件均为,样本在一定程度上代表着总体,研究样本的特征就可以归纳出总体的特征。因此,抽样方法的选择、抽样误差的控制均制约着使用抽样方法开展研究的过程与结论。
然而,通过线上、线下海量数据的累积,大数据时代的研究将在尽可能大的程度上摆脱对样本的依赖,从而面向尽可能全面的数据。研究将从对样本的分析转化为对总体的建模。同时,由于总体的多样性,大数据还为研究提供了更加多样化、异质化的样本,使研究者摆脱时间、空间的限制,避免样本选择不合理带来的干扰。
( 二) 从调查实验向实时搜集转化
在以往的心理学、教育学定量研究中,数据通常由问卷、访谈、实验等方式获得,不但耗时长、成本高,而且数据的质量也会根据调查者、访谈者的个人素质不同而参差不齐。此外,调查与实验还受到地点、时间、招募的志愿者等条件的限制。大数据时代主要依靠网络来搜集数据,并实现数据实时的交互传输,这样的变革带来以下几点优势: 第一,研究者不必亲自到现场开展问卷调查或访谈,通过网络即可获得一手数据,有网络的地方即可称为实验场所; 第二,通过对数据的采集进行控制、筛选,使获取的数据具有统一的标准,便于后期的分析; 第三,通过数据交互,实现对研究对象的动态监控,通过模型计算发现风险点和不稳定因素,并采取及时的预防措施。
( 三) 从主观数据向行为数据转化
虽然已经过效度与信度的检验,但问卷与访谈中的各类问题还是会因为被访者个人经历的不同、受访时的情绪的变化等,带有较强的主观色彩,其结论也可能存在偏差。大数据时代的变革是对客观数据研究的转化,其前提假设是个体的心理状态,能够通过其生理指标、行为举动、语言文字等客观事实反映出来。目前的研究重点集中在网络、移动终端搜集到的一些文字、数字化数据,随着新技术的不断发展,如何将个体所表现出的行为数字化,使对动作的研究具有可操作性,是未来的研究重点之一。
( 四) 从因果分析向精确预测转化
目前,大数据在社会科学领域的研究中存在着一个困境,即有些研究者认为,大数据得到的仅是数据之间的相关关系,并不能进行因果解释。如蒙塔格( Montag) 等人通过数据验证了外倾性人格与电话通话时长存在正相关,与短信息字数存在负相关。但这并不能够说明通话时间越长、短信字数越短是外倾性人格的充分条件或必要条件。
但是在研究过程中发现,大数据时代的心理与教育学研究不再过多依赖随机抽样,模型的预测能力大幅提升。通过搜集、整理、分析相关变量后,个体的心理健康水平、学业成绩、群体的情绪等,都能得到更加精确的预测,从而及时对相应的政策与实践做出调整。此时,变量之间因果关系的重要性也随之下降了。大数据时代,利用数据挖掘方法,寻找因变量与众多自变量之间的联结关系,对因变量进行精准的预测,是挑战传统研究方法的又一项重要变革。
|