2011 年起,大数据成为社会上、学术界炙手可热的话题,媒体网络、街头巷尾,处处可见对这一新词汇的相关报道。随着其应用的推广,经济、金融、管理、科技、制造等诸多产业均发生着革命性的改变。大数据技术、大数据工程、大数据科学和大数据应用等诸多领域如同雨后春笋般应运而生; 而推陈出新的数据挖掘技术,则令大数据如虎添翼,不断冲击着传统的学术研究范式,为传统科学研究提供了全新的研究工具。
在心理学与教育学领域,大数据方法已帮助研究者取得了一定成果。德国波恩大学的马科维茨·亚历山大( Markowetz Alexander) 等人介绍了使用智能手机记录和分析操作者行为研究,对重度抑郁症患者的动态跟踪研究; 韩国心理健康研究中心的宋泰民( Song Tae Min) 等人研究了韩国人2004 至2010 年间在谷歌搜索引擎中关于自杀、压力、饮酒等关键词汇的搜索频率,并与实际自杀人数建立多水平模型,验证了压力、自杀等词汇的搜索频率与自杀人数的正向相关关系; 默瑟通和耶瑟夫( Merceron andYacef)利用相关规则数据挖掘方法,对不同学生在学习与考试过程中的相似错误进行分析,从而提出改进教学方法的建议; 麦菲顿和道森( Macfaydenand Dawson)分析学生参与在线课程的行为,利用参与讨论的程度、邮件频率、完成测验数量等变量,区分优秀学生与不良学生之间的差别。在大数据时代,将心理学与教育学共同研究具有如下意义: 第一,心理学是研究人类的心理现象、精神功能和行为的科学,教育学是研究教育现象及其规律的社会科学,而教育的主体是学生或教师,即人是教育的出发点。由此可见,心理学与教育学的研究主体是一致的,二者在大数据相关研究中所需的数据类型、研究方法等具有一致性。第二,在教育学的研究过程中,制定教育目标、教育原则,选择教育方法、组织教学等方面,都需要心理学知识作为依据,这在使用大数据作为研究工具时也是必要的。第三,心理学研究也需要教育学理论与实践的支撑。一方面,教育学的大量研究成果是学生在学习过程中规律的总结,这直接丰富了心理学领域的相关内容;另一方面,教育学研究以学生和教师作为研究对象,这个研究对象本身拥有巨大的体量,符合大数据研究的基本要求,也为心理学研究提供了丰富的素材。
传统的心理学与教育学定量研究,是以假设检验的方法为主要研究过程的。在此过程中,首先提出假设,对变量进行控制,通过观察、实验、访谈等搜集数据,之后对资料进行分析并推断出相关结论。该方法的缺点之一是,假设检验是以排除不正确假设为基础的,但是为了得到正确的推论,还要继续进行新的假设。而与传统研究方法不同,大数据则根据获取到的数据特征,首先通过相关、分类、聚类、可视化等方法对数据进行先期处理,从处理的结果中分析可能的原因,从而做出推断。这种近似反向的研究思路,正是大数据视角下心理学与教育学研究范式的重要特点。
一、心理学与教育学的大数据类型
摩尔定律认为,当价格不变时,同一个面积集成电路上可容纳的晶体管数目,每隔18 ~ 24 个月便会增加一倍。换言之,计算机硬件的处理速度和存储能力,每18 ~ 24 个月也将提升一倍。这有力地推动了全世界对物理存储器的消费,推动了数据量存储呈几何级数的增长。国际著名咨询机构高德纳咨询公司( Gartner) 预测,到2020 年,世界上存储的数据总量将达到35ZB,相当于80 亿块4TB 的移动硬盘。海量的数据存储量是大数据时代科学研究的前提条件。
与其他领域相同,心理与教育领域的大数据主要包括三种类型: 结构化数据、非结构化数据与半结构化数据。结构化数据是以往研究的重点,而非结构化数据和半结构化数据的数据量远远大于结构化数据,是未来研究的重点,具有更大的开发潜能。
( 一) 结构化数据
结构化数据即数据库数据。它是存储在数据库里,可以用二维表结构来表达实现的数据,如数字、符号、图表等信息。显然,传统的心理领域与教育领域的研究更多的是面向这些结构化数据。结构化数据有三种类型,即截面数据、纵向数据和面板数据。
截面数据是传统心理研究与教育研究应用较多的数据类型,是指在同一时间截面上反映一个总体的一批( 或全部) 个体的同一特征变量的观测值。为了揭示被试的心理发展水平和教育程度,截面数据可以采用描述统计、推断统计、多元统计等方法进行分析。除此之外,近些年结构方程模型的应用更为广泛,它是因子分析、回归分析、路径分析和潜变量模型的拓展与延伸,是在已有回归分析的基础上,利用测量模型和结构回归模型表达变量之间潜在关系的方法。
纵向数据也称时间序列数据,它是在不同时间点上搜集到的数据,反映个体发展随时间变化的状态和程度。教育心理学领域多应用时间序列数据进行研究,如记录并研究儿童记忆能力发展情况或学业成绩变化情况等。常用统计分析方法包括重复测量方差分析、时间序列分析、多元回归分析等,侧重研究总体平均发展趋势问题。近年来,多层线性模型、潜变量增长模型、潜变量混合增长模型,也是时间序列数据分析常用的方法。面板数据( panel data) 属于二维数据,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。大数据时代,获取数据更加迅速便捷,研究者在同一时点上能够获得大量有价值的数据,多时点积累即可满足面板数据要求的数据原型。近年来,事件相关电位( ERP) 、功能性磁共振成像( fMRI) 等技术不断成熟,单次实验即可产生客观的数据。通过控制实验的影响因素,进行不同时间、相同被试的多次观测,搜集到的数据即为面板数据。单位根检验、协整分析等方法是目前研究面板数据比较常用的一些方法。
( 二) 非结构化数据
相对于结构化数据,非结构化数据难以使用二维逻辑表来表现。它包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等。大数据时代下,非结构化数据的有效管理、开发与应用是心理学科与教育学科研究的重点。
在心理学与教育学领域,应用非结构化数据开展的研究虽然没有十分普及,但总体上呈上升的趋势。可预期的非结构化数据分析领域包括文本分析、移动智能终端数据分析、可穿戴设备数据分析、互联网行为分析、社会行为数据分析等。可用于心理与教育研究的非结构化数据主要包括以下几种类型:
1. 文字数据
文字数据包括人们在互联网线上、线下留下的各种文字记录,如网络上创作的文字作品、自媒体发表的言论、搜索引擎的热门词汇、微博、微信朋友圈的文字、论坛或留言板评论等。这些数据,一部分可以直接进行频数分析,另一些需要进行分类、编码使其转化为可被分析的数据。国外使用的Twitter,国内使用的微博、微信等社交平台,都是文字数据海量数据的获取平台。清华大学彭凯平等人通过统计新浪微博的词频数据,利用文字数据反映情绪这一特性,分析我国不同地区人口的“幸福指数”。安娜亚和博蒂卡里奥( Anaya and Boticario)分析学生在网络学习论坛上发布或回复的信息内容,对学生的合作表现进行判断,从而对学生类别进行划分。
2. 多媒体数据
多媒体数据包括可以被记录下来的声音、图片、视频影像等素材。例如软件中的语音聊天记录,由个人用户拍摄并上传到网络上的图片、视频资料等。Google 公司的图片管理工具Picasa 利用机器学习的算法,对照片中的人物面孔进行识别,从而提供基于不同对象的照片分类功能; 在此研究基础上,研究者能够通过软件识别照片、视频、监控画面中人物的面孔、表情数据,与情绪、教学等领域的相关研究结合进行分析,更加客观地研究个体在学习、生活中的心理状态。
3. 行为数据
行为数据的定义范畴十分宽泛,可以说涵盖了我们生活中可被记录的一举一动。通过互联网、智能移动设备终端、可穿戴设备等电子信息产品,个体的行为数据均可搜集回传至服务器。例如,网页浏览时间、鼠标运行轨迹、手机通话时长、实时位置信息,以及特定场景下个体的动作、心跳、血压等生理指标,等等。行为数据可能无法直接用于心理学与教育学的分析,将声音、图像转化为数字化信息,再从海量数据中提取有意义的特征,是未来研究的重中之重,也是发挥心理学、教育学在大数据时代学科专业优势,促进多学科协同创新的落脚点。
|