中心工作

中心工作
当前位置: 首页 > 新闻动态 > 正文

云山讲座教授龚涛博士系列讲座4——心理语言学中的数据科学研究

2019年11月18日 22:49 张才蕙 点击:[]

20191118日上午,云山讲座教授龚涛博士在文科基地演示厅为我们带来了他系列讲座的最后一讲——Data Science Research in Psycholinguistics。本场讲座伊始,龚涛博士向我们介绍了数据科学的三大核心成分包括:统计(statistics)、计算(computation)、和人的参与(human),并为我们介绍了数据科学在心理语言学领域的应用,主要包括其近期研究中的1)词汇特性与个体阅读技能差异对在线句子阅读的影响——一项基于眼动技术的研究;2)利用社交网络语言来预测个体幸福指数的研究。

第一项研究基于阅读的眼动轨迹会受到词汇特性(如:词频、词长等)和个体阅读技能差异(如:读者的背景知识、认知资源等)影响的理论基础,旨在通过眼动技术来探究词汇特性和个体阅读技能差异是如何共同交互作用影响个体的在线阅读加工。本研究招募了441624周岁的社区居民作为受试来参与本次在线句子阅读的眼动实验,并使用混合效应回归模型(Mix-effects Regression Model)作为数据科学的统计方法,将27个预测因子(predictors)[7 lexical properties (6 Freq/Len measures + word position in sentence) + 5 skill measures (oral knowledge, decoding, print experience, oral reading fluency, verbal working memory) + 15 interactions between each of the skill measures and word position, Freq and Len.]3种混合效应[Intercepts: (1|subject) and (1|word/sentence); Slope: (frequency/subject)]加入模型,数据分析的结果显示:1)只有词汇特性对个体在线阅读加工任务的影响是显著的,个体阅读技能对其的影响不显著;2)但词汇特性中的词位(word position)和词长(word length)与个体阅读技能中的解码能力(decoding), 朗读流利度(oral reading fluency), 和言语工作记忆(verbal working memory)有显著的交互作用;3)将数据结果以可视化的图形呈现出来。本研究为阅读相关的理论和数据科学方面的技术实操都提供了一定的补充和借鉴。

第二个研究旨在通过数据科学的方法来探究社交媒体语言能否成为反映个体心理健康状态的有效依据。本研究追踪了2612名受试从20092011三年在Facebook更新的165162条社交动态,并使用随机森林模型(Random Forest Model,机器学习中的一种分类器)将从受试社交动态中提取出来的语言特征(情感[sentiment], 封闭性词汇[Linguistic Inquires and Word Count], 和开放性词汇[Latent Dirichlet Allocation])与受试自评的“幸福指数”(Satisfaction with life, SWL)做相关,以验证该数据科学方法的有效性。实验结果显示:该机器学习模型计算出来的“幸福指数”(machine-predicted SWL scores)与情感得分(sentiment scores)可以在一定程度上预测受试自评的抑郁分值(self-reported depression scores)。当然,任何一种数据科学分析方法的选择和使用都难以尽善尽美地符合现实研究的需求,因此也还需要我们客观地看待数据分析的结果,并在后续的研究中去不断改进和完善我们的研究设计。

讲座的最后,龚涛博士与大家进行了热烈讨论和深入交流,并用“盲人摸象”的故事对本次系列讲座作了如下总结:科学研究实则是没有明确界线的,我们都只是站在了其中的某个视角来努力描述研究对象的全貌,学科领域之间可以相互借鉴、取长补短。未来的研究者们要保持开放性的思维,顺应“百家争鸣,百花齐放”的发展趋势来不断学习、更新自己的知识和技能。“工欲善其事,必先利其器”,“Work locally and think globally”,龚涛博士将这两句箴言送给了大家,预祝大家在未来的科研学习中都能有所收获。

龚涛博士的系列讲座在大家的热烈掌声中落下帷幕,其报告内容丰富,且极具启发性,令在场听众受益匪浅。



上一条:首届公共话语研究学术研讨会会前工作坊暨广外话语论坛第五期顺利举行 下一条:云山讲座教授龚涛博士系列讲座3——神经科学研究语言处理

关闭