2024年12月17日上午,美国宾夕法尼亚州立大学应用语言学系陆小飞教授与其博士生Minjin Kim应续论研究室邀请,通过ZOOM平台带来了一场题为“Advanced Techniques in Corpus Linguistics”的研究方法工作坊。此次讲座由许琪教授主持,吸引了近200名校内外师生参与。
讲座伊始,陆小飞教授介绍了语料库资源的重要性,阐述了如何根据研究目的选择合适的语料库或自建语料库。他指出,语料库标注是语料库研究的关键环节,包括句子分割、单词分割、词形还原、词性标注和句法解析等,并指出这些注释需结合形式与上下文,重点关注语义、修辞、言语行为等功能,以满足不同研究需求。基于此,陆教授进一步总结了语料库语言学中重点关注的话题。在介绍研究方法时,陆教授详细解读了语料库语言学中常用的技术工具,包括CoreNLP 和 L2SCA 等适用于句法与词汇分析的自然语言处理工具,同时展示了常用的Python工具包(如Spacy、NLTK、Stanza 和 Transformers)及其应用场景。此外,陆教授强调了高级统计方法的重要性,包括线性混合效应模型、回归分析和结构方程模型等,这些方法为处理复杂变量关系提供了更加精细和高效的解决方案。最后,陆教授总结道,现代技术工具与统计分析方法的结合正推动语料库语言学向更加高效、自动化和精细化的方向发展,为未来研究带来新的机遇与挑战。
接下来,Kim 博士首先介绍了自然语言处理(NLP)的基本概念,以及其在自然语言理解、翻译、词性标注等任务中的应用。随后,她进一步探讨了二语句法复杂度分析器(L2SCA)在口语语料分析中的应用,并生动地展示了如何通过Python等技术工具实现口语不流畅表达(disfluency)的自动标注。接着,她详细解释了线性混合效应模型(LME)的原理和应用,特别提及其在处理嵌套数据结构时的优势,并展示了如何通过R语言构建LME模型。最后,Kim 博士还详细介绍了ChatGPT辅助的数据分析方法,探讨了如何通过提示语和微调技术来优化GenAI模型,并通过自己的研究实例,向与会者展示了从数据准备到大语言模型微调的全过程。
在问答环节,两位学者与参会者进行了深入的互动与交流,他们详细解答了参会者关于LME有效性、研究周期、数据收集与处理等方面的疑问,并提供了宝贵的指导和建议。线上问答环节气氛热烈,参会者纷纷表示本次工作坊加深了他们对语料库语言学中前沿技术的了解,收获满满。最后,许琪教授对本次讲座进行总结,并对两位学者带来的精彩分享表示感谢,同时鼓励参会者将所学知识应用于实践,期待未来产出更多的创新成果。