2018年4月23日下午,广东外语外贸大学云山领军学者、浙江大学求是特聘教授、国际世界语学院院士刘海涛教授在我中心演示厅做了“基于大数据的语言类型研究”的讲座。讲座由中心副主任杨静教授主持,中心专兼职研究员王初明教授、任伟教授、张艺琼副教授、李金辉博士、陈衡博士等参加了讲座,讲座吸引了校内外众多师生前来参加。
讲座一开始,刘教授先从近年来比较火的“大数据”说开去。“大数据”为人类的生活创造了前所未有的可量化的维度,正在改变我们理解世界的方式。面对这一刚刚开启的智能革命新时代大门,道路只有两条,要么进入,成为那2%的先行者,要么徘徊不前,成为剩余的观望者。对于数据与学科之间的关系,刘教授以物理学、数学、历史学、文学、艺术等为例来说明其实不同学科对数据与理论的理解都是不一样的,并拿英语不规则动词的规则化变化规律的Nature科学研究论文举例说明语言学是十分注重数据的一门科学学科。
接着,刘教授以语言类型研究为例详细深入地介绍了自己及团队是如何运用真实语言数据来进行语言类型科学研究的。“语言类型学”是一门关于语言分类的科学,而对于目前的语言类型研究现状,刘教授解释说大部分工作都还处于做“博物学家”类工作的前科学阶段,主要以收集不同语言的特殊语言特征为主要研究内容。令人充满希望的是,目前也开始有一些语言类型学家开始关注语言分布多样性测量变量及解释这些变量分布的理论和模拟,语言多样性与生物、文化、认知多样性的关系、基于类型数据库的统计分析与实验方法等。随后刘教授介绍了自己及团队以真实语言语料库为基础,以依存语法和复杂网络为理论和方法,以依存距离、依存方向、Zipf定律参数、h指数、a指数、度分布等指标参数来对人类语言进行分类的科学研究并对指标的语言学意义进行了解释。
在谈到为何要运用真实语料进行研究时,刘教授解释说,语言学研究语言,而语言是人们在真实情境下所说的语言,研究非真实语料得到的所谓规律,很难被相关学科例如语言教学、语言处理等使用。语言具有概率性,基于真实语料进行语言研究有助于让国外的语言学家知道中国也有语言学家(中国语言学的国际化),还有助于让科学家认同语言学家也是科学家(语言研究的科学化)。“中国语言学的国际化”就应在国际语言学期刊上发表文章,而“语言研究的科学化”就应能在科学家共同体都认可的自然科学杂志上发表语言学文章。说到论文发表,刘教授谈到现在的大学排名、学科排名都需要论文数量指标以及更重要的论文质量指标,这对学校、学科发展至关重要。
整个讲座过程中,刘教授语言风趣幽默,现场座无虚席,气氛十分热烈。讲座结束后,刘教授与现场师生进行了友好互动,详细回答了提问者提出的关于计量语言学现状、方法及理论方面的一些问题。这次讲座不仅开阔了大家的视野,也向大家传达了语言研究需要建立在真实语言数据上、需要科学化与国际化的理念。