中心工作

中心工作
当前位置: 首页 > 新闻动态 > 正文

Martin Weisser教授谈XML在语料库中的应用

2014年06月13日 17:41  点击:[]

2014612日下午,我校外籍教师Martin Weisser教授应邀在我中心演示厅做了一场题为“XML在语料库建设中的应用”的学术报告。

Weisser教授首先谈到“XML标识语言是一种凸显语言信息的手段,类似于关系数据库,而SGMLHTML是与XML类似却功能定位不同的另外两种标识语言。XML标注由“首标签”(head tag)和“尾标签”(tail tag)构成,首尾标签用尖括号标记,可以包含若干属性名称和属性值,例如ID号等。XML标识的优势在于其自定义能力,能满足各种语言信息凸显的需求。目前的语料标注与语料转换工具对于研究者而言较难掌握,Weisser教授为此提出使用“简明XML语料标注”的方法,其优势包括:(1)尽量少用嵌套标签;(2)把更多信息放置到标签属性中;(3)避免文件头的信息堆砌;(4)保持正文文本的适当独立性;(5)优化可读性;(6)优化编辑性。最后,Weisser教授为大家展示了多款用于XML标注与检索、文本特征提取、言语行为和自然会话标注等领域的语料处理软件。

本次讲座体现了语料库与语用学结合的新趋势,激发了在场师生对语料库语言学的浓厚兴趣。


上一条:张艺琼博士在荷兰乌特勒支大学讲学及开展研究合作 下一条:双语认知与双语教育实验室二期建设论证会

关闭