-
题名基于中文拼音输入法数据的汉语方言词汇自动识别
被引量:1
- 1
-
-
作者
张燕
张扬
孙茂松
-
机构
清华大学计算机系
搜狗科技公司
-
出处
《中文信息学报》
CSCD
北大核心
2013年第5期22-28,共7页
-
基金
国家自然科学基金重点资助项目(61133012)
国家863计划资助项目(2012AA011102)
-
文摘
方言研究领域中的语音研究、词汇研究及语法研究是方言研究的三个重要组成部分,如何识别方言词汇,是方言词汇研究首要的环节。目前,汉语方言词汇研究的语料收集与整理主要通过专家人工整理的形式进行,耗时耗力。随着信息技术的发展,人们的交流广泛通过网络进行,而输入法数据包含海量的语料资源以及地域信息,可以帮助进行方言词汇语料的自动发现。然而,目前尚没有文献研究如何利用拼音输入法数据对方言词汇进行系统化分析,因此在本文中,我们探讨借助中文输入法的用户行为来自动发现各地域方言词汇的方法。特别的,我们归纳得到输入法数据中表征方言词汇的两类特征,并基于对特征的不同组合识别方言词汇。最后我们通过实验评价了两类特征的不同组合方法对方言词汇识别效果的影响。
-
关键词
方言词汇识别
中文拼音输入法
特征融合
-
Keywords
dialect detection
Chinese Pinyin input method
feature combination
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-