-
题名基于n-gram频率的语种识别改进方法
被引量:6
- 1
-
-
作者
郝洺
徐博
殷绪成
王方圆
-
机构
北京科技大学计算机与通信工程学院
中国科学院自动化研究所数字内容技术与眼务研究中心
-
出处
《自动化学报》
EI
CSCD
北大核心
2018年第3期453-460,共8页
-
文摘
识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法 (如Textcat、LIGA、log LIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性.
-
关键词
语种识别
短文本
n—gram频率
鲁棒性
-
Keywords
Language identification, short text, n-gram frequency, robustness
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-