期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于n-gram频率的语种识别改进方法 被引量:6
1
作者 郝洺 徐博 +1 位作者 殷绪成 王方圆 《自动化学报》 EI CSCD 北大核心 2018年第3期453-460,共8页
识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法 (如Textcat、LIGA、log LIGA等)识别效果在不同的数据集上相差甚远... 识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法 (如Textcat、LIGA、log LIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性. 展开更多
关键词 语种识别 短文本 n—gram频率 鲁棒性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部