期刊文献+

汉语中新词识别方法研究

Research of Chinese new word identification method
下载PDF
导出
摘要 随着互联网和社会的飞速发展,新词不断涌现。识别和整理这些新词语,是中文信息处理中的一个重要研究课题。提出一种新词识别方法,该方法利用基于PAT-Array的重复字符串抽取候选串,提高了新词的召回率。并在此基础上分析新词内部模式,添加了垃圾串过滤机制。单字串过滤主要是运用垃圾词典的方法,多字词模式新词的确定是利用改进的互信息与独立成词概率结合的方法。由此,大幅度提高了新词识别的准确率。 With the rapid development of internet and society,new words are emerging.Identifying and organizing these new words,is an important research topic of Chinese information processing.This paper presents a new word recognition method via using PAT-Array repeated extractions of candidate strings to improve the recall of new words.Based on this method,analyses the internal model of new words and adds a garbage string filtering mechanism.Use the garbage dictionary to filter the single string.The improved mutual information is combined with a separate word combination methods to determine more new words.Our achievements can significantly improve the accuracy of new word recognitions.
出处 《河北省科学院学报》 CAS 2014年第2期35-40,共6页 Journal of The Hebei Academy of Sciences
关键词 新词 PAT-Array 互信息 垃圾串过滤 内部模式 New words PAT-Array Mutual information Garbage string filter Internal model
  • 相关文献

参考文献11

二级参考文献82

共引文献98

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部