期刊文献+

基于SVM和词间特征的新词识别研究 被引量:4

Research on New Word Identification Based on SVM and Word Characteristics
下载PDF
导出
摘要 中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用。文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量。对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果。 Chinese word segmentation is difficult to deal with ambiguity and unknown words recognition. Propose the new word mode features as well as various word internal patterns from the training corpus of positive and negative samples to quantify extraction, and then through the training of support vector machine get new support vector classification. On the test corpus with absolute discounting method new candidate is extracted and selected,and with the training corpus to extract word patterns to quantify according to the new classifica- tion support vector on the SVM test,through a portion of the rule falter to get the final word recognition results.
出处 《计算机技术与发展》 2012年第5期134-136,140,共4页 Computer Technology and Development
基金 国家自然科学基金项目(2002AA117010-07) 内蒙古师范大学校基金(GCRC09001 ZRYB08018)
关键词 自然语言处理 支持向量机 新词识别 词间特征 natural language processing support vector machine new word recognition word feature
  • 相关文献

参考文献10

二级参考文献72

共引文献98

同被引文献34

引证文献4

二级引证文献42

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部