期刊文献+

基于词内部模式的中文新词识别研究 被引量:1

Research on Chinese New Word Identification Based on Inner Pattern of Word
下载PDF
导出
摘要 提出了一种基于支持向量机的中文新词识别算法.该算法结合新词内部模式以及词长等提出了基于词内部模式的改进字符位置似然概率,并综合新词的邻接类别等特征对新词进行识别.经过小说语料测试,实验结果表明:该算法的微F1值为0.583 3,宏F1值为0.775 7,分别比不考虑词内部模式的基准算法提高约63%和30%. In this paper,a Chinese new word identification approach based on a SVM classifier was propose.The method first introduced improved independent word possibility based on the inner pattern of string and POS,and then combined accessor variety and frequency statistical features to identify Chinese new words.Experimental results showed that Micro F1 and Macro F1 of the proposed method were 0.583 3 and 0.775 7 respectively.Compared with the method not considening inner pattern of word,the performance of the presented method improved about Micro F1 63 % and Macro F1 30 % respectively.
出处 《集美大学学报(自然科学版)》 CAS 2011年第6期461-466,共6页 Journal of Jimei University:Natural Science
基金 福建省自然科学基金资助项目(2010J05133) 福建省科技创新平台计划项目(2009J1007) 福州大学科技专项启动基金资助项目(2010-XQ-22)
关键词 中文新词 识别 词内部模式 字符位置似然概率 支持向量机 Chinese new word identification inner pattern of word independent word possibility SVM
  • 相关文献

参考文献9

  • 1曾依灵,许洪波.网络热点信息发现研究[J].通信学报,2007,28(12):141-146. 被引量:29
  • 2亢世勇.《现代汉语新词语信息电子词典》的研究与实现[J].中文计算语言学期刊,2002,(2).
  • 3张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量:39
  • 4LI H Q, HUANG C N, GAO J F, et al. The use of SVM for Chinese new word identification [ J ]. Lecture Notes in Computer Science, 2005, 3248: 723-732.
  • 5罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量:14
  • 6秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量:13
  • 7PENG F C, FENG F F, ANDREW MCCALLUM. Chinese segmentation and new word detection using conditional random fields [ C ] //Proceedings of the 20th International Conference on Computational Linguistics (COLING 2004). PA, USA: Association for Computational Linguistics Stroudsburg, 2004: 562-568.
  • 8WU A D, JIANG Z X. Statistically-enhanced new word identification in a rule-based Chinese system [ C ] //Proceedings of the Second Chinese Language Processing Workshop. PA, USA: Association for Computational Linguistics Stroudsburg, 2000: 46-51.
  • 9中科院计算所.汉语词性标记集[EB/OL].[2011-11-15].http://ictclas.org/docs/ICTPOS3.0汉语词性标记集.doc.

二级参考文献65

共引文献84

同被引文献7

引证文献1

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部