期刊文献+

基于投票混合模型的中文地址分词研究 被引量:2

Research on Chinese Address Words Segmentation Based on Vote Hybrid Model
下载PDF
导出
摘要 针对现有的中文分词算法在特殊领域的分词性能并不理想的问题,在基于CRF分词器的基础上,结合传统的基于字典的分词方法,以及支持向量机(Support Vector Machine,SVM)分词工具,实现了一种基于投票混合模型的地址分词方法,并使用非标准地址数据对该模型进行训练与测试。实验结果表明,在对中文地址数据的分词中,该分词器比几种常用的分词工具具有更好的分词性能,为基于分词的地址数据清洗做了一个重要的基础。 Due to the fact that the performance of the existing Chinese word segmentation algorithm in specific areas is not good as expected,Chinese address word segmentation based on vote hybrid model on the basis of CRF-based word segmentation,traditional dictionary-based segmentation method and support vector machine (Support Vector Machine,SVM) segmentation tools is implemented in this paper,which is trained and tested on a non-standard address data.
出处 《工业控制计算机》 2015年第11期105-106,108,共3页 Industrial Control Computer
关键词 CRF模型 支持向量机 最大正向模糊匹配 投票混合模型 CRF model support vector machine the biggest positive fuzzy matching vote hybrid model
  • 相关文献

参考文献4

二级参考文献28

  • 1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量:198
  • 2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量:43
  • 3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量:249
  • 4Roth D, Zelenko D. Part of Speech Tagging Using a Network of Linear Separators. Coling-ACL, 1998: 1136- 1142
  • 5Sun Jian, Wang Wei, Zhong Yixin. Grammatical Category Disambiguation Based on Second Order Hidden Markov Model.Systems, Man, and Cybernetics, 2001 IEEE International Conference on, 2001, (10): 887-891
  • 6付国宏 王晓龙.[D].哈尔滨:哈尔滨工业大学计算机科学与技术学院,2001.
  • 7白拴虎 夏莹 黄昌宁.汉语语料库词性标注方法研究[J].机器翻译研究进展,1992,:408-418.
  • 8Thede S M, Harper. M P. A Second-order Hidden Markov Model for Part-of-speech Tagging. The 37th Annual Meeting of the Association for Computation Linguistics (ACL-99) College Park MD, USA,1999-06
  • 9Jelinek F. Statistical Methods for Speech Recognition. The MIT Press,1997
  • 10汉语信息处理词汇01部分:基本术语(GB12200.1-90)6[s],中国标准出版社,1991.

共引文献57

同被引文献22

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部