期刊文献+

一种基于SVM和规则消除组合型歧义的算法 被引量:2

Algorithm Based on SVM and Rules for the Disambiguation of Combinatorial Ambiguous Phrases
下载PDF
导出
摘要 歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径. Ambiguity processing is an essential but difficult problem in word segmentation. The authors combine Support Vector Machines( SVM)with rules to propose a new algorithm( SR algorithm)to deal with the combinatorial ambiguous phrases in Chinese word segmentation. The key idea of the SR algorithm is to solve combinatorial ambiguous phrases making use of the theory of SVM and rules of parts of speech. In a test of several kinds of Chinese corpus, it indicates that the accuracy of segmentation for combinatorial ambiguous phrases reach 83%. It provides a new method for solving Chinese word segmentation problems.
出处 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第10期50-53,共4页 Journal of Chongqing University
基金 国家自然科学基金资助项目(60173060)
关键词 自然语言处理 中文分词 组合型歧义 支持向量机 规则 natural language processing Chinese word segmentation combinatorial ambiguity support vector machine rules
  • 相关文献

参考文献9

二级参考文献13

  • 1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量:15
  • 2孙茂松 邹嘉彦 等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
  • 3Lai B Y,Proc of ROCLING-IV,1991年
  • 4Zhang J S,Proc of ROCLING-IV,1991年
  • 5王晓龙,科学通报,1989年,13页
  • 6梁南元,中文信息学报,1987年,1期
  • 7冯志伟,数理语言学,1985年
  • 8孙茂松,汉语计量与计算研究,1998年
  • 9刘开瑛,语言文字应用,1997年,1期
  • 10Sun Maosong,Proc 5th Conf Applied Natural Language Processing,1997年

共引文献228

同被引文献11

引证文献2

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部