期刊文献+

基于决策列表的中文同音词自动识别与校对 被引量:2

Automatic detection and correction of Chinese homophone errors by decision list
下载PDF
导出
摘要 中文文本校对是自然语言处理领域重要课题,在汉语校对中,文本错误有很多种,其中同音词错误占很大的比例,文中提出一种基于决策列表的方法,首先手工整理出常见的1000对同音词混淆集,通过大量语料训练出2元模型和上下文语境模型,校对文本时提取词以及它所有同音词的2元特征和上下文特征,根据训练好的模型计算出支持度,这就是同音词组决策列表的构建,从决策列表中判断哪个词的支持度最高,从而实现同音词自动查错与纠错。最后,为了改善由于数据稀疏带来的问题,文章用同义词聚类对实验进行了改进,提高了召回率等。根据实验,这种方法能有效的解决同音词错误。 Chinese text automatic proofreading is an important topic in the field of natural language processing. In Chinese test proofreading, there are many kinds of errors, homophone errors account for a large proportion. In this paper, proposes a method based on decision list, at first, we sort out 1000 pairs of homophone sets, secondly we train 2-gram models and context models through a large scale of corpus.When we proofread text,extract 2-gram and context feature of a word in the homophone confusion sets and its homophone.According to the models calculate model support, namely decision list is constructed.We can judge the hightest model support and appropriate homophone, thus implement automatic detection and correction of homophone errors. At last, we improve the experiment with synonyms clustering, improve the problem brought by rarefaction of data, improve recall rate. According to experiments, we can prove this method can slove homophone errors effectively.
作者 石敏 高尚
出处 《电子设计工程》 2015年第9期39-41,共3页 Electronic Design Engineering
基金 人工智能四川省重点实验室开放基金(2012RYJ04) 中科院智能信息处理重点实验室开放课题(IIP2013-1)
关键词 同音词错误 决策列表 2元模型 上下文语境 homophone errors decision list 2-gram model context
  • 相关文献

参考文献10

二级参考文献24

  • 1王晓龙.拼音语句汉字输入系统InSun[J].中文信息学报,1993,7(2):45-54. 被引量:4
  • 2殷峰,何克抗.语句级拼音┐汉字转换系统的设计与实现[J].计算机研究与发展,1997,34(5):340-345. 被引量:2
  • 3周强.汉语语料库的短语自动划分和标注研究[M].北京:北京大学,1996..
  • 4李秀坤.汉字文本自动查错系统的研究与实现[M].哈尔滨:哈尔滨工业大学计算机系,1995..
  • 5姚天顺,自然语言理解.一种让机器懂得人类语言的研究,1995年
  • 6Yao Tianshun,Int J Pattern Recognition Artificial Intelligence,1988年,2卷,1期,25页
  • 7荀恩东,计算机研究与发展,2000年,11卷,4期,473页
  • 8周强,学位论文,1996年
  • 9李秀坤,学位论文,1995年
  • 10施得胜等.基于统计的中文错字侦测法[J].电脑与通讯,1992,(8).

共引文献58

同被引文献14

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部