基于决策列表的中文同音词自动识别与校对被引量：2

Automatic detection and correction of Chinese homophone errors by decision list

下载PDF

导出

摘要中文文本校对是自然语言处理领域重要课题,在汉语校对中,文本错误有很多种,其中同音词错误占很大的比例,文中提出一种基于决策列表的方法,首先手工整理出常见的1000对同音词混淆集,通过大量语料训练出2元模型和上下文语境模型,校对文本时提取词以及它所有同音词的2元特征和上下文特征,根据训练好的模型计算出支持度,这就是同音词组决策列表的构建,从决策列表中判断哪个词的支持度最高,从而实现同音词自动查错与纠错。最后,为了改善由于数据稀疏带来的问题,文章用同义词聚类对实验进行了改进,提高了召回率等。根据实验,这种方法能有效的解决同音词错误。 Chinese text automatic proofreading is an important topic in the field of natural language processing. In Chinese test proofreading, there are many kinds of errors, homophone errors account for a large proportion. In this paper, proposes a method based on decision list, at first, we sort out 1000 pairs of homophone sets, secondly we train 2-gram models and context models through a large scale of corpus.When we proofread text,extract 2-gram and context feature of a word in the homophone confusion sets and its homophone.According to the models calculate model support, namely decision list is constructed.We can judge the hightest model support and appropriate homophone, thus implement automatic detection and correction of homophone errors. At last, we improve the experiment with synonyms clustering, improve the problem brought by rarefaction of data, improve recall rate. According to experiments, we can prove this method can slove homophone errors effectively.

作者石敏高尚

机构地区江苏科技大学计算机科学与工程学院

出处《电子设计工程》 2015年第9期39-41,共3页 Electronic Design Engineering

基金人工智能四川省重点实验室开放基金(2012RYJ04) 中科院智能信息处理重点实验室开放课题(IIP2013-1)

关键词同音词错误决策列表 2元模型上下文语境 homophone errors decision list 2-gram model context

分类号 TN02 [电子电信—物理电子学]

引文网络
相关文献

参考文献10

1李晶皎,张王利,姚天顺.汉语语音理解中自动纠错系统的研究[J].软件学报,1999,10(4):377-381. 被引量：4
2吴岩,李秀坤,刘挺,王开铸.中文自动校对系统的研究与实现[J].哈尔滨工业大学学报,2001,33(1):60-64. 被引量：12
3张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
4Kukich K. Techniques for automatically correcting words in text[J]. ACM Computing Surveys, 1992,24(4):377-439.
5刘挺,施洪滨,邵艳秋.中文计算机辅助校对系统原理[J].中文信息,1997,14(2):21-22. 被引量：6
6邱超捷,宋柔,等.大规模语料库中词语接续对的统计与分析[A].第四届计算语言学会议论文集(语言工程)[C].北京:清华大学出版社,1997.
7郭志立.中文校对系统中的修改建议提供算法;第四届计算语言学会议论文集(语言工程)[C]//北京:清华大学出版社.1997.325-330.
8Hiroyuki Shinnou.Detection of Japanese Homophone Errors by a Decision List Including a Written Word as a Default Evidence[C]//Proceedings of EACL' 99,180-187.
9张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29
10罗智勇,宋柔.相似词及其在计算机辅助校对系统中的应用[C]//全国第八届计算语言学联合学术会议(JSCL-2005)论文集.南京;2005.

二级参考文献24

1王晓龙.拼音语句汉字输入系统InSun[J].中文信息学报,1993,7(2):45-54. 被引量：4
2殷峰,何克抗.语句级拼音┐汉字转换系统的设计与实现[J].计算机研究与发展,1997,34(5):340-345. 被引量：2
3周强.汉语语料库的短语自动划分和标注研究[M].北京：北京大学,1996..
4李秀坤.汉字文本自动查错系统的研究与实现[M].哈尔滨：哈尔滨工业大学计算机系,1995..
5姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年
6Yao Tianshun，Int J Pattern Recognition Artificial Intelligence，1988年，2卷，1期，25页
7荀恩东，计算机研究与发展，2000年，11卷，4期，473页
8周强，学位论文，1996年
9李秀坤，学位论文，1995年
10施得胜等.基于统计的中文错字侦测法[J].电脑与通讯,1992,(8).

共引文献58

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2赵艳红,费洪晓.一个基于改进的反序分词词典的中文分词算法[J].深圳职业技术学院学报,2004,3(4):28-31. 被引量：2
3马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728. 被引量：7
4陈笑蓉,秦进.特征和语言模型结合的中文文本查错[J].计算机应用,2004,24(B12):259-261. 被引量：1
5陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
6张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
7张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
8许庆欣.词汇语法拼写校对软件——功能语法的应用实例[J].天津外国语学院学报,2007,14(2):49-54.
9张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4
10罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18

同被引文献14

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：27
2陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
3张仰森,丁冰青.中文文本自动校对技术现状及展望[J].中文信息学报,1998,12(3):50-56. 被引量：14
4郝亚男,乔钢柱,谭瑛.基于神经网络与注意力机制的中文文本校对方法[J].计算机系统应用,2019,28(10):190-195. 被引量：10
5龚永罡,裴晨晨,廉小亲,王嘉欣.基于Transformer模型的中文文本自动校对研究[J].电子技术应用,2020,46(1):30-33. 被引量：3
6龚永罡,吴萌,廉小亲,裴晨晨.基于Seq2Seq与Bi-LSTM的中文文本自动校对模型[J].电子技术应用,2020,46(3):42-46. 被引量：16
7王浩畅,周锦程.中文语法自动纠错系统的研究与实现[J].企业科技与发展,2020,0(2):81-84. 被引量：6
8杨苏稳,张晓如.基于搜索引擎日志的中文纠错方法研究[J].软件导刊,2020,19(6):182-187. 被引量：4
9张佳宁,严冬梅,王勇.基于word2vec的语音识别后文本纠错[J].计算机工程与设计,2020,41(11):3235-3240. 被引量：19
10刘明洁,梁毅,艾中良,贾高峰.面向法律文书的中文文本校对方法研究[J].计算机工程与应用,2020,56(24):274-278. 被引量：4

引证文献2

1王梦贤,何春辉.融合MacBERT和Kenlm的中文纠错方法[J].现代计算机,2022,28(23):70-73.
2杜晓童,李崭,付萍萍,刘彦君.引入反馈机制的中文文本校对技术研究[J].计算机科学与应用,2023,13(3):390-398.

1关定华.语音人机对话的现在和将来[J].百科知识,1995,0(7):8-9.
2李佳列,丁国清,颜国正,朱洪海.采用CCD的非接触测量中提高精度的一种方法[J].光学精密工程,2002,10(3):281-284. 被引量：37
3宗成庆,章森,陈肇雄,黄河燕.基于多知识源的同音词识别方法[J].中文信息学报,1998,12(4):22-29. 被引量：1
4刘江林,袁宏彦.基于决策树算法的移动终端数据安全检测技术研究[J].现代电子技术,2017,40(5):82-84. 被引量：3
5雷切尔.梅茨.人工智能让短信交流更有效率[J].科技创业,2014(3):14-14.
6褚御芝,郑宝玉,季薇.协同频谱感知中的融合策略[J].南京邮电大学学报（自然科学版）,2010,30(3):39-45. 被引量：9
7王志力,王玉文,蒋瑜,董家志.基于决策理论的信号调制识别改进算法[J].无线电工程,2014,44(5):30-33. 被引量：8
8曹圣皎,甘培润,余长源.相干光OFDM通信系统中的IQ补偿和相位估计[J].光通信研究,2012(6):10-12. 被引量：1
9徐晶,孙艳民,付旭轮,沈骜.基于决策树算法的无线参数优化方法[J].电信工程技术与标准化,2012,25(1):7-10. 被引量：1
10谐音联中有趣事[J].作文通讯,2016,0(1):59-59.

电子设计工程

2015年第9期

浏览历史

内容加载中请稍等...

基于决策列表的中文同音词自动识别与校对被引量：2

参考文献10

二级参考文献24

共引文献58

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于决策列表的中文同音词自动识别与校对 被引量：2

参考文献10

二级参考文献24

共引文献58

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于决策列表的中文同音词自动识别与校对被引量：2