面向新媒体领域的错别字自动校对被引量：3

Automatic Proofreading of Wrong Characters for New Media Field

下载PDF

导出

摘要新媒体平台每天原创新闻发布量巨大,采用人工审核内容中的错别字已经不切实际。本文提出了一种基于n-gram模型与规则相结合的方法,采集上亿篇新闻文章作为训练语料,对分词后的语料进行统计分析形成三元n-gram模型库,基于上下文语境构建错别字混淆集,通过最优化方法计算混淆词在目标场景中的支持度,有效实现错别字的自动检查与纠错。实验结果显示,文章查错召回率为78.9%,准确率为85.1%,具有重要的实际意义和广泛的应用领域。 Every day, a huge amount of original news is released in new media platform, so it is unrealistic to manually check the wrong characters in the audited content. In this paper, a method based on N-gram model and rules is proposed to collect hundreds of millions of news articles as training corpus. The corpus after word segmentation is statistically analyzed to form a ternary N-gram model library. The confusion set is constructed based on context. The support of confusion words in target scene is calculated by optimization method. Automatically checking and correcting errors. The experimental results show that the recall rate of error detection is 78.9%, and the accuracy rate is 85.1%. It has important practical significance and wide application fields.

作者龚永罡汪昕宇付俊英王蕴琪 GONG Yong-gang;WANG Xin-Xu;FU Jun-xing;WANG Yun-qi

机构地区北京工商大学计算机与信息工程学院

出处《信息技术与信息化》 2018年第10期73-75,共3页 Information Technology and Informatization

关键词 N-GRAM模型混淆集支持度错别字 N-gram model confusing set support degree wrongly written character

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(8):229-232. 被引量：7

二级参考文献14

1张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
2陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：6
3张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
4丰强泽,曹存根.语音查询中的辨音方法:中国,CNl514387[P].2004.07.21.
5王静帆,邬晓钧,夏云庆,郑方.中文信息检索系统的模糊匹配算法研究和实现[J].中文信息学报,2007,21(6):59-64. 被引量：17
6Zhang Zhao huang.A Pilot Study on Automatic Chinese Spelling Error Correction[J].Communication of COLIPS,1994,4 (2):143.
7吴春颖,王士同.基于二元语法的N-最大概率中文粗分模型[J].计算机应用,2007,27(12):2902-2905. 被引量：12
8于勐,姚天顺.一种混合的中文文本校对方法[J].中文信息学报,1998,12(2):31-36. 被引量：21
9张仰森,丁冰青.中文文本自动校对技术现状及展望[J].中文信息学报,1998,12(3):50-56. 被引量：14
10戴耿毅,佘静涛.基于双数组Trie树算法的字典改进和实现[J].软件导刊,2012,11(7):17-19. 被引量：3

共引文献6

1刘亮亮,曹存根.基于局部上下文特征的组合的中文真词错误自动校对研究[J].计算机科学,2016,43(12):30-35. 被引量：8
2叶俊民,徐松,罗达雄,王志锋,陈曙.一种中文真词错误检测与修复方法[J].计算机工程,2019,45(8):178-183. 被引量：3
3侯雨铃.中文文本汉语拼音自动产生系统设计方案[J].软件,2019,40(9):144-147.
4曹阳,曹存根,王石.基于Transformer网络的中文单字词检错方法研究[J].中文信息学报,2021,35(1):135-142. 被引量：5
5王辉,Marius Petrescu,潘俊辉,王浩畅,张强,张岩.面向油田领域的中文真词错误自动校对方法研究[J].计算技术与自动化,2021,40(1):140-143. 被引量：1
6汪苏琪,王明文,曾雪强.面向规范性文件的基于BERT的文本纠错模型[J].山西大学学报（自然科学版）,2022,45(2):257-263. 被引量：3

同被引文献46

1杜飞龙.自动校对渐入佳境[J].微电脑世界,2001(7):24-26. 被引量：1
2张建芬,邓晓群,沈志超.利用方正文易和Acrobat软件实现期刊论文校对[J].编辑学报,2004,16(3):189-189. 被引量：10
3张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
4易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
5陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
6李德华.利用方正小样与PDF文件的无缝对接实现远程校对[J].编辑学报,2008,20(6):545-546. 被引量：11
7郭充,张仰森.基于《知网》义原搭配的中文文本语义级自动查错研究[J].计算机工程与设计,2010,31(17):3924-3928. 被引量：12
8张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29
9熊水斌.基于方正书版2008和Foxit Reader的远程校对方法[J].中国科技期刊研究,2014,25(9):1149-1153. 被引量：4
10张仰森,唐安杰,张泽伟.面向政治新闻领域的中文文本校对方法研究[J].中文信息学报,2014,28(6):79-84. 被引量：10

引证文献3

1熊云惠.中文错别字规范化校准系统设计[J].新乡学院学报,2020,37(3):44-47. 被引量：1
2张芙蓉.中文文本自动校对技术研究综述[J].信息技术与信息化,2022(11):70-74.
3马东飞.新媒体环境下审校工作的思考和探索[J].新闻研究导刊,2023,14(12):119-121.

二级引证文献1

1侯伟立.翻译机器人英文文本自动查错系统设计[J].自动化与仪器仪表,2022(4):232-236. 被引量：2

1赵春华.浅析食品检测数据审核[J].食品安全导刊,2018,0(24):102-102. 被引量：1
2于宏.房屋建筑工程预结算审核内容及造价管理优化措施[J].环球市场,2018,0(6):90-90.
3张恒恒,黄敏.简述建筑工程造价预结算审核工作的要点[J].环球市场,2018,0(10):71-71.
4“济宁新闻”客户端正式上线开启媒体融合发展新征程[J].中国有线电视,2018(10):1215-1215. 被引量：1
5陈尚忠.紫牛现象值得关注[J].新闻战线,2018(8):104-104.
6王永刚.地市网站新闻内容生产的四个关键点[J].中国记者,2018,0(9):77-78.
7邱淑永.新媒体背景下高校校园文化建设创新性分析[J].湖北函授大学学报,2018,31(19):46-47. 被引量：2
8刘莲.浅析初中语文教学中导语设计的策略[J].新课程导学（下旬刊）,2018,0(7):44-44.
9刘金凤.日语接续词话语标记功能的多维度研究[J].佳木斯职业学院学报,2018,34(5):311-312. 被引量：1
10邝少辉,熊德意.训练语料的不同利用方式对神经机器翻译模型的影响[J].中文信息学报,2018,32(8):53-59. 被引量：4

信息技术与信息化

2018年第10期

浏览历史

内容加载中请稍等...

面向新媒体领域的错别字自动校对被引量：3

参考文献1

二级参考文献14

共引文献6

同被引文献46

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向新媒体领域的错别字自动校对 被引量：3

参考文献1

二级参考文献14

共引文献6

同被引文献46

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向新媒体领域的错别字自动校对被引量：3