基于N-gram的哈萨克语文本校对系统的设计与实现被引量：4

STUDY AND IMPLEMENTATION OF KAZAKH TEXT PROOFREADING SYSTEM BASED ON N-GRAM

下载PDF

导出

摘要在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词。在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议。实验结果表明,系统的查错与纠错效率较好,实验方案是可行的。 For the section of non-word errors checking in Kazakh text,on the basis of summarising and concluding the errors checking methods and supported by a certain size Kazakh lexicon,in the article we use the characteristics of Kazakh and the stem segmentation program and syllable rules of Kazakh language to find the non-word errors from the text,and then provide the most possible candidate word with minimum edit distance algorithm.In the section of real-word error checking in Kazakh text,according to context information and adopting N-gram based language model,we carry out real-word error checking by using ternary grammar model of local connection co-occurrence probability of the text,and then use the edit distance-based pattern matching method to provide error-correction suggestions to the errors of real words.Experimental results show that efficiency of error checking and error correction of this system is fairly good,the experiment scheme is feasible.

作者玛依来.哈帕尔古丽拉.阿东别克

机构地区新疆大学信息科学与工程学院

出处《计算机应用与软件》 CSCD 北大核心 2012年第4期9-12,15,共5页 Computer Applications and Software

基金国家自然科学基金项目(60763005) 国家教育部国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)

关键词文本自动校对哈萨克语最小编辑距离 N元语法模式匹配 Automatic text proofreading Kazakh language Minimum edit distance algorithm N-gram Pattern matching

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
2Kukich K. Techniques for Automatically Correcting Words in Text[J].ACM Computing Surveys,1992,(04):377-439.
3Daniel Jurafsky;James H Matin;冯志伟;孙乐.自然语言处理综论[M]北京:电子工业出版社,2005116-117.
4张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29
5龚小谨,罗振声,骆卫华.中文文本自动校对中的语法错误检查[J].计算机工程与应用,2003,39(8):98-100. 被引量：13
6吴岩,李秀坤,刘挺,王开铸.中文自动校对系统的研究与实现[J].哈尔滨工业大学学报,2001,33(1):60-64. 被引量：12
7米吉提.阿布力米提,库尔班.吾布力.在多文种环境下的维吾尔语文字校对系统的开发研究[J].系统工程理论与实践,2003,23(5):117-124. 被引量：14

二级参考文献30

1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
3罗振声,郑碧霞.汉语句型自动分析和分布统计算法与策略的研究[J].中文信息学报,1994,8(2):1-19. 被引量：20
4周强.汉语语料库的短语自动划分和标注研究[M].北京：北京大学,1996..
5李秀坤.汉字文本自动查错系统的研究与实现[M].哈尔滨：哈尔滨工业大学计算机系,1995..
6JohnE Swanke.Visual Basic 6编程技术大全[M].北京：清华大学出版社,1999..
7康博创作室.Microsoft SQL Server 7.0[M].北京:人民邮电出版社,1999..
8.维吾尔语拼写与发音大辞典[M].乌鲁木齐:新疆人民出版社,1997..
9陈适良.现代维吾尔语语法[M].乌鲁木齐:新疆人民出版社,1996..
10海米体.现代维吾尔语语法(词汇学)[M].北京:民族出版社,1987..

共引文献77

1王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：27
2华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
3赵艳红,费洪晓.一个基于改进的反序分词词典的中文分词算法[J].深圳职业技术学院学报,2004,3(4):28-31. 被引量：2
4马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728. 被引量：7
5张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
6张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
7牛洪梅,吐尔根,伊不拉音.维吾尔语的词性标注校对初探[J].微型电脑应用,2006,22(12):45-47. 被引量：1
8罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
9玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
10陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3

同被引文献36

1江荻,董颖红.藏字叠加结构线性处理统计分析[J].中文信息,1994,11(4):44-46. 被引量：11
2张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
3张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
4达吾勒.阿布都哈依尔,古丽拉.阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008,44(19):146-149. 被引量：16
5才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
6多杰卓玛.N元模型在藏文文本局部查错中的应用研究[J].计算机工程与科学,2009,31(4):117-119. 被引量：18
7陈智鹏,吕玉琴,刘华生,刘刚,屠辉.基于N-gram统计模型的搜索引擎中文纠错[J].中国电子科学研究院学报,2009,4(3):323-326. 被引量：7
8刘文香.藏文音节校对模型建设研究[J].西北民族大学学报（自然科学版）,2009,30(2):13-16. 被引量：5
9刘文香.藏文文本词校对模型研究[J].西藏大学学报（社会科学版）,2009,24(5):70-74. 被引量：10
10王花,古丽拉.阿东别克.基于语料的哈萨克语词频统计研究[J].计算机工程,2010,36(24):59-61. 被引量：6

引证文献4

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2才智杰,孙茂松,才让卓玛.一种基于向量模型的藏文字拼写检查方法[J].中文信息学报,2018,32(9):47-55. 被引量：11
3吾兰.努鲁别克,热木土拉.麦麦提,艾斯卡尔.艾木都拉.基于N-gram模型的哈萨克词干提取方法[J].电脑知识与技术,2017,13(4X):160-162. 被引量：3
4郭舒言.基于深度学习的FPL报文航路纠错研究[J].现代计算机,2021,27(14):42-46. 被引量：2

二级引证文献18

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3
3孙晓杰.基于N-gram模型的哈萨克语语音识别及处理技术研究[J].信息记录材料,2018,19(9):97-99. 被引量：1
4冷本杰,高定国.藏文数词自动检错研究[J].电子技术与软件工程,2019,0(21):244-246.
5古丽尼格尔·阿不都外力,买合木提·买买提,吐尔根·依布拉音,早克热·卡德尔,西热艾力·海如拉,王路路.字符序列标注的维吾尔语词干提取方法[J].现代电子技术,2020,43(12):151-154. 被引量：5
6色差甲,慈祯嘉措,才让加,华果才让.基于神经网络的藏文正字检错法[J].中文信息学报,2020,34(12):48-53. 被引量：2
7华果才让,班玛宝,桑杰端珠,才让加.面向汉藏机器翻译后处理的藏文虚词纠错模型[J].计算机仿真,2021,38(12):391-396. 被引量：3
8三毛措,才智杰,才让卓玛,道吉扎西,华旦扎西.藏文文本拼写错误类型分析[J].西北民族大学学报（自然科学版）,2022,43(1):26-31. 被引量：2
9完么扎西,尼玛扎西.基于规则与统计相结合的藏文文本自动查错方法研究[J].中文信息学报,2022,36(2):69-75. 被引量：2
10杨冰.基于深度学习的英语短语译文智能校对系统[J].自动化与仪器仪表,2022(8):185-188. 被引量：1

1麦合甫热提,艾山.吾买尔,麦热哈巴.艾力,吐尔根.伊布拉音,张健.基于词典和统计相结合的维吾尔语拼写检查方法[J].中文信息学报,2014,28(2):66-71. 被引量：2
2仁青吉,安见才让.藏语语言模型的研究[J].信息与电脑（理论版）,2015(6). 被引量：1
3郝莉,敖登巴拉,巩政,图雅.基于贝叶斯算法的蒙古文文本自动校对研究[J].内蒙古大学学报（自然科学版）,2010,41(4):440-442. 被引量：4
4谢春发.中文智能搜索引擎的探讨[J].福建广播电视大学学报,2005(5):61-63. 被引量：1
5谢春发.中文智能搜索引擎的研究与探讨[J].河北广播电视大学学报,2005,10(4):17-19. 被引量：2
6玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
7潘昊,颜军.基于中文分词的文本自动校对算法[J].武汉理工大学学报,2009,31(3):18-20. 被引量：4
8郑南宁,王龙,胡超,刘健勤.BP神经网络的改进及其用于手写数字识别的研究[J].西安交通大学学报,1992,26(1):1-12. 被引量：14
9魏欧,吴健,孙玉芳,sonata.iscas.ac.cn.基于统计的汉语词性标注方法的分析与改进[J].软件学报,2000,11(4):473-480. 被引量：31
10刘亮亮,王石,王东升,汪平仄,曹存根.领域问答系统中的文本错误自动发现方法[J].中文信息学报,2013,27(3):77-83. 被引量：19

计算机应用与软件

2012年第4期

浏览历史

内容加载中请稍等...

基于N-gram的哈萨克语文本校对系统的设计与实现被引量：4

参考文献7

二级参考文献30

共引文献77

同被引文献36

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于N-gram的哈萨克语文本校对系统的设计与实现 被引量：4

参考文献7

二级参考文献30

共引文献77

同被引文献36

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于N-gram的哈萨克语文本校对系统的设计与实现被引量：4