基于2-gram语言模型的哈萨克文语料库校对研究被引量：1

Kazakh Corpus Proofreading Research Based on 2-gram Language Model

下载PDF

导出

摘要研究了带有位置信息的2-garm音节模型,根据音节切分后前后音节的位置信息和同现概率来判断非词错误,再根据最短编辑距离和viterbi算法来提供候选词.根据2元单词模型,对输入文本以句子为单位,从判断前后2元单词的同现概率来判断真词错误,并提供候选词. In this paper,it is studying 2-gram syllable model with position information,according to the syllable before and after position information,after syllable segmentation and together present probability to judge non-word errors,then using minimum edit distance algorithm and viterbi algorithm to offer candidate words. Dividing input texts into sentences based on 2-gram word model,so as to judge real word errors by together present probability of 2-gram words before and after,also offering candidate words.

作者伊力亚尔

机构地区伊犁师范学院计算机科学系

出处《伊犁师范学院学报（自然科学版）》 2010年第3期50-53,共4页 Journal of Yili Normal University：Natural Science Edition

关键词语料库 2-gram模型音节切分 VITERBI算法 corpus 2-gram model syllable segmentation viterbi algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
2骆卫华,罗振声,宫小瑾.中文文本自动校对技术的研究[J].计算机研究与发展,2004,41(1):244-249. 被引量：21
3张仰森,丁冰青.中文文本自动校对技术现状及展望[J].中文信息学报,1998,12(3):50-56. 被引量：14
4张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
5哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与开发[J].计算机学报,2004,27(11):1480-1484. 被引量：35
6K. Kukich. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys, 1992, 24 (4) : 377-439.
7Daniel Jurafsky,James H.Martin.自然语言处理综论[M].北京:电子工业出版社,2005.
8Damerau. F. J. A technique for computer detection and correction of spelling errors[J]. Communications oftheACM, 1964, 7 (3) : 171-176.
9张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
10张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29

二级参考文献43

1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
3赵明.手写印刷体汉字识别方法综述[J].计算机研究与发展,1993,30(4):59-64. 被引量：14
4许嘉璐.中文信息处理技术现状及相关语言文字研究[J].软件世界,1996(4):13-16. 被引量：3
5文韬.校对人员的好帮手——方正金山中文校对系统VCorrect试用报告[J].中国计算机用户,1996(10):23-25. 被引量：1
6.知网及其说明文档..http://www.keenage.com(Hownet and its specifications. 2001. http://www.keenage.com).,2001.
7黄昌宁，语言文字应用，1997年，1期
8郭繁夏，电子与电脑，1996年，3期，28页
9易蓉湘，计算机研究与发展，1996年，34卷，5期
10慕勇，计算语言学研究与进展，1995年

共引文献126

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
3张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
4马金山,张宇,刘挺,李生.利用三元模型及依存分析查找中文文本错误[J].情报学报,2004,23(6):723-728. 被引量：7
5陈笑蓉,秦进.特征和语言模型结合的中文文本查错[J].计算机应用,2004,24(B12):259-261. 被引量：1
6陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：6
7梁志建,徐广生,方宇彤.科学期刊编辑工作流程再造探索及实践[J].编辑学报,2005,17(2):94-96. 被引量：10
8李成城,白涛,赵述芳,钟义信.基于OCR的纵向文字校对的研究与实现[J].计算机应用研究,2006,23(4):234-236. 被引量：1
9张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
10张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33

同被引文献1

1冯鲸华,古丽拉.阿东别克,玛依来.哈帕尔.基于N-gram语言模型的哈萨克文机构名识别[J].计算机工程与应用,2010,46(31):135-138. 被引量：2

引证文献1

1达吾勒.阿布都哈依尔,努尔买买提.尤鲁瓦斯,刘艳.面向哈萨克语LVCSR的语言模型构建方法研究[J].计算机工程与应用,2016,52(24):178-181. 被引量：1

二级引证文献1

1孙晓杰.基于N-gram模型的哈萨克语语音识别及处理技术研究[J].信息记录材料,2018,19(9):97-99. 被引量：1

1恒超.拼音输入法从入门到精通——紫光华宇拼音v6全程图解教程(续)[J].电脑爱好者（普及版）,2008,0(3):34-37.
2汤霖,黄建中,尹俊勋.基于语音知识的音节切分[J].中文信息学报,2010,24(4):91-95. 被引量：4
3陈军.微软拼音输入法2003技巧图解[J].电脑爱好者,2006,0(21):59-59.
4刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.
5刘政怡,吴建国,刘慧婷.音节切分歧义方法研究[J].计算机技术与发展,2008,18(8):35-38. 被引量：1
6王永生,柴佩琪,曾令平.英语语音合成中基于约束树的音节切分算法[J].微型电脑应用,2005,21(11):15-20.
7赵世瑜,线岩团,郭剑毅,余正涛,洪玄贵,王红斌.基于条件随机场的泰语音节切分方法[J].计算机科学,2016,43(3):54-56. 被引量：2
8刘长松,丁晓青.利用字形风格约束的字符识别研究[J].自动化学报,2007,33(11):1121-1127. 被引量：2
9张扬,赵晓群,王缔罡.基于音节时间长度高斯拟合的汉语音节切分方法[J].计算机应用,2016,36(5):1410-1414. 被引量：5
10张扬,赵晓群,王缔罡.基于时频二维能量特征的汉语音节切分方法[J].计算机应用,2016,36(11):3222-3228. 被引量：5

伊犁师范学院学报（自然科学版）

2010年第3期

浏览历史

内容加载中请稍等...

基于2-gram语言模型的哈萨克文语料库校对研究被引量：1

参考文献10

二级参考文献43

共引文献126

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于2-gram语言模型的哈萨克文语料库校对研究 被引量：1

参考文献10

二级参考文献43

共引文献126

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于2-gram语言模型的哈萨克文语料库校对研究被引量：1