期刊文献+

基于N-gram的哈萨克语文本校对系统的设计与实现 被引量:4

STUDY AND IMPLEMENTATION OF KAZAKH TEXT PROOFREADING SYSTEM BASED ON N-GRAM
下载PDF
导出
摘要 在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词。在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议。实验结果表明,系统的查错与纠错效率较好,实验方案是可行的。 For the section of non-word errors checking in Kazakh text,on the basis of summarising and concluding the errors checking methods and supported by a certain size Kazakh lexicon,in the article we use the characteristics of Kazakh and the stem segmentation program and syllable rules of Kazakh language to find the non-word errors from the text,and then provide the most possible candidate word with minimum edit distance algorithm.In the section of real-word error checking in Kazakh text,according to context information and adopting N-gram based language model,we carry out real-word error checking by using ternary grammar model of local connection co-occurrence probability of the text,and then use the edit distance-based pattern matching method to provide error-correction suggestions to the errors of real words.Experimental results show that efficiency of error checking and error correction of this system is fairly good,the experiment scheme is feasible.
出处 《计算机应用与软件》 CSCD 北大核心 2012年第4期9-12,15,共5页 Computer Applications and Software
基金 国家自然科学基金项目(60763005) 国家教育部 国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)
关键词 文本自动校对 哈萨克语 最小编辑距离 N元语法 模式匹配 Automatic text proofreading Kazakh language Minimum edit distance algorithm N-gram Pattern matching
  • 相关文献

参考文献7

二级参考文献30

  • 1张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量:7
  • 2张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量:23
  • 3罗振声,郑碧霞.汉语句型自动分析和分布统计算法与策略的研究[J].中文信息学报,1994,8(2):1-19. 被引量:20
  • 4周强.汉语语料库的短语自动划分和标注研究[M].北京:北京大学,1996..
  • 5李秀坤.汉字文本自动查错系统的研究与实现[M].哈尔滨:哈尔滨工业大学计算机系,1995..
  • 6JohnE Swanke.Visual Basic 6编程技术大全[M].北京:清华大学出版社,1999..
  • 7康博创作室.Microsoft SQL Server 7.0[M].北京:人民邮电出版社,1999..
  • 8.维吾尔语拼写与发音大辞典[M].乌鲁木齐:新疆人民出版社,1997..
  • 9陈适良.现代维吾尔语语法[M].乌鲁木齐:新疆人民出版社,1996..
  • 10海米体.现代维吾尔语语法(词汇学)[M].北京:民族出版社,1987..

共引文献77

同被引文献36

引证文献4

二级引证文献18

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部