基于词二元接续的中文文本自动查错研究被引量：3

The Research of Chinese Text Automatic Error-Checking Method Based on the Neighboring Relations of Words

下载PDF

导出

摘要运用语料库语言学统计方法对中文文本自动查错的有关问题进行探讨 ,运用词二元接续关系进行查错 ,主要依据词二元同现概率、互信息、t -测试差 .其中 ,t-测试差是首次被应用于查错 . In this paper, the statistical methods of corpus linguistics are applied to solve the problem of checking. And when checking, the relations between words are considered. When the relations between words are concerned, the bi-gram co-occurrence probability, mutual information and the difference of t-test are considered.

作者王虹张仰森

机构地区贵州大学计算中心山西大学计算机科学系

出处《贵州大学学报（自然科学版）》 2001年第1期16-21,共6页 Journal of Guizhou University:Natural Sciences

关键词中文文本自动查错二元接续关系互信息 t-测试差 MARKOV模型二元同现概率 Chinese text automatic checking, neighborship, mutual information, the difference of t-test, Markov model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1于勐,姚天顺.一种混合的中文文本校对方法[J].中文信息学报,1998,12(2):31-36. 被引量：21
2张仰森丁冰青.中文文本自动校对中基于“捆绑＋过滤”的字词级查错系统研究与实践.1998中文信息处理国际会议论文集[M].北京:清华大学出版社,1998.392-397.
3孙才罗振声.汉语文本校对字词级查错处理的研究.第四届计算语言学会议论文集（语言工程）[M].北京:清华大学出版社,1997.319-324.
4刘挺,施洪滨,邵艳秋.中文计算机辅助校对系统原理[J].中文信息,1997,14(2):21-22. 被引量：6
5易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
6孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66

二级参考文献13

1Lai B Y，Proc of ROCLING-IV，1991年
2Zhang J S，Proc of ROCLING-IV，1991年
3王晓龙，科学通报，1989年，13页
4梁南元，中文信息学报，1987年，1期
5冯志伟，数理语言学，1985年
6陈志忠，计算机学报，1991年，14卷，2期
7刘开瑛，自然语言处理，1991年
8孙茂松，中文信息学报，1989年，3卷，4期
9慕勇，汉语文本自动查错与确认纠错系统的研究，1995年
10姚天顺，自然语言理解，1995年

共引文献95

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4张仰森,曹元大,徐波.基于统计的纠错建议给出算法及其实现[J].计算机工程,2004,30(11):106-109. 被引量：7
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8张仰森,曹元大,徐波.中文文本自动校错系统中知识库及其构造方法研究[J].小型微型计算机系统,2004,25(12):2237-2242. 被引量：3
9张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
10陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：6

同被引文献24

1靳光瑾,肖航,富丽,章云帆.现代汉语语料库建设及深加工[J].语言文字应用,2005(2):111-120. 被引量：46
2夏莹,常新功,马少平,朱小燕,金奕江.利用上下文相关信息的汉字文本识别[J].中文信息学报,1996,10(1):23-30. 被引量：7
3孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
4许伟,苑春法,黄昌宁.基于语料库的语言建模[J].清华大学学报（自然科学版）,1997,37(3):71-76. 被引量：7
5We Knew the Web Was Big[EB/OL].http://googleblog.blogspot.com/2008/07/we knewweb was big.html.
6Google Search API[EB/OL].http://code.google.com/apis/ajaxsearch/documentation/.
7Google Spell Checker Guide[EB/OL].http://www.googleguide.com/spelling_corrections.html.
8Kukich K.Techniques for automatically correcting words in text.ACM Computing Surveys,1992,24(4):377-438.
9Peterson James L.Computer programs for detecting and correcting spelling errors.Communications of the ACM,1980,23(12):676-687.
10Hisao N,Kazuhiro K,Yasuham S.Post processing for character recognition using keyword information//Proceedings of the IAPR Workshop on Machine Vision Applications.Tokyo,Japan,1992:7-9.

引证文献3

1颜建强,高新波.一种基于Google的OCR结果校对新方法[J].计算机学报,2014,37(6):1261-1267. 被引量：8
2张仰森,徐波,曹元大.自然语言处理中的语言模型及其比较研究[J].广西师范大学学报（自然科学版）,2003,21(A01):16-24. 被引量：11
3黄昕凯,罗梓汛,徐鹏.基于自然语言处理的商品评论分析系统设计[J].信息与电脑,2022,34(16):163-165.

二级引证文献19

1努尔比亚.吐拉甫,于洪志.基于短语的数字、时间维汉翻译规则建设[J].生物技术世界,2012(2):92-93.
2向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：36
3窦家维,李顺东.一种新的语言信息计算模型[J].小型微型计算机系统,2005,26(10):1850-1853. 被引量：1
4马晖男,吴江宁,潘东华.信息检索中修饰语作用的研究[J].情报学报,2006,25(3):306-311. 被引量：1
5马晖男,吴江宁,潘东华.一种修正的向量空间模型在信息检索中的应用[J].哈尔滨工业大学学报,2008,40(4):666-669. 被引量：6
6那日萨,刘影,李媛.消费者网络评论的情感模糊计算与产品推荐研究[J].广西师范大学学报（自然科学版）,2010,28(1):143-146. 被引量：6
7许威,赵克,李亚涛,亿珍珍.基于事件模型的省略恢复研究[J].郑州大学学报（理学版）,2011,43(2):32-37.
8冯胜保.亟需以纳米技术促产业升级[J].科技信息（山东）,2000,0(10):16-17.
9惠益龙,张太红,吕莲花,王蓓蓓.语音识别中的统计语言模型研究[J].信息技术,2017,41(1):44-46. 被引量：2
10谢宏伟,李兵,王化民,李惊鸿,张玉峰,谷丰强,马静雅.电力时间同步监测管理系统的研究与应用[J].电力信息与通信技术,2017,15(4):76-81. 被引量：4

1王虹,张仰森.基于词性预测的中文文本自动查错研究[J].贵州师范大学学报（自然科学版）,2001,19(2):72-75. 被引量：4
2张仰森,丁冰青.基于二元接续关系检查的字词级自动查错方法[J].中文信息学报,2001,15(3):36-43. 被引量：29
3黄鑫,朱征宇,谢祈鸿.基于新统计量mt的汉语自动分词方法研究[J].微处理机,2008,29(1):107-110.
4张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33
5刘芳,关白.现代藏文中词的自动校对方法研究[J].电脑知识与技术,2016,0(7):200-201. 被引量：6
6吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.基于词间关联度度量的维吾尔文本自动切分方法[J].北京大学学报（自然科学版）,2016,52(1):155-164. 被引量：2
7黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
8王思力,王斌.基于双字耦合度的中文分词交叉歧义处理方法[J].中文信息学报,2007,21(5):14-17. 被引量：17
9孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
10吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.维吾尔文无监督自动切分及无监督特征选择[J].模式识别与人工智能,2013,26(9):845-852. 被引量：3

贵州大学学报（自然科学版）

2001年第1期

浏览历史

内容加载中请稍等...

基于词二元接续的中文文本自动查错研究被引量：3

参考文献6

二级参考文献13

共引文献95

同被引文献24

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于词二元接续的中文文本自动查错研究 被引量：3

参考文献6

二级参考文献13

共引文献95

同被引文献24

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于词二元接续的中文文本自动查错研究被引量：3