一种支持混合语言的并行查询纠错方法被引量：1

Aparallel Query Correction Method for Mixed Language

下载PDF

导出

摘要中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型中使用的训练语料库是从用户查询日志、网页点击日志、网页链接信息等文件中提取的高质量文本。实验表明,与单向查询纠错相比,支持混合语言的并行纠错方法在准确率上提升了9%,召回率降低了3%,在速度上提升了40%左右。 Query in Chinese information retrieval system often contains Chinese,Chinese phonetic alphabet and English etc.Existing method can not solve the issue of mixed language and long Chinese query.In order to solve these problems,we propose a parallel query correction method for mixed language.The method establishes language model with mixed language and built the heterogeneous character dictionary tree according to the corresponding edit rules to process the query words.For the long Chinese query,we put forward spell correction model of two-way parallel.For paralle processing,we put forward the concept of reverse character dictionary tree and reverse language model.The training corpus used in the model is extracted from the user query log,click log,web links and other information.Experiment shows that the parallel query correction method for mixed language increases the accuracy by 9%,reduces the recall by 3%,and,especially,speeds up the processing by 40% compared to single pass query correction.

作者颛悦熊锦华马宏远程舒杨程学旗

机构地区中国科学院计算技术研究所中国科学院大学国家计算机网络应急技术处理协调中心

出处《中文信息学报》 CSCD 北大核心 2016年第2期99-106,共8页 Journal of Chinese Information Processing

基金国家重点基础研究发展规划(973计划)项目(2014CB340406 2012CB316303 2013CB329602) 国家自然科学基金(61173064 61300206) 国家科技支撑计划项目(2015BAK20B03) 国家科技支撑计划课题(2011BAH11B02) 国家242专项(2013G129) 国家科技支撑专项(2012BAH46B04)

关键词查询纠错词典树语言模型并行纠错 spell correction dictionary tree language module parallel spell check

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23

二级参考文献10

1施得胜等.基于统计的中文错字侦测法[J].电脑与通讯,1992,(8).
2Zhang Zhaohuang. A Pilot Study on Automatic Chinese Spelling Error Correction. Communication of COLIPS,1994,4(2): 143 - 149
3Lei Zhang, Ming Zhou, Changning Huang, etc. Multifeature- based approach to automatic error detection and correction of Chinese text. In Proc. Workshop NLPRS'99, Beijing. 1999.
4Sun Cai. Research on Lexical Error Detection and Correction of Chinese Text: [Master's Degree Dissertation]. Beijing: Tsinghua University Computer Science and Technology Department, 1997
5Golding A R. A Bayesian hybrid method for context - sensitive spelling correction. In: Proc. 3rd Workshop on Very Large Corpora, Boston, MA: 1995
6Golding A R, Dan R. Applying Winnow to context- sensitive spelling correction. In: Proc. the 13th ICML,Bari, Italy: 1996
7Yarowsky D. Decision list for lexical ambiguity resolution: Application to accent restoration in Spanish and French. In: Proc. 32nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, NM:1994
8Karen Kukich. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24 (4):377-439
9Chi-Hong Leung, Wing - Kay Kan. Difficulties in Chinese typing error detection and ways to the solution.Computer Processing of Oriental Languages. 1996, 10(1) :97-113
10Slava M Katz. Estimation of probabilities from sparse data for the language model component of a speech recognizer. IEEE transactions on ASSP. 1987, 35(3) :400-401

共引文献22

1陈笑蓉,秦进.特征和语言模型结合的中文文本查错[J].计算机应用,2004,24(B12):259-261. 被引量：1
2陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
3张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
4张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
5许庆欣.词汇语法拼写校对软件——功能语法的应用实例[J].天津外国语学院学报,2007,14(2):49-54.
6张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4
7陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
8王永景,刘功申,李生红,荆涛.用于文本校对的分词与词性标注一体化算法[J].计算机技术与发展,2008,18(8):1-3. 被引量：1
9李斌,姚建民,朱巧明.英文作文的自动拼写检查研究[J].郑州大学学报（理学版）,2008,40(3):48-51. 被引量：5
10伊力亚尔.基于2-gram语言模型的哈萨克文语料库校对研究[J].伊犁师范学院学报（自然科学版）,2010,4(3):50-53. 被引量：1

同被引文献10

1袁庆升,张冬明,靳国庆,刘菲,包秀国.视频检索中图像信息量度量[J].通信学报,2016,37(2):80-87. 被引量：4
2钟艳如,梁毅芳,许本胜,曾聪文,卢宏成,吴帆,赵争君.基于网络本体语言的三维计算机辅助设计主模型相似性计算方法[J].计算机应用,2016,36(6):1599-1604. 被引量：5
3苏依拉,窦保媛,吉亚图.基于本体的蒙古语灾害信息检索模型[J].北京工业大学学报,2016,42(7):1017-1023. 被引量：4
4司莉,张孝天.多语言知识组织系统的互操作项目调查及研究[J].情报科学,2016,34(9):3-6. 被引量：5
5鲍玉来,白淑霞,飞龙,王炜华.汉蒙跨语言检索系统设计与实现[J].情报理论与实践,2017,40(4):128-132. 被引量：5
6黄名选.基于加权关联模式挖掘的越英跨语言查询扩展[J].情报学报,2017,36(3):307-318. 被引量：12
7刘媛.音乐库中检索特征音调歌曲智能识别仿真[J].计算机仿真,2017,34(8):356-359. 被引量：7
8韩朝,苗夺谦,任福继,张红云.基于粗糙集知识发现的开放领域中文问答检索[J].计算机研究与发展,2018,55(5):958-967. 被引量：7
9肖宝,李璞,蒋运承.混合词汇特征和LDA的语义相关度计算方法[J].计算机工程与应用,2017,53(12):152-157. 被引量：5
10查延麟.多移动机器人系统协调控制算法设计[J].电子设计工程,2018,26(24):23-26. 被引量：3

引证文献1

1蒲巧.双向交互机器人的语言自动生成仿真[J].计算机仿真,2019,36(4):310-314. 被引量：4

二级引证文献4

1王捍天.基于PID控制的机器人轨迹跟踪性能研究与比较[J].电子元器件与信息技术,2019,0(6):44-47. 被引量：16
2齐帅,潘克刚,齐宝峰,王欣婷,苏耀丁.交互机器人技术与发展[J].通信技术,2020,53(6):1449-1453. 被引量：2
3吴石松,林志达.基于seq2 seq和Attention模型的聊天机器人对话生成机制研究[J].自动化与仪器仪表,2020(7):186-189. 被引量：4
4李玮佳.割草智能机器人英语语言理解系统的设计与研究[J].农机化研究,2022,44(7):215-218. 被引量：1

1余军.一种高速数据传输中的软硬件解决方法[J].工业控制计算机,2002,15(5):26-29. 被引量：1
2苟建兵,倪维斗.基于DLL的混合语言编程[J].软件产业,1996(9):12-15. 被引量：2
3朱大勇,许毅,冯山.Java和Lisp接口问题的研究[J].计算机应用,2003,23(4):84-85.
4朱培民,屠万生.Fortran和Pascal语言的混合编程方法[J].计算机应用与软件,2002,19(1):25-28.
5HAYS.,R,邵惠玲.一种用于构造分布式混合语言的简单系统[J].软件,1989,10(1):38-53.
6宋志宏.用C和FORTRAN开发Windows应用软件的基本方法[J].微小型计算机开发与应用,1998(5):13-16.
7谢壮宁.Microsoft　FORTRAN的鼠标编程方法[J].计算机应用研究,1995,12(6):52-55.
8董斌,熊刚,邵惠鹤.用混合编程技术实现可固化在EPROM中的控制软件[J].自动化仪表,1997,18(6):11-13.
9冯山,朱大勇,许毅.C#和Lisp编程接口问题研究[J].电讯技术,2003,43(3):126-128.
10赵健,王国兴.PC机与8031单片机的并行数据传输与控制[J].黑龙江电子技术,1999(8):24-27.

中文信息学报

2016年第2期

浏览历史

内容加载中请稍等...

一种支持混合语言的并行查询纠错方法被引量：1

参考文献1

二级参考文献10

共引文献22

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种支持混合语言的并行查询纠错方法 被引量：1

参考文献1

二级参考文献10

共引文献22

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种支持混合语言的并行查询纠错方法被引量：1