期刊文献+

基于搜索引擎日志的中文纠错方法研究 被引量:4

Research on Chinese Error Correction Method Based on Search Engine Log
下载PDF
导出
摘要 针对用户使用搜索引擎输入关键词查询信息时,由于输入法的原因或者不小心输入错误关键词等,致使搜索结果不符合用户预期的问题,提出基于搜索引擎日志的中文纠错方法。首先对用户网络日志展开研究,对数据进行预处理,将用户常见错误分为两大类:一类为拼音引起的错误,针对该类错误,参考并改进了基于拼音索引的中文模糊匹配算法进行纠错;另一类为多字、少字、异位及别字引起的错误,针对该类错误,设计了模糊匹配方法结合最小编辑距离方法进行纠错。经过实验验证,证明了该纠错方法的有效性,该方法能够一定程度上提升用户体验,满足实际工程需要。 When a user uses a search engine to input keyword query information,the search result fail to meet the user’s expected que⁃ry due to input method or carelessness.This paper proposes a Chinese error correction method based on search engine logs.This paper firstly studies the users’weblog,preprocesses the data,and classifies the common errors of users into two categories.One type is the errors caused by Pinyin.For this kind of errors,this paper refers to and improves the Chinese fuzzy matching algorithm based on pinyin index for error correction.The other type is the error caused by multi-word,missing word,ectopic and other words.For this class,the fuzzy matching method is designed with the minimum editing distance for error correction.After experimental verification,the effective⁃ness of the error correction method proposed in this paper is demonstrated,which proves the method can improve the user experience to a certain extent and meet the needs of practical engineering.
作者 杨苏稳 张晓如 YANG Su-wen;ZHANG Xiao-ru(College of Computer,Jiangsu University of Science and Technology,Zhenjiang 212003,China)
出处 《软件导刊》 2020年第6期182-187,共6页 Software Guide
基金 国家自然科学基金项目(61371114,611170165) 江苏高校高技术船舶协同创新中心/江苏科技大学海洋装备研究院项目(1174871701-9)。
关键词 搜索引擎日志 中文纠错 模糊匹配 最小编辑距离 search engine log Chinese error correction fuzzy matching minimum editing distance
  • 相关文献

参考文献9

二级参考文献76

共引文献56

同被引文献35

引证文献4

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部