-
题名基于搜索引擎日志的中文纠错方法研究
被引量:4
- 1
-
-
作者
杨苏稳
张晓如
-
机构
江苏科技大学计算机学院
-
出处
《软件导刊》
2020年第6期182-187,共6页
-
基金
国家自然科学基金项目(61371114,611170165)
江苏高校高技术船舶协同创新中心/江苏科技大学海洋装备研究院项目(1174871701-9)。
-
文摘
针对用户使用搜索引擎输入关键词查询信息时,由于输入法的原因或者不小心输入错误关键词等,致使搜索结果不符合用户预期的问题,提出基于搜索引擎日志的中文纠错方法。首先对用户网络日志展开研究,对数据进行预处理,将用户常见错误分为两大类:一类为拼音引起的错误,针对该类错误,参考并改进了基于拼音索引的中文模糊匹配算法进行纠错;另一类为多字、少字、异位及别字引起的错误,针对该类错误,设计了模糊匹配方法结合最小编辑距离方法进行纠错。经过实验验证,证明了该纠错方法的有效性,该方法能够一定程度上提升用户体验,满足实际工程需要。
-
关键词
搜索引擎日志
中文纠错
模糊匹配
最小编辑距离
-
Keywords
search engine log
Chinese error correction
fuzzy matching
minimum editing distance
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-