-
题名基于多重索引模型的大规模词典近似匹配算法
被引量:5
- 1
-
-
作者
龚才春
黄玉兰
许洪波
白硕
-
机构
中国科学院计算技术研究所
北京市计算中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2008年第10期1776-1781,共6页
-
基金
国家“九七三”重点基础研究发展规划基金项目(2004CB318109,2007CB311100)
国家“八六三”高技术研究发展计划基金项目(2006AA010105,2007AA01Z416)~~
-
文摘
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度.
-
关键词
模式匹配
近似匹配
多重索引模型
大规模词典
拼写检查
-
Keywords
pattern matching
approximate matching
multiple indices scheme
large scale lexicon
spelling correction
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-