期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
改进的SNM中文语义重复记录检测算法 被引量:5
1
作者 袁满 穆永豪 +1 位作者 王贵友 于再富 《吉林大学学报(信息科学版)》 CAS 2021年第3期348-356,共9页
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji... 为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。 展开更多
关键词 相似重复记录 SNM算法 中文分词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部