期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
融合BabelNet的多语言智能信息检索模型 被引量:8
1
作者 于再富 袁满 《吉林大学学报(信息科学版)》 CAS 2020年第1期99-106,共8页
传统的跨语言信息检索存在翻译映射准确度低和查询扩展后语义偏离等问题。为此提出结合统计学和本体论的方法构建多语言信息检索模型,通过使用统计翻译解决翻译映射歧义问题,使用多本体Babel Net等减少语义关联度损失。由于本体包含大... 传统的跨语言信息检索存在翻译映射准确度低和查询扩展后语义偏离等问题。为此提出结合统计学和本体论的方法构建多语言信息检索模型,通过使用统计翻译解决翻译映射歧义问题,使用多本体Babel Net等减少语义关联度损失。由于本体包含大量概念联系,因此使用本体作为语义层表示设计了语义权重算法,并将其构建在BM25F统计信息检索模型上作为用户反馈的排序算法。最后根据建立的模型设计实现了多语言信息检索原型系统,并用基于爬虫技术获取的数据测试集对模型进行测试,实验结果表明,该模型平均查准率高于传统的基于机器翻译的信息检索模型。 展开更多
关键词 BABEL Net知识资源库 多语言信息检索 排序算法 语义关联度
下载PDF
改进的SNM中文语义重复记录检测算法 被引量:5
2
作者 袁满 穆永豪 +1 位作者 王贵友 于再富 《吉林大学学报(信息科学版)》 CAS 2021年第3期348-356,共9页
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji... 为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。 展开更多
关键词 相似重复记录 SNM算法 中文分词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部