-
题名融合BabelNet的多语言智能信息检索模型
被引量:8
- 1
-
-
作者
于再富
袁满
-
机构
东北石油大学计算机与信息技术学院
-
出处
《吉林大学学报(信息科学版)》
CAS
2020年第1期99-106,共8页
-
基金
黑龙江省哲学社会科学规划研究基金资助项目(19ED334)
黑龙江省教育厅国家培育基金资助项目(2017PYYL-06)
东北石油大学研究生创新科研基金资助项目(JYCX_CX07_2018_2).
-
文摘
传统的跨语言信息检索存在翻译映射准确度低和查询扩展后语义偏离等问题。为此提出结合统计学和本体论的方法构建多语言信息检索模型,通过使用统计翻译解决翻译映射歧义问题,使用多本体Babel Net等减少语义关联度损失。由于本体包含大量概念联系,因此使用本体作为语义层表示设计了语义权重算法,并将其构建在BM25F统计信息检索模型上作为用户反馈的排序算法。最后根据建立的模型设计实现了多语言信息检索原型系统,并用基于爬虫技术获取的数据测试集对模型进行测试,实验结果表明,该模型平均查准率高于传统的基于机器翻译的信息检索模型。
-
关键词
BABEL
Net知识资源库
多语言信息检索
排序算法
语义关联度
-
Keywords
BabelNet
multi-language information retrieval
sorting algorithm
semantic relevance
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的SNM中文语义重复记录检测算法
被引量:5
- 2
-
-
作者
袁满
穆永豪
王贵友
于再富
-
机构
东北石油大学计算机与信息技术学院
黑龙江省大庆市第十采油厂肇东分公司信息中心
-
出处
《吉林大学学报(信息科学版)》
CAS
2021年第3期348-356,共9页
-
基金
黑龙江省哲学社会科学研究规划基金资助项目(19EDE334)。
-
文摘
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。
-
关键词
相似重复记录
SNM算法
中文分词
-
Keywords
similar duplicate records
sorted-neighborhood method(SNM)algorithm
chinese word segmentation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-