期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于分布式架构的海量文本快速相似度检测研究
1
作者
晋晓琳
张树武
刘杰
《中国传媒大学学报(自然科学版)》
2019年第1期39-44,共6页
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文...
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
展开更多
关键词
文本相似
Elasticsearch
TF
-
IDF
Simhash
余弦相似度
下载PDF
职称材料
题名
基于分布式架构的海量文本快速相似度检测研究
1
作者
晋晓琳
张树武
刘杰
机构
中国
传媒大学信息工程
学院
中国科学院自动化研究所数字内容技术与研究中心
北京电影
学院
未来影像高精尖创新
中心
出处
《中国传媒大学学报(自然科学版)》
2019年第1期39-44,共6页
基金
国家重点研发计划资助(2017YFB1401000)
文摘
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
关键词
文本相似
Elasticsearch
TF
-
IDF
Simhash
余弦相似度
Keywords
text similarity
Elasticsearch
TF-IDF
Simhash
cosine similarity
分类号
N37 [自然科学总论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于分布式架构的海量文本快速相似度检测研究
晋晓琳
张树武
刘杰
《中国传媒大学学报(自然科学版)》
2019
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部