期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Simhash算法的海量文本相似性检测方法研究
被引量:
3
1
作者
任民山
蔡红霞
《计量与测试技术》
2018年第4期78-80,共3页
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对S...
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算。最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测。
展开更多
关键词
相似性计算
Simhash算法
tf
-
idf
技术
海明距离
指纹值
下载PDF
职称材料
基于分布式架构的海量文本快速相似度检测研究
2
作者
晋晓琳
张树武
刘杰
《中国传媒大学学报(自然科学版)》
2019年第1期39-44,共6页
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文...
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
展开更多
关键词
文本相似
Elasticsearch
tf
-
idf
Simhash
余弦相似度
下载PDF
职称材料
基于共词分析的文本主题词聚类与主题发现
被引量:
34
3
作者
王小华
徐宁
谌志群
《情报科学》
CSSCI
北大核心
2011年第11期1621-1624,共4页
文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法...
文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。
展开更多
关键词
共词分析
tf
-
idf
共词矩阵
Bisecting
K
-
MEANS
主题
原文传递
题名
基于Simhash算法的海量文本相似性检测方法研究
被引量:
3
1
作者
任民山
蔡红霞
机构
上海大学智能制造及机器人重点实验室
出处
《计量与测试技术》
2018年第4期78-80,共3页
文摘
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算。最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测。
关键词
相似性计算
Simhash算法
tf
-
idf
技术
海明距离
指纹值
Keywords
similarity calculation
Simhash algorithm
tf - idf technique
Hamming distance
fingerprint value
分类号
TB9 [机械工程—测试计量技术及仪器]
下载PDF
职称材料
题名
基于分布式架构的海量文本快速相似度检测研究
2
作者
晋晓琳
张树武
刘杰
机构
中国传媒大学信息工程学院
中国科学院自动化研究所数字内容技术与研究中心
北京电影学院未来影像高精尖创新中心
出处
《中国传媒大学学报(自然科学版)》
2019年第1期39-44,共6页
基金
国家重点研发计划资助(2017YFB1401000)
文摘
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
关键词
文本相似
Elasticsearch
tf
-
idf
Simhash
余弦相似度
Keywords
text similarity
Elasticsearch
tf
-
idf
Simhash
cosine similarity
分类号
N37 [自然科学总论]
下载PDF
职称材料
题名
基于共词分析的文本主题词聚类与主题发现
被引量:
34
3
作者
王小华
徐宁
谌志群
机构
杭州电子科技大学计算机应用技术研究所
出处
《情报科学》
CSSCI
北大核心
2011年第11期1621-1624,共4页
基金
浙江省自然科学基金资助项目(Y1100176)
文摘
文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。
关键词
共词分析
tf
-
idf
共词矩阵
Bisecting
K
-
MEANS
主题
Keywords
string
by filting the stop words and
tf
-
idf
keywords extraction
technique
next
we constructed the Co
-
word matrix.Last
we analysed keywords string in clustering through Bisecting K
-
means algorithm to find the theme.Experimental results show that this method is of hot subject extraction. Keywords:co
-
word analysis
tf
-
idf
co
-
word matrix
bisecting
k
-
means
theme
分类号
G350 [文化科学—情报学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于Simhash算法的海量文本相似性检测方法研究
任民山
蔡红霞
《计量与测试技术》
2018
3
下载PDF
职称材料
2
基于分布式架构的海量文本快速相似度检测研究
晋晓琳
张树武
刘杰
《中国传媒大学学报(自然科学版)》
2019
0
下载PDF
职称材料
3
基于共词分析的文本主题词聚类与主题发现
王小华
徐宁
谌志群
《情报科学》
CSSCI
北大核心
2011
34
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部