期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Simhash算法的海量文本相似性检测方法研究 被引量:3
1
作者 任民山 蔡红霞 《计量与测试技术》 2018年第4期78-80,共3页
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对S... 为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算。最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测。 展开更多
关键词 相似性计算 Simhash算法 tf-idf技术 海明距离 指纹值
下载PDF
基于分布式架构的海量文本快速相似度检测研究
2
作者 晋晓琳 张树武 刘杰 《中国传媒大学学报(自然科学版)》 2019年第1期39-44,共6页
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文... 为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。 展开更多
关键词 文本相似 Elasticsearch tf - idf Simhash 余弦相似度
下载PDF
基于共词分析的文本主题词聚类与主题发现 被引量:34
3
作者 王小华 徐宁 谌志群 《情报科学》 CSSCI 北大核心 2011年第11期1621-1624,共4页
文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法... 文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。 展开更多
关键词 共词分析 tf-idf 共词矩阵 Bisecting K-MEANS 主题
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部