期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于改进的TF-IDF方法的文本相似度算法研究
被引量:
10
1
作者
周丽杰
于伟海
郭成
《泰山学院学报》
2015年第3期18-22,共5页
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词...
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高.
展开更多
关键词
文本相似度算法
tf
-
idf
方法
词语关联
马尔可夫模型
文本分类
下载PDF
职称材料
基于词频差异特征选取的Context Graph算法改进
被引量:
1
2
作者
张永
吴崇正
《计算机工程与应用》
CSCD
2014年第10期141-146,共6页
为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了...
为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。
展开更多
关键词
主题爬虫
CONTEXT
Graph模型
搜索策略
特征选取
下载PDF
职称材料
基于分布式架构的海量文本快速相似度检测研究
3
作者
晋晓琳
张树武
刘杰
《中国传媒大学学报(自然科学版)》
2019年第1期39-44,共6页
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文...
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
展开更多
关键词
文本相似
Elasticsearch
tf
-
idf
Simhash
余弦相似度
下载PDF
职称材料
题名
基于改进的TF-IDF方法的文本相似度算法研究
被引量:
10
1
作者
周丽杰
于伟海
郭成
机构
烟台职业学院电教中心
烟台市教育局
烟台职业学院成教处
大连理工大学软件学院
出处
《泰山学院学报》
2015年第3期18-22,共5页
基金
国家自然科学基金资助项目(61401060
61272173)
山东省高等学校科技计划基金资助项目(J12LN73)
文摘
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高.
关键词
文本相似度算法
tf
-
idf
方法
词语关联
马尔可夫模型
文本分类
Keywords
text similarity algorithm
tf - idf strategy
word
-
relation
Markov model
text categorization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词频差异特征选取的Context Graph算法改进
被引量:
1
2
作者
张永
吴崇正
机构
兰州理工大学计算机与通信学院
出处
《计算机工程与应用》
CSCD
2014年第10期141-146,共6页
文摘
为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。
关键词
主题爬虫
CONTEXT
Graph模型
搜索策略
特征选取
Keywords
tf
-
idf
focused crawler
Context Graph
search
strategy
feature selection
tf
-
idf
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于分布式架构的海量文本快速相似度检测研究
3
作者
晋晓琳
张树武
刘杰
机构
中国传媒大学信息工程学院
中国科学院自动化研究所数字内容技术与研究中心
北京电影学院未来影像高精尖创新中心
出处
《中国传媒大学学报(自然科学版)》
2019年第1期39-44,共6页
基金
国家重点研发计划资助(2017YFB1401000)
文摘
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
关键词
文本相似
Elasticsearch
tf
-
idf
Simhash
余弦相似度
Keywords
text similarity
Elasticsearch
tf
-
idf
Simhash
cosine similarity
分类号
N37 [自然科学总论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于改进的TF-IDF方法的文本相似度算法研究
周丽杰
于伟海
郭成
《泰山学院学报》
2015
10
下载PDF
职称材料
2
基于词频差异特征选取的Context Graph算法改进
张永
吴崇正
《计算机工程与应用》
CSCD
2014
1
下载PDF
职称材料
3
基于分布式架构的海量文本快速相似度检测研究
晋晓琳
张树武
刘杰
《中国传媒大学学报(自然科学版)》
2019
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部