期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
基于TF-IDF和余弦相似度的文本相似度算法研究和优化策略
被引量:
2
原文传递
导出
摘要
文本相似性分析是一种重要的自然语言处理技术,主要应用于文本分类、聚类等领域.目前业界使用的基于TF-IDF的余弦相似度的文本相似性分析虽能取得不错的成效,但仍有一定的缺陷.对目前的基于TF-IDF的余弦相似度分析法,本文旨在对其进行分析并提出几种相应的优化策略,通过实验给出其中相对较优解决方案.
作者
张根宇
机构地区
北京交通大学计算机与信息技术学院
出处
《中国科技成果》
2019年第16期25-26,共2页
China Science and Technology Achievements
关键词
余弦相似度
TF-IDF
文本相似性分析
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
13
参考文献
3
共引文献
159
同被引文献
12
引证文献
2
二级引证文献
1
参考文献
3
1
武永亮,赵书良,李长镜,魏娜娣,王子晏.
基于TF-IDF和余弦相似度的文本分类方法[J]
.中文信息学报,2017,31(5):138-145.
被引量:97
2
陈功平,王红.
改进Pearson相关系数的个性化推荐算法[J]
.山东农业大学学报(自然科学版),2016,47(6):940-944.
被引量:49
3
公冶小燕,林培光,任威隆,张晨,张春云.
基于改进的TF-IDF算法及共现词的主题词抽取算法[J]
.南京大学学报(自然科学版),2017,53(6):1072-1080.
被引量:17
二级参考文献
13
1
张宇镭,党琰,贺平安.
利用Pearson相关系数定量分析生物亲缘关系[J]
.计算机工程与应用,2005,41(33):79-82.
被引量:102
2
耿焕同,蔡庆生,于琨,赵鹏.
一种基于词共现图的文档主题词自动抽取方法[J]
.南京大学学报(自然科学版),2006,42(2):156-162.
被引量:30
3
吴湖,王永吉,王哲,王秀利,杜栓柱.
两阶段联合聚类协同过滤算法[J]
.软件学报,2010,21(5):1042-1054.
被引量:83
4
黄创光,印鉴,汪静,刘玉葆,王甲海.
不确定近邻的协同过滤推荐算法[J]
.计算机学报,2010,33(8):1369-1377.
被引量:217
5
朱郁筱,吕琳媛.
推荐系统评价指标综述[J]
.电子科技大学学报,2012,41(2):163-175.
被引量:251
6
钱强,庞林斌,高尚.
一种基于词共现图的受限领域自动问答系统[J]
.计算机应用研究,2013,30(3):841-843.
被引量:16
7
陈克寒,韩盼盼,吴健.
基于用户聚类的异构社交网络推荐算法[J]
.计算机学报,2013,36(2):349-359.
被引量:125
8
韩普,王东波,刘艳云,苏新宁.
词性对中英文文本聚类的影响研究[J]
.中文信息学报,2013,27(2):65-73.
被引量:11
9
白秋产,金春霞,章慧,周海岩.
词共现文本主题聚类算法[J]
.计算机工程与科学,2013,35(7):164-168.
被引量:13
10
高明,金澈清,钱卫宁,王晓玲,周傲英.
面向微博系统的实时个性化推荐[J]
.计算机学报,2014,37(4):963-975.
被引量:53
共引文献
159
1
高原,施元磊,张蕾,曹天奕,冯筠.
基于游记文本的游客游览行程重构[J]
.数据分析与知识发现,2020,4(2):165-172.
被引量:5
2
程罗德.
大数据环境下数字图书馆信息安全策略研究[J]
.图书馆学刊,2020,0(1):74-79.
被引量:10
3
吴运明,王令村,魏子栋,郭顺利.
基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J]
.情报科学,2022,40(10):97-106.
被引量:3
4
张兆滨,王素格,陈鑫,赵琳玲,王典.
阅读理解中观点类问题的扩展研究[J]
.中文信息学报,2020(6):89-96.
被引量:2
5
马心儒,丁伟.
用户行为数据统计的案例分析[J]
.电子技术(上海),2021,50(8):180-181.
6
刘一柏,吴寅,刘文波,刘砚一.
基于无线声发射传感器系统的活立木含水率诊断方法研究[J]
.电子测量与仪器学报,2022,36(2):160-168.
被引量:1
7
刘一宁,郭功举,林木棵,王琳.
基于位置描述的地理实体信息融合方法[J]
.测绘通报,2021(S01):65-69.
被引量:7
8
叶仁青,周佳.
家庭社会功能在糖尿病患者遵医行为的支持作用[J]
.医学与哲学,2000,21(5):24-25.
被引量:14
9
殷聪,张李义.
基于TF-IDF的情境后过滤推荐算法研究——以餐饮业O2O为例[J]
.数据分析与知识发现,2018,2(11):28-36.
被引量:13
10
李昆仑,万品哲,张德智.
基于改进用户相似性度量和评分预测的协同过滤推荐算法[J]
.小型微型计算机系统,2018,39(3):567-571.
被引量:30
同被引文献
12
1
马壮,赵国权,任占鹏.
基于OCR识别技术的自动阅卷系统的研究[J]
.河北工业科技,2005,22(6):354-357.
被引量:4
2
刘建国,周涛,汪秉宏.
个性化推荐系统的研究进展[J]
.自然科学进展,2009,19(1):1-15.
被引量:435
3
李连,朱爱红,苏涛.
一种改进的基于向量空间文本相似度算法的研究与实现[J]
.计算机应用与软件,2012,29(2):282-284.
被引量:35
4
余燕萍.
基于相似用户情感分析的推荐算法研究[J]
.科技广场,2016(8):13-16.
被引量:1
5
陈婷,朱青,周梦溪,王珊.
社交网络环境下基于信任的推荐算法[J]
.软件学报,2017,28(3):721-731.
被引量:62
6
冯传波,彭章友,张钟浩.
基于Vue.js的移动应用可视化平台的研究[J]
.工业控制计算机,2019,32(5):102-103.
被引量:14
7
仇建民.
开源PaddleOCR技术在企业营业执照识别上的改进与实践[J]
.现代信息科技,2021,5(9):65-69.
被引量:7
8
姜计荣.
基于修正的Jaccard相似度的区间数多属性决策方法[J]
.大众标准化,2021(20):125-127.
被引量:2
9
聂霜霜,杨轶男,卫晶,马建钟.
基于Tesseract-OCR文本识别的检票系统研究[J]
.现代信息科技,2022,6(5):1-4.
被引量:3
10
陈敏.
答题卡检测系统设计与实现[J]
.长江信息通信,2023,36(7):129-131.
被引量:1
引证文献
2
1
骆伟,殷宏涛,陶琛.
基于协同过滤算法的高校社团推荐系统的设计与实现[J]
.软件工程,2022,25(2):42-45.
被引量:1
2
张志,方少卿.
基于图像处理和深度学习的答题卡评分算法[J]
.电脑知识与技术,2024,20(20):29-32.
二级引证文献
1
1
苏永辉.
基于协同过滤算法的校园社团推荐软件的设计与应用[J]
.黑龙江科学,2024,15(13):76-79.
1
刘一丁,陈晓琳,尹晓阳,刘功申.
资源贫乏型语言间文本相似度计算方法[J]
.指挥信息系统与技术,2019,10(4):27-32.
被引量:5
2
徐善山.
基于领域词典和机器学习的影评情感分析[J]
.电脑知识与技术,2019,15(8Z):222-223.
被引量:1
3
常文兵,苑星龙,周晟瀚,李磊.
基于文本分析的故障序列模式挖掘算法[J]
.计算机应用研究,2019,36(9):2643-2646.
被引量:2
中国科技成果
2019年 第16期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部