基于改进的TF-IDF方法的文本相似度算法研究被引量：10

Research on Text Similarity Algorithm Based on Improved TF-IDF Strategy

下载PDF

导出

摘要传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高. Traditional text similarity algorithm uses term＇s frequency to show the importance of the term in a document, the continuously changing frequency of a term in different documents which has common category makes the termg weight unstable, causing a low precision rate of text similarity calculation. We propose an improved TF - IDF strategy based on term＇s information capacity to calculate the term＇s weight, the obtained term＇s weight is used in vector space model and Markov model to acquire the fundamental similarity based on vector space model and semantic similarity based on Markov model, combining similarity and semantic similarity, the overall similarity between texts is got by combining fundamental similarity and semantic similarity. The experimental results on an open benchmark datasets from Sogou show our proposed approach can improve the accuracy and F1 performance of classification compared to traditional approach.

作者周丽杰于伟海郭成

机构地区烟台职业学院电教中心烟台市教育局烟台职业学院成教处大连理工大学软件学院

出处《泰山学院学报》 2015年第3期18-22,共5页 Journal of Taishan University

基金国家自然科学基金资助项目(61401060 61272173) 山东省高等学校科技计划基金资助项目(J12LN73)

关键词文本相似度算法 TF-IDF方法词语关联马尔可夫模型文本分类 text similarity algorithm TF - IDF strategy word - relation Markov model text categorization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Yanhui Gu, Zhenglu Yang, Guandong Xu. Exploration on efficient similar sentences extraction [ J ]. World Wide Web,2014,17 ( 4 ) :595 - 626.
2徐文杰,陈庆奎.基于余弦向量法的Web数据并行抓掘系统[J].计算机工程,2009,35(7):64-67. 被引量：2
3Koby Crammer, Mark Dredze, Fernando Pereira. Confidence - Weighted Linear Classification for Text Categorization [ J ]. Journal of Ma- chine Learning Research, 2012(13) : 1891 - 1926.
4华秀丽,朱巧明,李培峰.语义分析与词频统计相结合的中文文本相似度量方法研究[J].计算机应用研究,2012,29(3):833-836. 被引量：42
5廖一星,潘雪增.面向不平衡文本的特征选择方法[J].电子科技大学学报,2012,41(4):592-595. 被引量：5
6褚蕾蕾,常文波,李秦.文本聚类中的改进特征权重算法[J].工程数学学报,2012,29(4):523-528. 被引量：2
7李侃,周世斌,刘玉树.统计流形扩散核的文本分类方法[J].模式识别与人工智能,2012,25(2):339-345. 被引量：3

二级参考文献50

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2王晓黎,王文杰.基于向量空间模型的文本检索系统[J].微电子学与计算机,2006,23(6):188-190. 被引量：18
3张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
4Sung Jin Kim, Sang Ho Lee. An Empirical Study on the Change of Web Pages[C]//Proc. of Conf. on Web Technologies Research and Development. Heidelberg, Germany: Springer, 2005: 632-642.
5Cho J, Garcia-molina H. Parallel Crawlers[C]//Proceedings of the 11th International World Wide Web Conference. [S. l.]: IEEE Press, 2002.
6Cho Junghoo, Garcia-molina H. The Evolution of the Web and Implications for an Incremental Crawler[C]//Proceedings of VLDB'0. Seou, Korea: [s. n.], 2000.
7Salton G, Buckley C. Term-weighting Approaches in Automatic Retrieval[J]. Information Processing and Management, 1998, 24(5): 513-523.
8De Bra D, Post R D. Searching for Arbitrary Information in the WWW: The Fish Search for Mosaic[C]//Proceedings of the 2nd World Wide Web Conference. Chicaco, IL, USA: [s. n.], 1994.
9Fetterly D, Manasse M, Najork M, et al. A large-scale Study of the Evolution of Web Pages[C]//Proceedings of the 12th World Wide Web Conference. New York, NY, USA: ACM Press, 2003.
10车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计算[C]//全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88.

共引文献48

1杜华.文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例[J].现代教育技术,2012,22(9):65-69. 被引量：17
2黄贤英,张金鹏,陈微微.基于K-means聚类算法和信息熵的页面排序算法研究[J].计算机工程与设计,2013,34(5):1695-1699. 被引量：1
3白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
4杨鸿骏,周亚建,郭玉翠.一种基于同义词扩展的不平衡文本分类方法[J].情报杂志,2013,32(9):204-206. 被引量：1
5周由,戴牡红.语义分析与TF-IDF方法相结合的新闻推荐技术[J].计算机科学,2013,40(11A):267-269. 被引量：11
6詹志建,杨小平.基于语言网络和语义信息的文本相似度计算[J].计算机工程与应用,2014,50(5):33-38. 被引量：11
7王庆福,常广炎.基于TF-IDF优化算法在文本分类中的应用研究[J].电脑编程技巧与维护,2014(10):11-12. 被引量：2
8邓一贵,伍玉英.基于文本内容的敏感词决策树信息过滤算法[J].计算机工程,2014,40(9):300-304. 被引量：31
9王蕾.文字云图在英语阅读教学中的应用研究[J].读与写（教育教学刊）,2014,11(6):52-52.
10张晓霞,王名扬,贾冲冲,董煦.基于突发词H指数的微博突发事件检测算法研究[J].情报杂志,2015,34(2):37-41. 被引量：8

同被引文献72

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
3刘亚军,徐易.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报（自然科学版）,2004,34(5):609-612. 被引量：35
4周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：71
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
7张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：123
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
9彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
10汤九斌,陆建峰,唐振民,杨静宇.基于层次的K-means初始化算法[J].中国工程科学,2007,9(11):74-79. 被引量：2

引证文献10

1贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
2俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：28
3甘秋云.基于TF-IDF向量空间模型文本相似度算法的分析[J].池州学院学报,2018,32(3):41-43. 被引量：6
4杨丹,朱世玲,卞正宇.基于改进的K-means算法在文本挖掘中的应用[J].计算机技术与发展,2019,29(4):68-71. 被引量：9
5张国锋,吴国文.基于核函数的改进k-means文本聚类[J].计算机应用与软件,2019,36(9):281-284. 被引量：12
6付鹏斌,陈帅帅,杨惠荣,李建君.结合依存关系与同义词词林的相似度计算[J].计算机技术与发展,2020,30(1):13-18. 被引量：3
7许甜华,吴明礼.一种基于TF-IDF的朴素贝叶斯算法改进[J].计算机技术与发展,2020,30(2):75-79. 被引量：15
8李敬炜.面向测试用例的中文文本聚类分析[J].数字技术与应用,2020,38(12):105-108.
9李鲲程,刘秋月,范春梅.数据清洗中文本相似度算法的比较与优化[J].通信管理与技术,2021(5):16-18. 被引量：6
10李彤,崔琪伟,李夏.基于词频加权和余弦相似度的模糊匹配算法[J].企业科技与发展,2022(11):49-51. 被引量：2

二级引证文献83

1王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：10
2俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：28
3黄涛,戴淑敏,成二丽.一种地方志资源的混合推荐模型[J].国家图书馆学刊,2018,27(2):14-19. 被引量：5
4张恒,章成志,周清清.考虑图书推荐列表相似性的图书推荐研究[J].图书与情报,2018(3):128-134. 被引量：6
5方鼎鼎,郑荣锋,周安民.工业控制系统未知协议特征提取及异常流量检测[J].现代计算机,2019,25(4):14-20. 被引量：1
6王亚芳,刘东升,侯敏.基于图像相似度检测代码克隆[J].计算机应用,2019,39(7):2074-2080. 被引量：5
7马瑞敏,闫晓慧,申楠.学科交叉直接测度研究[J].情报学报,2019,38(7):688-696. 被引量：20
8徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
9李高鹏,艾山·吾买尔,郑炅,王路路.文本信息检索系统的设计与实现[J].现代电子技术,2019,42(16):62-66. 被引量：1
10徐建民,何丹丹,吴树芳.基于文档关系的扩展信念网络检索模型[J].情报学报,2019,38(11):1160-1165. 被引量：3

1香草.千里电脑一线牵你被遥控了吗?[J].电脑爱好者,2009(12):66-67.
2李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：35
3袁晓峰.一种基于HNC理论的文本相似度算法[J].计算机时代,2014(11):40-41.
4贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
5黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7
6郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
7张佩云,陈传明,黄波.基于子树匹配的文本相似度算法[J].模式识别与人工智能,2014,27(3):226-234. 被引量：13
8黄贤英,李沁东,刘英涛.结合词性的短文本相似度算法及其在文本分类中的应用[J].电讯技术,2017,57(1):78-82. 被引量：11
9金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
10王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：9

泰山学院学报

2015年第3期

浏览历史

内容加载中请稍等...

基于改进的TF-IDF方法的文本相似度算法研究被引量：10

参考文献7

二级参考文献50

共引文献48

同被引文献72

引证文献10

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于改进的TF-IDF方法的文本相似度算法研究 被引量：10

参考文献7

二级参考文献50

共引文献48

同被引文献72

引证文献10

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于改进的TF-IDF方法的文本相似度算法研究被引量：10