一种结合词项语义信息和TF-IDF方法的文本相似度量方法被引量：222

A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method

下载PDF

导出

摘要传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. Traditional text similarity measurements use TF-IDF method to model text documents as term frequency vectors,and compute similarity between text documents by using cosine similarity.These methods ignore semantic information of text documents,and semantic information enhanced methods distinguish between text documents poorly because extended vectors with semantic similar terms aggravate the curse of dimensionality.This paper proposes a similarity measurement,which is based on TF-IDF method,and analyzes similarity between important terms in text documents.This approach uses NLP technology to pre-process text,and uses TF-IDF method to filter those key terms that have higher TF-IDF value than other common terms.With the proposed data structure TSWT（Term Similarity Weight Tree） and the definition of semantic similarity,this paper resolves the semantic information of those key terms to compute similarities between text documents.Finally,several K-Means clustering methods is used for evaluating performance of the new text document similarity.By comparing with TF-IDF and another the-state-of-art semantic information based similarity method,experimental results on benchmark corpus demonstrate that it can promote the evaluation metrics of F-Measure.

作者黄承慧印鉴侯昉

机构地区中山大学信息科学与技术学院广东金融学院计算机科学与技术系

出处《计算机学报》 EI CSCD 北大核心 2011年第5期856-864,共9页 Chinese Journal of Computers

基金国家自然科学基金(61033010) 国家科技重大专项基金(2008ZX10005-013) 广东省科技计划项目(2009A080207005 2009B090300450 2010A040303004)资助~~

关键词文本聚类词项语义相似度文本相似度自然语言处理 text clustering term semantic similarity text similarity natural language process

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
2Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
3Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
4Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
5Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
6Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
7Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
8Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.
9Theobald M,Siddharth J,Paepcke A.SpotSigs:Robust and efficient near duplicate detection in large Web collections//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Singapore,2008:563-570.
10Han J,Kamber M.Data Mining:Concept and Techniques.2nd Edition.San Francisco,CA,USA:Elsevier Inc,2006.

同被引文献2003

1徐林明,李美娟.动态综合评价中的数据预处理方法研究[J].中国管理科学,2020,0(1):162-169. 被引量：53
2王湘玲,王婷婷.人工翻译与机器翻译译后编辑对比实证研究[J].外国语言与文化,2019,0(4):83-93. 被引量：13
3李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
4谭红日,刘沛林,李伯华.基于网络文本分析的大连市旅游目的地形象感知[J].经济地理,2021(3):231-239. 被引量：191
5王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
6王成军.寻找公众注意力爆发的起源:以YouTube视频扩散为例[J].东岳论丛,2021(2):142-153. 被引量：4
7韩丹,洪汝攀,钟焱军.LSTM深度神经网络在消防力量调度算法中的应用[J].电信快报,2021(5):25-27. 被引量：4
8Yanan Liu,Fang He,Jin Wen,Zhiguang Zhou,Jinchang Li.Visual Analytics of Large-scale E-government Text Data via Simplified Word Cloud[J].Data Science and Informetrics,2021,1(1):29-51. 被引量：1
9宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
10李忠光,龚明.实验报告撰写改革尝试[J].实验科学与技术,2005,3(1):69-70. 被引量：24

引证文献222

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
5王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
6高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
7皮靖,邵雄凯,肖雅夫.基于朴素贝叶斯算法的主题爬虫的研究[J].计算机与数字工程,2012,40(6):76-78. 被引量：7
8周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
9杨传慧,吉根林,章志刚.AP算法在图像聚类中的应用研究[J].计算机与数字工程,2012,40(10):119-121. 被引量：6
10孙昌年,郑诚,夏青松.基于LDA的中文文本相似度计算[J].计算机技术与发展,2013,23(1):217-220. 被引量：23

二级引证文献1096

1蒲晓红,赵海堂.互联网使用对公众风险感知的影响机制——基于政府回应视角[J].中国行政管理,2021(5):146-154. 被引量：23
2刘红波,高新珉.负面舆情、政府回应与话语权重构——基于1711个社交媒体案例的分析[J].中国行政管理,2021(5):130-137. 被引量：21
3邓卫华,吕佩.反转或缓解?突发事件政府回应有效性研究——基于在线文本情感分析[J].中国行政管理,2021(2):123-130. 被引量：11
4贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
5南锐,肖叶静.融合与冲突:重大突发事件数字化应急决策的双重效应[J].中国应急管理科学,2023(6):11-24. 被引量：1
6刘璐,张小明.白银景泰“5·22”黄河石林百公里越野赛舆情情感分析:基于新浪微博的研究[J].中国应急管理科学,2022(2):91-104. 被引量：1
7盖盛楠.政务舆情回应议程设置失灵问题与对策分析——基于政务舆情热点事件应对案例[J].新媒体研究,2021,7(11):53-57. 被引量：1
8黎姿,潘红,马雪,赵慧.《更路簿》地名翻译传播在百度百科平台中的机遇与挑战[J].现代英语,2024(3):109-111.
9徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
10孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.

1黄承慧,印鉴,陆寄远.一种改进的Lucene语义相似度检索算法[J].中山大学学报（自然科学版）,2011,50(2):11-15. 被引量：13
2生海迪,段会川,孔超.基于语义短语的空间金字塔词袋模型图像分类方法[J].小型微型计算机系统,2015,36(4):877-881. 被引量：8
3詹川,卢显良,周旭,侯孟书,袁连海.基于贝叶斯公式的垃圾邮件过滤方法[J].计算机科学,2005,32(2):73-75. 被引量：11
4冯进丽,杨红菊.基于BoC-BoF特征的图像检索方法研究[J].计算机科学,2015,42(4):297-301. 被引量：5
5吕震宇,赵爽,林永民.kNN在文本分类中的应用研究[J].计算机与现代化,2008(11):69-72. 被引量：3
6王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报,2015,34(5):536-548.
7詹志建,杨小平.一种基于复杂网络的短文本语义相似度计算[J].中文信息学报,2016,30(4):71-80. 被引量：14
8唐晓丽,白宇,张桂平,蔡东风.一种面向聚类的文本建模方法[J].山西大学学报（自然科学版）,2014,37(4):595-600. 被引量：8
9龙银杏,阳许军.用向量空间模型对运营商投诉文本建模的研究[J].信息技术,2016,40(12):121-124. 被引量：1
10田松瑞.基于用户相似度加权的Slope One算法[J].软件,2016,37(4):57-59. 被引量：8

计算机学报

2011年第5期

浏览历史

内容加载中请稍等...

一种结合词项语义信息和TF-IDF方法的文本相似度量方法被引量：222

参考文献19

同被引文献2003

引证文献222

二级引证文献1096

相关作者

相关机构

相关主题

浏览历史

一种结合词项语义信息和TF-IDF方法的文本相似度量方法 被引量：222

参考文献19

同被引文献2003

引证文献222

二级引证文献1096

相关作者

相关机构

相关主题

浏览历史

一种结合词项语义信息和TF-IDF方法的文本相似度量方法被引量：222