基于语义词典和词频信息的文本相似度计算被引量：8

Text Similarity Calculation Based on Semantic Dictionary and Word Frequency Information

下载PDF

导出

摘要为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结果表明,与传统的语义算法和基于空间向量的文本相似度计算方法相比,TSSDWFI算法计算的文本相似度的准确度有了进一步提高。 Considering the drawbacks of semantic understanding and frequent word appearance,this paper proposed a text similarity algorithm based on semantic dictionary and word frequency information,referred to as TSSDWFI.In particular,the proposed algorithm aims at evaluating the similarity between two texts by calculating the expanded similarity between any two words in texts and the maximum similarity matching between text words.The proposed algorithm adopts semantic dictionary to calculate similarity between texts and takes into account the similarity relationship between different words and the frequency of word appearance in the text.Simulation results show that,compared with the existing algorithms,the proposed algorithm TSSDWFI has higher accuracy.

作者董苑钱丽萍

机构地区浙江工业大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2017年第B11期422-427,共6页 Computer Science

关键词文本挖掘文本相似度语义词典关键词词频 Text mining Text similarity Semantic dictionary Keywords Word frequency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1张振亚,王进,程红梅,王煦法.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163. 被引量：51
2吴奎,周献中,王建宇,赵佳宝.基于贝叶斯估计的概念语义相似度算法[J].中文信息学报,2010,24(2):52-57. 被引量：12
3郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
4韩如冰,叶得学.基于VSM的权重改进文档相似度算法研究[J].软件,2012,33(10):103-105. 被引量：9
5王格,吴钊,李向.基于全文检索的文本相似度算法应用研究[J].计算机与数字工程,2016,44(4):567-571. 被引量：7
6刘杰,郭宇,汤世平,樊孝忠.基于《知网》2008的词语相似度计算[J].小型微型计算机系统,2015,36(8):1728-1733. 被引量：7
7吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
8张沪寅,刘道波,温春艳.基于《知网》的词语语义相似度改进算法研究[J].计算机工程,2015,41(2):151-156. 被引量：22
9肖志军,冯广丽.基于《知网》义原空间的文本相似度计算[J].科学技术与工程,2013,21(29):8651-8656. 被引量：9
10袁晓峰.基于《知网》的文本相似度研究[J].成都大学学报（自然科学版）,2014,33(3):251-253. 被引量：3

二级参考文献139

1闫宏飞,陈翀.词汇与中心词的距离信息对问句相似度匹配的影响[J].清华大学学报（自然科学版）,2005,45(S1):1873-1877. 被引量：8
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
3王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
4姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：67
5许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
6吴健,蔡铭,唐敏,董金祥.网络制造中Web Service的服务质量模糊排序方法[J].计算机辅助设计与图形学学报,2005,17(7):1593-1599. 被引量：9
7袁晓峰.《知网》义原相似度计算的研究[J].辽宁大学学报（自然科学版）,2011,38(4):358-361. 被引量：5
8罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
9余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
10程玉柱,邬书跃.基于部件的文本相似度计算[J].计算机工程与设计,2006,27(18):3444-3446. 被引量：4

共引文献689

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
3熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
4马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
5金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
6葛文,成毅,孙亚飞.基于简单语义的地理信息服务发现方法研究[J].地理信息世界,2012,10(3):31-35. 被引量：1
7李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
8伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
9刘奎,赵晓静.一种支持QOS约束面向语义的web服务发现机制[J].安庆师范学院学报（自然科学版）,2010,16(3):49-52.
10钱竹青,谭庆平,刘峰,杨艳萍.基于本体论和标记图相似性的Web服务匹配算法[J].微电子学与计算机,2006,23(10):18-19.

同被引文献82

1杨跃珍.亚里士多德修辞学与伯克修辞学研究对比[J].长春教育学院学报,2010,26(3):54-55. 被引量：1
2冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(2):88-92. 被引量：563
3温科学.现代修辞学调查——论中西方现代修辞学的对接融合[J].福建师范大学学报（哲学社会科学版）,2007(6):65-72. 被引量：8
4邱均平,马瑞敏,李晔君.关于共被引分析方法的再认识和再思考[J].情报学报,2008,27(1):69-74. 被引量：84
5徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：377
6牟晓鸣.亚里士多德与西方古典修辞学理论[J].大连民族学院学报,2008,10(4):353-355. 被引量：3
7宫贺.跨文化认同与政治修辞——基于对中美当代政治传播实践的考察[J].国际新闻界,2009,31(5):26-31. 被引量：5
8吴奎,周献中,王建宇,赵佳宝.基于贝叶斯估计的概念语义相似度算法[J].中文信息学报,2010,24(2):52-57. 被引量：12
9鲍翠梅.支持向量机在文本特征提取中的应用研究[J].计算机应用与软件,2010,27(5):197-199. 被引量：1
10张勤,徐绪松.定性定量结合的分析方法——共词分析法[J].技术经济,2010,29(6):20-24. 被引量：81

引证文献8

1李彪.霸权与调适:危机语境下政府通报文本的传播修辞与话语生产——基于44个引发次生舆情的“情况通报”的多元分析[J].新闻与传播研究,2019,26(4):25-44. 被引量：31
2陈可嘉,郑晶晶,靳健,赵政.基于词频和情景语义的产品特征提取方法[J].广西大学学报（自然科学版）,2020,45(6):1413-1422. 被引量：4
3鲁博仁,胡世哲,娄铮铮,叶阳东.面向铁路文本分类的字符级特征提取方法[J].计算机科学,2021,48(3):220-226. 被引量：3
4张世同.基于BERT与BiLSTM的铁路安监文本分类方法[J].现代计算机,2021,27(22):38-42. 被引量：3
5李喆,吕洪珏.青年网络政治意识表达与引导研究——基于对B站共青团中央视频弹幕的话语分析[J].福建技术师范学院学报,2021,39(6):557-562.
6孙玲玲,胡彦蓉,刘洪久.基于产品特征细粒度情感分析的在线品牌社群用户评论挖掘[J].数学的实践与认识,2021,51(24):83-95. 被引量：1
7巫岳峰.面向中国游客行为的邮轮商业空间设计研究[J].设计艺术研究,2023(1):151-155.
8肖芃,王耀宗.互动仪式视域下弹幕铸牢中华民族共同体意识研究[J].湖南师范大学社会科学学报,2023,52(6):127-133. 被引量：1

二级引证文献43

1张亮术.全媒体时代国有建筑施工企业网络舆情现状及其应对[J].企业改革与管理,2019(22):185-185. 被引量：1
2欧亚.媒介化公共外交与中国外交话语的对外传播——基于中国驻英大使馆新闻活动的考察[J].外交评论（外交学院学报）,2021,38(3):27-72. 被引量：1
3王田,谭添慧.创造新女性:社交媒体女性赋权广告的后女性主义话语与受众的意义生产[J].国际新闻界,2023,45(9):48-70.
4李佳敏.危机传播与政府媒介形象修复——基于陕西奥凯电缆事件的案例研究[J].今传媒,2020,28(1):48-53. 被引量：1
5钟智锦.计算传播视野下的网络舆论研究[J].新闻与写作,2020(5):26-32. 被引量：2
6张薇,张肖梦.政务新媒体应对突发公共事件的话语策略分析——以“台风利奇马”事件为例[J].南京晓庄学院学报,2020,36(3):65-72. 被引量：1
7陈龙.从变革社会到整合社会:新中国成立以来中国共产党办报模式的演进[J].福建师范大学学报（哲学社会科学版）,2020(4):104-116. 被引量：3
8张文祥,杨林.多元对话:突发公共卫生事件的信息传播治理[J].山东大学学报（哲学社会科学版）,2020(5):24-30. 被引量：16
9王楠,王保华.网络舆情对高校形象的影响因素研究--基于30个案例的定性比较分析[J].国家教育行政学院学报,2020(8):77-85. 被引量：25
10杨洋洋,谢雪梅.信息技术、经济发展与政府舆情治理效率——基于三阶段DEA模型的实证分析[J].现代情报,2021,41(3):159-167. 被引量：6

1武卫.非英语专业大学生的词汇产出正确性能力与自动性能力研究[J].现代外语,2017,40(6):802-813. 被引量：3
2吴宁,尚坡利,彭琳茹.网络舆情情感倾向分析模型研究[J].兰州工业学院学报,2017,24(5):65-68. 被引量：1
3农秀权.对一道习题的探究[J].中学数学研究,2017(11):10-11.
4杜红亮.2020年中国创新型城市的格局探析[J].情报工程,2017,3(5):77-86.
5杜丽娟.基于语料库的《政府工作报告》翻译个案研究[J].湖北第二师范学院学报,2017,34(5):119-124. 被引量：1
6张倩.基于《CNN》语料库的批评话语分析[J].校园英语,2017,0(35):230-230.
7郭强,邹广天,连菲,张斯.应用Web标注技术的建筑图像语义采集方法[J].哈尔滨工业大学学报,2017,49(10):158-163. 被引量：6
8董露露.一种基于改进互信息的文本分类方法[J].合肥师范学院学报,2017,35(6):14-19. 被引量：3
9王昕天,汪雷.基于文本挖掘的在线旅游热词情报分析——以携程网为例[J].情报理论与实践,2017,40(11):105-109. 被引量：14
10Wayne Xin ZHAO,Chen LIU,Ji-Rong WEN,Xiaoming LI.Ranking and tagging bursty features in text streams with context language models[J].Frontiers of Computer Science,2017,11(5):852-862.

计算机科学

2017年第B11期

浏览历史

内容加载中请稍等...

基于语义词典和词频信息的文本相似度计算被引量：8

参考文献14

二级参考文献139

共引文献689

同被引文献82

引证文献8

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于语义词典和词频信息的文本相似度计算 被引量：8

参考文献14

二级参考文献139

共引文献689

同被引文献82

引证文献8

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于语义词典和词频信息的文本相似度计算被引量：8