利用加权词句向量的文本相似度计算方法被引量：8

Text Similarity Calculation with Weighted Word Vector and Sentence Vector

下载PDF

导出

摘要传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过三组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法. The original WMD distance algorithm is based on word vector and the word frequency feature vector,ignoring the context of the semantics of the word and the inability of fully extracting the semantic information in words. Therefore,a text similarity calculation method based on joint words and sentence is proposed. The method uses the trained word vector and sentence vector to construct the weighted coefficient. When the WMD distance calculation formula is improved,a certain proportion of keywords and sentence vectors are selected to calculate the word transfer cost,so as to obtain the text similarity of two documents. Three sets of experiments show that the proposed method is superior to other text similarity calculation methods and the original WMD distance algorithm.

作者徐鑫鑫刘彦隆宋明 XU Xin-xin;LIU Yan-long;SONG Ming(School of Information and Computer,Taiyuan University of Technology,Jinzhong 030600,China)

机构地区太原理工大学信息与计算机学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第10期2072-2076,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60772101)资助太原理工大学项目(900203011843)资助

关键词文本相似度词向量句向量 WMD距离增强权重系数 text similarity word embedding sentence embedding WMD distance weighted coefficient

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1韩如冰,叶得学.基于VSM的权重改进文档相似度算法研究[J].软件,2012,33(10):103-105. 被引量：9
2陈宏.现代汉语同义并列复合词词性、词序分析[J].南开语言学刊,2008(1):108-115. 被引量：4

二级参考文献8

1闫宏飞,陈翀.词汇与中心词的距离信息对问句相似度匹配的影响[J].清华大学学报（自然科学版）,2005,45(S1):1873-1877. 被引量：8
2周荐.并列结构内词语的顺序问题[J].天津师大学报,1986,6(5):87-91. 被引量：24
3刘又辛,张博.汉语同族复合词的构成规律及特点[J].语言研究,2002,22(1):60-65. 被引量：14
4Salton G,Wong A. On the Specification of Term Value in Automatic Indexing[J].Journal of Documentation,1973,(04):351-372.
5Salton G. The SMART Retrieval System-Experiments in Automatic Document Processing[M].Englewood Cliffs,New Jersey:Prentice-Hall,Inc,1971.
6董振东;董强.查看详情.
7于莉.经典信息检索模型的分类比较[J].软件,2011,32(3):32-34. 被引量：1
8庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293

共引文献11

1孙战彪.非结构化P2P网络资源搜索算法研究[J].科技信息,2013(10):289-290. 被引量：1
2郑诚,刘娇丽,项珑.基于VSM和LDA模型的FAQ问答系统[J].计算机技术与发展,2014,24(1):133-135. 被引量：3
3戴庆厦.汉藏语并列复合词韵律词序的类型学特征——兼论汉藏语语法类型学研究的一些认识问题[J].吉林大学社会科学学报,2015,55(3):141-147. 被引量：9
4林予松,梁璐,崔勇,王宗敏.基于VSM权重改进算法的智能导医系统[J].计算机应用与软件,2015,32(9):81-83. 被引量：4
5李镇君,周竹荣.基于Document Triage的TF-IDF算法的改进[J].计算机应用,2015,35(12):3506-3510. 被引量：14
6王中祥,杨成虎.复合动词的象似性及其语义、句法蕴含[J].语言与翻译,2016(3):13-18.
7贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
8董苑,钱丽萍.基于语义词典和词频信息的文本相似度计算[J].计算机科学,2017,44(B11):422-427. 被引量：8
9王嘉宁,苏翀,任瞳.医院智能导诊系统设计与实现[J].医学信息学杂志,2018,39(8):29-32. 被引量：6
10葛文馨,魏永山.一种基于编码习惯的SQL语句抄袭检测算法[J].软件,2019,40(11):4-8. 被引量：1

同被引文献120

1陈仁祥,张勇,杨黎霞,陈才,徐向阳.基于整周期数据和卷积神经网络的谐波减速器健康状态评估[J].仪器仪表学报,2020,41(2):245-252. 被引量：20
2宋颖毅,叶东升,王坤龙,葛志.无监督的问句相似度匹配方法[J].计算机应用研究,2020,37(S02):69-72. 被引量：2
3蒋德良.基于规则匹配的突发事件结果信息抽取研究[J].计算机工程与设计,2010,31(14):3294-3297. 被引量：17
4姚飞,纪磊,张成昱,陈武.实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J].现代图书情报技术,2011(4):77-81. 被引量：102
5赵小明,朱洪波,陈黎,王亚强,秦湘清,于中华.基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计,2011,32(7):2348-2351. 被引量：6
6罗芳玲.汉语和老挝语主谓宾成分的特点及比较[J].出国与就业（就业教育）,2011(16):220-221. 被引量：3
7毛先领,李晓明.问答系统研究综述[J].计算机科学与探索,2012,6(3):193-207. 被引量：59
8翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34
9游彬,严岳松,孙英阁,刘靖.基于HowNet的信息量计算语义相似度算法[J].计算机系统应用,2013,22(1):129-133. 被引量：16
10高强,游宏梁.事件抽取技术研究综述[J].情报理论与实践,2013,36(4):114-117. 被引量：30

引证文献8

1李凡,白尚旺,党伟超,潘理虎.基于Do-Bi-LSTM模型的电子政务文本相似度评估模型[J].计算机与现代化,2020,0(7):71-75. 被引量：1
2白贺伊.基于卷积神经网络的健康大数据智能分析方法研究[J].电子设计工程,2021,29(10):10-14. 被引量：5
3马晓雯,何琳,刘建斌,李章超,高丹.基于Bi-LSTM的古籍事件句触发词分类方法研究[J].农业图书情报学报,2021,33(9):27-36. 被引量：3
4范庆春,王欣莲.基于加权词向量的毕业设计选题查重方法研究[J].电脑知识与技术,2021,17(26):179-182.
5朱龙珠,张明杰,张全,宫立华,徐青.基于多层次语义表示学习的电力服务诉求识别[J].电子器件,2022,45(6):1424-1428.
6李炫达,周兰江,张建安.融合词性位置特征的多任务汉老双语短文本相似度计算方法[J].中文信息学报,2023,37(4):18-27.
7余骞,王培培,刘炜.面向精准交互的智能预问诊模型研究[J].计算机应用与软件,2023,40(9):65-72.
8周朝阳,贺艳菊,夏岭梅,闵昭浩.融合词性与语义相关性的图书馆智能咨询系统问句相似性计算方法研究[J].情报探索,2024(5):1-8.

二级引证文献9

1李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：5
2刘一航,宋洁,李梦洁,陈松,姜勃宇,俎毓伟,张春英,武建辉.基于数据挖掘的低增生性骨髓增生异常综合征与再生障碍性贫血分类模型研究[J].现代预防医学,2021,48(17):3254-3258. 被引量：2
3许健,潘伟华,金玮,黄宇飞,尤超.医疗服务大数据R统计的Spark计算平台分析[J].现代科学仪器,2021,38(6):30-34. 被引量：1
4王毓琦,高嵩,万校宏,李元元,杨子江.电网负荷分类评价反馈算法研究[J].山东电力技术,2022,49(3):20-24. 被引量：3
5何琳,马晓雯,喻雪寒,艾毓茜,李章超,高丹.典籍事件触发动词识别研究:基于《左传》的文本实验[J].图书情报工作,2022,66(5):133-141. 被引量：4
6陈鑫.智能无人机在火灾监测和救援中的应用[J].青岛大学学报（工程技术版）,2022,37(3):83-86.
7何晓婷,罗琳雪.“互联网+”母婴延续护理的研究进展[J].护理实践与研究,2022,19(24):3687-3691. 被引量：3
8魏鑫,何小海,滕奇志,卿粼波,陈洪刚.基于BERT-BiLSTM-Attention混合模型的事件抽取方法[J].计算机与现代化,2023(4):26-31.
9祁星,胡乐,郑昊,孙琳.医疗服务大数据R统计的Spark计算平台分析[J].信息技术,2024,48(8):163-168.

1苏慧婧,群诺,贾宏云.基于KNN模型的藏文文本分类研究与实现[J].高原科学研究,2019,3(2):88-92. 被引量：6
2唐甲锋.语境:古诗词教学的基石[J].小学教学参考,2019,0(28):59-59.
3冯兴杰,张乐,曾云泽.基于多注意力CNN的问题相似度计算模型[J].计算机工程,2019,45(9):284-290. 被引量：15
4戢坤池,庄迪君,王楠,高秀芝,王志华,王沣浩.焓湿向量空间及空调系统实际性能计算[J].制冷与空调（四川）,2019,33(4):360-366.
5何阳宇,易绵竹,李宏欣.老挝政治外交领域本体术语集构建研究[J].中国科技术语,2019,21(4):5-12.
6任好.基于SVM支持向量机算法的机动车尾气烟度视频识别系统[J].科技经济导刊,2019,0(24):16-16.
7唐曌堃.结合废旧工业的景观雕塑对环境污染降低作用建模研究[J].环境科学与管理,2019,44(8):36-41. 被引量：1
8何非.航空器侧向偏置监控系统的设计与实现[J].电脑编程技巧与维护,2019,0(9):52-53.
9张朝,郭秀娟,张坤鹏.K-means算法聚类中心选取[J].吉林大学学报（信息科学版）,2019,37(4):437-441. 被引量：22
10张璐,芦天亮,杜彦辉.基于WMF_LDA主题模型的文本相似度计算[J].计算机应用研究,2019,36(10):2916-2919. 被引量：10

小型微型计算机系统

2019年第10期

浏览历史

内容加载中请稍等...

利用加权词句向量的文本相似度计算方法被引量：8

参考文献2

二级参考文献8

共引文献11

同被引文献120

引证文献8

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

利用加权词句向量的文本相似度计算方法 被引量：8

参考文献2

二级参考文献8

共引文献11

同被引文献120

引证文献8

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

利用加权词句向量的文本相似度计算方法被引量：8