期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于词性和关键词的短文本相似度计算方法被引量：2

Optimizing Word Mover's Distance Algorithm with Text Rank

下载PDF

导出

摘要 Word Mover’s Distance(WMD)是近年来非常热门的一个计算文本距离的算法,可以较为准确地进行文本相似度测量,被广泛应用于舆情分析,内容分类等。在WMD算法中,最重要的是将词进行词袋化处理,得到300维度的词向量,由于在得到词向量时,词的权重是随机分配的,所以最终得到的相似文本内容正确率不稳定。文章在WMD算法基础上,提取关键词,结合词性分类,给不同词性的词语分配不同的权重,从而进一步优化WMD算法,提高分类的准确率。 Word Mover＇s Distance is a very popular algorithm in recent years. This algorithm provides a new way to calculate the distance between words and words, so it can be applied in natural language processing such as public opinion processing and social media classification. In the WMD algorithm, the most important thing is to word-pack the words to get the word vectors of300 dimensions. Since the weight of the words is randomly assigned when the word vectors are obtained, the accuracy of the resulting similar text contents is not stable. Based on the WMD algorithm, this dissertation extracts keywords and combines part-of-speech classification to assign different weights to terms of different parts of speech to further optimize the WMD algorithm and improve the classification accuracy.

作者赵明月 Zhao Mingyue(School of Computer and Information Engineering, Henan University, Kaifeng, Henan475004, Chin)

机构地区河南大学计算机与信息工程学院

出处《计算机时代》 2018年第5期66-70,73,共6页 Computer Era

关键词词性分类权重提取关键词相似度 part-of-speech classification weight extract keyword similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献15

1金勇,张文敏.网络科技论文质量评价研究[J].现代商贸工业,2009,21(2):30-31. 被引量：4
2陈雯兰,陈石平.基于AHP的学术论文质量评价方法研究[J].浙江工业大学学报,2012,40(2):222-225. 被引量：11
3冯君,周静珍,杜芸.单件专利质量评价指标体系研究[J].科技管理研究,2012,32(23):166-170. 被引量：28
4邱香华.模糊综合评判法在学术型硕士学位论文质量评价中的应用[J].西南大学学报（自然科学版）,2018,40(11):81-85. 被引量：6
5吕晓蓉.专利价值评估指标体系与专利技术质量评价实证研究[J].科技进步与对策,2014,31(20):113-116. 被引量：58
6张学梅.NSP:一种作者评价指标及其与H指数之比较[J].图书情报工作,2014,58(21):111-115. 被引量：6
7刘汉峰.全面从严治党的思考[J].中国特色社会主义研究,2015(1):102-107. 被引量：62
8许耀桐.党的十八大以来全面从严治党的新进展[J].国家行政学院学报,2017(4):26-31. 被引量：10
9张杰,孙超,翟东升,孙宁宁,栾博杨.基于诉讼专利的专利质量评价方法研究[J].科研管理,2018,39(5):138-146. 被引量：34
10张黎,李倩,禹建丽.基于犹豫模糊软集的专利质量评价模型[J].科技促进发展,2018,14(5):440-446. 被引量：7

引证文献2

1张辛.基于TFIDF算法的全面从严治党重要论述关键词共现分析[J].现代盐化工,2019,46(5):150-152. 被引量：1
2韦伟,李小娟.基于相似论文增广的深度学习专利质量评估[J].计算机应用,2020,40(4):966-971. 被引量：1

二级引证文献2

1云洁,白雪.大数据驱动的计算机网络远程教学质量评价研究[J].现代电子技术,2021,44(9):166-170. 被引量：5
2罗玲,李硕凯,何清,杨骋骐,王宇洋恒,陈天宇.基于知识图谱、TF-IDF和BERT模型的冬奥知识问答系统[J].智能系统学报,2021,16(4):819-826. 被引量：8

1ZHANG Lifeng,ZHANG Chunhong,HU Zheng,TANG Xiaosheng.Behavior Targeting Based on Hierarchical Taxonomy Aggregation for Heterogeneous Online Shopping Applications[J].ZTE Communications,2018,16(1):52-60.
2Malte Behrmann.Digital Revolutions Affecting Distribution Within the Games Sector[J].Management Studies,2018,6(2):139-146.
3Kong Xiangyan,Chen Xiangjun.Double Difference Location of the Mainshock and Aftershocks of the Hutubi MS6.2 Earthquake That Occurred on December 8,2016[J].Earthquake Research in China,2018,32(2):227-232.

计算机时代

2018年第5期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部