基于计数模型的Word Embedding算法

Word embedding algorithm based on count-based models

下载PDF

导出

摘要 Word Embedding是当今非常流行的用于文本处理任务的一种技术。基于计数模型的Word Embedding相比预测模型具有简单、快捷、易训练、善于捕捉词语相似性等优势。基于计数模型,选取2种上下文环境,运用2种权重计算方法和2种相似度计算方法,构建了5种Word Embedding模型。在词语相似性任务上比较和分析了5种Word Embedding模型,发现采用降维策略后的词表达效果要优于降维前的词表达效果;5种模型中,选取窗口上下文,PMI权重计算方法和余弦相似度计算方法的Word Embedding模型在词语相似性任务上表现最为出色。将5种模型和基于预测的Skip-gram模型进行了对比,结果表明在选取训练向量维度为100维时,基于计数的大部分模型在词语相似性任务上可以达到和Skip-gram一样甚至更好的性能。 Currently word embedding is a very popular technology for text processing tasks.Compared to the predictive model,word embedding based on Count-based models has the advantages such as simple,fast,easy to train and good at capturing word similarity.In this paper,by applying count-based models,two kinds of contexts were selected,and two weight calculation methods and two similarity calculation methods were used to construct five word embedding models.These models were compared and analyzed on word similarity task,and it was found that dimensionality reduction could lead to better performance.Among the five models,the word embedding model using window context,PMI weight calculation method and cosine similarity calculation method performs the best.We also compared these five models with the Skip-gram model based on prediction,and the results showed that most of the count-based models can provide the same or better performance on word similarity task when the training vector was 100 dimensions.

作者裴楠王裴岩张桂平

机构地区沈阳航空航天大学人机智能研究中心

出处《沈阳航空航天大学学报》 2017年第2期66-72,共7页 Journal of Shenyang Aerospace University

基金国家科技支撑计划项目(项目编号:2015BAH20F01)

关键词词表达计数模型分布式词表达词语相似性 word representations count-based models word embedding word similarities

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陈恩红,邱思语,许畅,田飞,刘铁岩.单词嵌入——自然语言的连续空间表示[J].数据采集与处理,2014,29(1):19-29. 被引量：10
2施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
3伍长荣,叶明全,胡学钢.基于PCA的RBF神经网络预测方法研究[J].安徽工程科技学院学报（自然科学版）,2007,22(1):59-62. 被引量：5
4王开军,黄添强.基于趋势秩的Spearman相关方法[J].福建师范大学学报（自然科学版）,2010,26(1):38-41. 被引量：27

二级参考文献48

1伍长荣,胡学钢.基于RBF神经网络的粮食生产预测研究[J].安徽工程科技学院学报（自然科学版）,2004,19(4):51-54. 被引量：7
2谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
3许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
4柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
5张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
6初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
7Farina L, De Santis A, Salvucci S, et al. Embedding mRNA stability in correlation analysis of time-series gene expression data [J]. PLoS Computational Biology, 2008, 4 (8): e1000141.
8Bickel D R. Robust cluster analysis of microarray gene expression data with the number of clusters determined biologically [J]. Bioinformaties, 2003, 19 (7): 818--824.
9Radde N, Gebert J, Forst C V. Systematic component selection for gene-network refinement [J]. Bioinformatics, 2006, 22 (11): 2674--2680.
10Maharaj E A. Pattern recognition of time series using wavelets [C] //Proceedings in Computational Statistics: 15th Symposium,2002, Berlin (Compstat 2002). Heidelberg: Physiea-verlag, 2002: 497--502.

共引文献256

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：8
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：4
5王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：5
6陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
7杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：3
8曾伟良,龚峻峰,何兆成,朱倩茹,陈晓翔.降雨对城市道路交通行驶速度的影响分析[J].环境科学与技术,2011,34(S2):201-205. 被引量：12
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10张承中,王兰霞,王晓平,宋春香.基于PCA与RBF神经网络的PM_(10)质量浓度预测[J].科技信息,2008(10):26-27.

1王琳,李爱国,邹开其.早期火灾火焰识别的滑动平均计数模型[J].辽宁工程技术大学学报（自然科学版）,2016,35(7):781-784.
2张玉玲,尹传环.基于SVM的安卓恶意软件检测[J].山东大学学报（工学版）,2017,47(1):42-47. 被引量：4
3董建设,袁占亭,张秋余.基于多种核函数的SVM在垃圾邮件过滤中的应用[J].计算机应用,2008,28(2):424-427. 被引量：3
4胡玉娴.基于《知网》和遗传算法的中文文本聚类特征选择[J].中国电子商情（通信市场）,2009(2):87-92.
5郑艳红,张东站.基于同义词词林的文本特征选择方法[J].厦门大学学报（自然科学版）,2012,51(2):200-203. 被引量：5
6徐鹏鹏,苏本跃.改进二项分布的性质及其应用[J].安庆师范学院学报（自然科学版）,2016,22(4):11-13. 被引量：2
7阳馨,蒋伟,刘晓玲.基于多种特征池化的中文文本分类算法[J].四川大学学报（自然科学版）,2017,54(2):287-292. 被引量：11
8张慈祥,刘辉,强振平.基于稀疏表示和奇异值分解的人脸识别[J].计算机应用,2013,33(A01):233-235. 被引量：9
9夏冰.基于MIDF(t)的短文本特征权重计算方法研究[J].黑龙江科学,2016,7(16):28-29. 被引量：1
10于洁.Skip-Gram模型融合词向量投影的微博新词发现[J].计算机系统应用,2016,25(7):130-136. 被引量：3

沈阳航空航天大学学报

2017年第2期

浏览历史

内容加载中请稍等...

基于计数模型的Word Embedding算法

参考文献4

二级参考文献48

共引文献256

相关作者

相关机构

相关主题

浏览历史