单词嵌入——自然语言的连续空间表示被引量：10

Word Embedding:Continuous Space Representation for Natural Language

下载PDF

导出

摘要单词嵌入是指运用机器学习的方法,将位于高维离散空间(维数为词典单词数目)中的每个单词映射到低维连续空间的实数向量的技术。在很多文本处理的任务中,单词嵌入提供了更好的语义级别的单词特征表示,从而为文本处理任务带来了诸多便利。同时,大数据时代海量的未标注文本数据,以及以深度学习为代表的机器学习技术的发展使高效的单词嵌入技术成为可能。本文将给出单词嵌入的定义以及实际意义,同时将综述目前单词嵌入技术的几种典型方法,包括基于神经网络的方法、基于受限玻尔兹曼机的方法以及基于单词与上下文共生矩阵分解的方法。本文将详细介绍不同模型的数学定义、物理意义以及训练方法,并给出他们之间的比较。 Word embedding refers to a machine learning technology which maps seach of word lying in high-dimensional discrete space （with dimension to be the number of all words） to a real number vector in low-dimensional continuous space. Word embedding provides better se- mantic word representations, and thus greatly benefits text processing tasks. Meanwhile, huge amount of unlabeled text data, together with the development of advanced machine learning techniques such as deep learning, make it possible to effectively obtain high quality word em- beddings. Besides, the definition and practical value of word embedding are given, and some classical methods are also reviewed to obtain word embedding, including neural network based methods, restricted Bohzmann machine based methods, and methods based on factorization of context co-occurrence matrix. For each model, its mathematical definition, physical meaning are introduced in detail, as well as training procedure. In addition, all these methods are com- pared in the aforementioned three aspects.

作者陈恩红邱思语许畅田飞刘铁岩

机构地区中国科学技术大学计算机科学与技术系南开大学计算机科学与信息安全系微软亚洲研究院

出处《数据采集与处理》 CSCD 北大核心 2014年第1期19-29,共11页 Journal of Data Acquisition and Processing

关键词机器学习自然语言单词嵌入文本处理 machine learning natural language word embedding text processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献20

1Rie Kubota Ando, Tong Zhang. A high-performance semi-supervised learning method for text chunking [C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACLt 05). Stroudsburg, PA, USA: Association for Com- putational Linguistics, 2005 : 1-9.
2Suzuki J, Isozaki H. Semi-supervised sequential labe- ling and segmentation using giga-word scale unlabeled data[C]//Proceedings of the 46th Annual Meeting on Association for Computational Linguistics (ACL' 08). Columbus, Ohio, USA: Association for Com- putational Linguistics,2008 : 665-673.
3Suzuki J, Isozaki H, Carreras X, et al. An empirical study of semi-supervised structured conditional mod- els for dependency parsing[C]//Proceedings of the 2009 Conference on Empirical Methods in NaturalLanguage Processing: Volume 2. [S. 1. ]:Association for Computational Linguistics, 2009 : 551-560.
4Bengio Y, Ducharme R, Vincent P. A neural proba- bilistic language model[C]//Advances in Neural In- formation Processing Systems. Vancouver, British Columbia, Canada: Neural Information Processing Systems Foundation, 2001: 933-938.
5Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
6Morin F, Bengio Y. Hierarchical probabilistic neural network language model [C]//Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics. Barbados: ACM, 2005:246-252.
7Mikolov T, Chen K, Corrado G, et al. Efficient esti- mation of word representations in vector space[EB/ OL]. arXiv preprint arXiv, 2013:1301:3781.
8Mnih A, Hinton G. Three new graphical models for statistical language modelling[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA: ACM, 2007: 641-648.
9Mnih A, Hinton G E. A scalable hierarchical distrib- uted language model[C]//Advances in Neural Infor- mation Processing Systems. Vancouver, B C, Cana- da: Neural Information Processing Systems Founda- tion, 2008: 1081-1088.
10Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their com- positionality[C]//Advances in Neural Information Processing Systems. Nevada, United States: Neural Information Processing Systems Foundation, 2013: 3111-3119.

同被引文献62

1王兴先.《格萨尔王传》中岭国历代王室之辨析[J].西北民族研究,1986(0):211-223. 被引量：1
2褚娜.《荷马史诗》与《格萨尔王》男性形象及文化内涵对比研究[J].长春教育学院学报,2013,29(22):35-36. 被引量：2
3索代.析《格萨尔王传》的人物体系[J].西藏艺术研究,1996(2):41-46. 被引量：2
4车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
5李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30. 被引量：33
6张树良,冷伏海.基于文献的知识发现的应用进展研究[J].情报学报,2006,25(6):700-712. 被引量：47
7李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
8伍长荣,叶明全,胡学钢.基于PCA的RBF神经网络预测方法研究[J].安徽工程科技学院学报（自然科学版）,2007,22(1):59-62. 被引量：5
9王大亮,涂序彦,郑雪峰,佟子健.多策略融合的搭配抽取方法[J].清华大学学报（自然科学版）,2008,48(4):608-612. 被引量：6
10马学仁.论超同的反面典型——《格萨尔王传》人物探[J].西北民族大学学报（自然科学版）,1998,0(2):93-99. 被引量：3

引证文献10

1尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
2杨令铎,史海波,周晓锋.基于词向量的评价搭配抽取算法研究[J].小型微型计算机系统,2016,37(10):2269-2272.
3张文艳,李存华,仲兆满,王艺,李莉.结合规则与语义的中文人称代词指代消解[J].数据采集与处理,2017,32(1):149-156. 被引量：3
4裴楠,王裴岩,张桂平.基于计数模型的Word Embedding算法[J].沈阳航空航天大学学报,2017,34(2):66-72.
5付光远,刘津霖,蔡艳宁,李海龙.APF-Kitty:基于单词嵌入的新型专有协议模糊测试工具[J].科学技术与工程,2017,17(21):82-88. 被引量：1
6余冲,李晶,孙旭东,傅向华.基于词嵌入与概率主题模型的社会媒体话题识别[J].计算机工程,2017,43(12):184-191. 被引量：13
7陈博,陈建龙.基于词向量和远程监督学习的格萨尔领域知识发现方法研究[J].西藏大学学报（社会科学版）,2019,34(2):122-130.
8范晓明,王斌君.基于相码模型的汉字表征[J].科学技术与工程,2021,21(5):1937-1947.
9沈思,李沁宇,叶媛,孙豪,叶文豪.基于TWE模型的医学科技报告主题挖掘及演化分析研究[J].数据分析与知识发现,2021,5(3):35-44. 被引量：11
10包启明,裴志利,姜明洋,熊露.基于B-DMM的蒙医药文本数据聚类算法研究[J].内蒙古民族大学学报（自然科学版）,2023,38(2):124-128. 被引量：1

二级引证文献32

1刘玉文,王凯.面向地域的网络话题识别方法[J].数据分析与知识发现,2020,4(2):173-181. 被引量：2
2周勇义.高等学校开展科学仪器研发创新工作的思考[J].实验技术与管理,2012,29(3):208-210. 被引量：12
3李茹,郭倩.基于汉语框架语义关系的零形式识别与消解[J].山西大学学报（自然科学版）,2018,41(4):700-708. 被引量：1
4夏吾吉,华却才让.基于混合策略的藏文人称代词指代消解研究[J].计算机工程与应用,2018,54(7):66-69. 被引量：2
5赵宇,李佳艺,王莉.基于多任务融合模型的用户属性推断[J].数据采集与处理,2018,33(2):334-342. 被引量：2
6许莹莹,黄浩.基于标签分解的口语理解模型[J].计算机工程,2019,45(7):237-241.
7韩肖赟,侯再恩,孙绵.基于主题模型及其扩展的短文本算法评述[J].计算机应用与软件,2020,37(1):1-7. 被引量：3
8韩肖赟,侯再恩,孙绵.主题模型在短文本上的应用研究[J].计算机工程与科学,2020,42(1):144-152. 被引量：1
9严长春,生佳根,於跃成,李君.基于主题模型包含突发因素的推荐算法研究[J].计算机与数字工程,2020,48(6):1304-1308. 被引量：2
10王晓晨,沈晶,刘海波,于爱民,蔡利君.自动协议逆向工程研究综述[J].计算机应用研究,2020,37(9):2561-2570. 被引量：2

1余玲,刘康,李开世.蚁群算法的连续空间算法研究[J].机械设计与研究,2006,22(2):6-8. 被引量：4
2张宇峰.什么是边缘[J].办公自动化,2016,0(4):33-33.
3薛洁,刘希玉.数据挖掘技术与网上购物推荐系统[J].网络安全技术与应用,2011(3):58-60. 被引量：1
4敬茂华.对拒绝服务说“NO”——DoS攻击的原理与典型方法[J].网管员世界,2004(7):63-65.
5罗四维.遗传算法神经网络的学习方法[J].北方交通大学学报,1995,19(4):541-543. 被引量：5
6刘琴.机器学习[J].武汉工程职业技术学院学报,2001,13(2):41-44. 被引量：7
7于跃,王丽红.国外嵌入技术发展动态及应用[J].一重技术,2008(2):6-7.
8潘光斌.OLE技术在自动检测系统中的应用[J].实用测试技术,2002,28(1):17-18. 被引量：1
9陈增林.云端共生2015中国（重庆）云博会[J].微型计算机,2015,0(13):19-21.
10潘林森.BASIC语言调用8087子程序快速排序实数的方法[J].新浪潮,1991(1):62-62.

数据采集与处理

2014年第1期

浏览历史

内容加载中请稍等...

单词嵌入——自然语言的连续空间表示被引量：10

参考文献20

同被引文献62

引证文献10

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

单词嵌入——自然语言的连续空间表示 被引量：10

参考文献20

同被引文献62

引证文献10

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

单词嵌入——自然语言的连续空间表示被引量：10