词汇表示学习研究进展被引量：9

A Review of Word Representation Learning

下载PDF

导出

摘要词汇语义表示是自然语言理解的基础。传统的基于语义词典的编码表示构建成本高昂,而独热表示又存在高维稀疏等缺点。词汇的分布式表示将词汇映射为低维稠密的实值向量,能有效捕捉词汇间的语义关联,是当前主流的表示技术。本文从数据特征、学习目标和优化算法三个方面,对现有的词汇表示学习方法进行了全面深入的分析,重点介绍了这些方法的理论基础、关键技术、评价指标及应用领域。此外,本文还总结了该方向面临的主要挑战以及最新研究进展,并对词汇表示学习未来的发展方向做了展望。 Word representation that reflects semantic meaning is fundamental to natural language understanding tasks. The traditional method of encoding a word through a semantic dictionary is impractical due to the high construction cost, and one-hot representation suffers from various defects, such as high dimension and data sparsity. Distributed word representation,which projects the words into vectors in a low-dimensional real-valued space, can capture the semantic relatedness between the words and has been widely used in many NLP tasks. In this paper, we present an in-depth study of word representation learning methods from the perspectives of input data, learning objectives, and optimization algorithms, focusing on the theoretical basis, key techniques, evaluation methods, and application fields. We then summarize the main challenges and the latest advances in this research field, and we finally discuss possible future work in the field.

作者潘俊吴宗大 Pan Jun;Wu Zongda(School of Science,Zhejiang University of Science and Technology,Hangzhou 310023;Wenzhou Popper Big Data Research,Wenzhou 325035)

机构地区浙江科技学院理学院温州市波普大数据研究院

出处《情报学报》 CSSCI CSCD 北大核心 2019年第11期1222-1240,共19页 Journal of the China Society for Scientific and Technical Information

基金教育部人文社会科学研究青年基金项目“基于知识库和大规模文本的词汇语义表示研究”（18YJCZH137）浙江省自然科学基金重点项目“个性化文本检索服务用户个人隐私保护方法研究”（LZ18F020001）

关键词词汇表示表示学习词向量分布式表示深度学习 word representation representation learning word vector distributed representation deep learning

分类号 G63 [文化科学—教育学]

引文网络
相关文献

参考文献13

1李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：20
2王瑞琴,杨小明,楼俊钢.词汇语义相关性度量研究[J].情报学报,2016,35(4):389-404. 被引量：8
3张金柱,于文倩,刘菁婕,王玥.基于网络表示学习的科研合作预测研究[J].情报学报,2018,37(2):132-139. 被引量：37
4赵洪,王芳.理论术语抽取的深度学习模型及自训练算法研究[J].情报学报,2018,37(9):923-938. 被引量：41
5刘知远,孙茂松,林衍凯,谢若冰.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):247-261. 被引量：259
6刘知远,刘扬,涂存超,孙茂松.词汇语义变化与社会变迁定量观测与分析[J].语言战略研究,2016,1(6):47-54. 被引量：8
7张志毅,张庆云.柏拉图以来词义说的新审视[J].中国语文,2000(2):126-136. 被引量：7
8张晓娟.利用嵌入方法实现个性化查询重构[J].情报学报,2018,37(6):621-630. 被引量：10
9牛奉高,张亚宇.基于共现潜在语义向量空间模型的语义核构建[J].情报学报,2017,36(8):834-842. 被引量：10
10王毅,谢娟,成颖.结合LSTM和CNN混合架构的深度神经网络语言模型[J].情报学报,2018,37(2):194-205. 被引量：19

二级参考文献293

1姜小波,陈杰,仇玉林.一种简化的 SOVA算法[J].电子器件,2004,27(3):467-469. 被引量：1
2陈章太.当代中国的语言规划[J].语言文字应用,2005(1):2-12. 被引量：30
3林海明.因子分析的精确模型及其解[J].统计与决策,2006,22(14):4-5. 被引量：25
4杨建祖,顾小卓,杜晓宁,胡捍英.SOVA算法对Viterbi算法的修正[J].通信技术,2007,40(4):4-6. 被引量：4
5列维-斯特劳斯.《野性的思维》[M].商务印书馆,1987年版.第51页.
6索绪尔.《普通语言学教程》[M].商务印书馆,1980年版.第157页.
7布龙菲尔德.《语言论》[M].北京:商务印书馆,1980..
8洪堡特.《论人类语言结构的差异及其对人类精神发展的影响》[M].商务印书馆,1997年.第70页.
9兹维金采夫1962.《普通语言学纲要》(伍铁平等译)，商务印书馆，1981.
10诺维科夫.1982《俄语语义学》，莫斯科.

共引文献466

1熊回香,李晓敏,李跃艳.基于图书评论属性挖掘的群组推荐研究[J].数据分析与知识发现,2020,4(2):214-222. 被引量：7
2聂卉,何欢.引入词向量的隐性特征识别研究[J].数据分析与知识发现,2020,4(1):99-110. 被引量：2
3马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：8
4余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
5郑杏冉,黄卫东.网民心理视角下突发公共事件情感主题研究[J].知识管理论坛,2024(1):93-107.
6刘河庆,梁玉成.政策内容再生产的影响机制——基于涉农政策文本的研究[J].社会学研究,2021(1):115-136. 被引量：40
7唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11. 被引量：3
8刘云枫,孙平,葛志远.基于网络表示学习的作者合作推荐模型[J].情报科学,2020,0(2):75-80. 被引量：8
9张骁雄,杨琴琴,何浩然,丁鲲.面向俄乌冲突的时序知识图谱推理系统设计与实现[J].网络安全与数据治理,2023,42(S01):157-162.
10赵晓函,周子力,李天宇,陈丹华,王凯莉.一种基于IC参数的知识图谱嵌入方法[J].中文信息学报,2021,35(10):48-55.

同被引文献84

1张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
2张艳丽,秦霞.电子商务平台发展情况研究[J].市场周刊·理论版,2021(35):141-142. 被引量：1
3D.A.克鲁斯,榕培.用语境法研究词汇语义学[J].外语与外语教学,1987(4):7-14. 被引量：2
4丁芹.基于格式语义格的自动标引和词相似度计算[J].情报理论与实践,2004,27(4):363-366. 被引量：6
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
6刘慧,陈光.产业集群与技术集群的关联性分析[J].科学学与科学技术管理,2005,26(5):64-67. 被引量：7
7徐通锵.“字本位”和语言研究[J].语言教学与研究,2005(6):1-11. 被引量：56
8张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：34
9章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：39
10柯平,赵益民.从关键词与高频词的相关度看自动标引的可行性[J].情报科学,2009,27(3):326-328. 被引量：8

引证文献9

1彭阳,左锋,余芳强,张铭.“工业互联网+”建筑工程文档的知识网络研究[J].建筑经济,2021,42(S01):411-414.
2潘俊,吴宗大.词汇分布语义的语言学基础探微[J].浙江社会科学,2019,0(12):99-104. 被引量：1
3高广尚.面向人口属性预测的词嵌入构建方法[J].系统工程,2021,39(1):148-158.
4王辉,Marius Petrescu,潘俊辉,王浩畅,张强,张岩.面向油田领域的中文真词错误自动校对方法研究[J].计算技术与自动化,2021,40(1):140-143. 被引量：1
5潘俊,吴宗大.知识发现视角下词汇历时语义挖掘与可视化研究[J].情报学报,2021,40(10):1052-1064. 被引量：6
6赵京胜,宋梦雪,高祥,朱巧明.自然语言处理中的文本表示研究[J].软件学报,2022,33(1):102-128. 被引量：51
7韩红旗,桂婕,张运良,翁梦娟,薛陕,悦林东.大规模主题词自动标引方法[J].情报学报,2022,41(5):475-485. 被引量：5
8秦煜峰,刘爽.基于RoForm的电商领域命名实体识别[J].大连民族大学学报,2022,24(5):448-454. 被引量：1
9刘玉林,菅利荣.动态专利技术网络视域下技术集群识别[J].情报杂志,2024,43(4):114-120.

二级引证文献65

1汪欣,张铭毅,刘亚萍.精准推荐技术的工作逻辑和前沿应用[J].传媒论坛,2022,5(16):16-18.
2潘俊,吴宗大.知识发现视角下词汇历时语义挖掘与可视化研究[J].情报学报,2021,40(10):1052-1064. 被引量：6
3宋功鹏,李阳,安新周,张熙,韩琮师.基于CRF和LSTM的文本序列标注方法研究[J].信息技术与信息化,2022(7):129-132. 被引量：1
4籍雯媗,崔建业,冯斌,谷炜,郑翔,郭创新.基于视觉字符增强的电力调度故障预案匹配[J].中国电机工程学报,2022,42(15):5439-5447. 被引量：2
5杨进才,曹煜欣,胡泉,蔡旭勋.基于BERT-FHAN模型融合语句特征的汉语复句关系自动识别[J].计算机系统应用,2022,31(9):233-240.
6杨秀璋,武帅,宋籍文,廖文婧,任天舒,刘建义.基于LDA和关系图谱的数据治理文献主题演化研究[J].信息技术与信息化,2022(8):6-12. 被引量：2
7张丽,李菊.基于改进K-means算法的微博舆情热点分析[J].信息技术与信息化,2022(9):103-106. 被引量：2
8张芙蓉.中文文本自动校对技术研究综述[J].信息技术与信息化,2022(11):70-74.
9郭伟鹏,沈松雨.基于BERT模型的领域知识图谱构建研究[J].科技创新与应用,2022,12(36):16-19. 被引量：2
10刘滨,孙中贤,吕梓逸,孟宪达,陈莉,詹世源.智慧交通互联网态势感知平台研究[J].河北科技大学学报,2022,43(6):651-660. 被引量：2

1冯志伟.我国计算语言学研究70年[J].语言教育,2019,0(4):19-29. 被引量：5
2崔春生,王雪,李文龙.情境环境下基于用户画像的旅游产品推荐算法研究[J].数学的实践与认识,2019,49(20):122-131. 被引量：16
3方杰,李培峰,朱巧明.一种面向生文本的事件同指消解神经网络方法[J].中文信息学报,2019,33(9):31-38.
4陈剑强,杨俊杰,楼志斌.基于XGBoost算法的新型短期负荷预测模型研究[J].电测与仪表,2019,56(21):23-29. 被引量：22
5严忠波.高阶拓扑绝缘体和高阶拓扑超导体简介[J].物理学报,2019,68(22):63-72. 被引量：2
6胡银根,余依云,董文静,徐小峰,曾巍.基于消费效用函数的宅基地有偿使用面积有效阈值测算——以宅基地制度改革试点区域为例[J].农林经济管理学报,2019,18(5):667-674. 被引量：7
7周朝君,黄明辉,陆新江.基于低维约束嵌入的分布参数系统建模[J].浙江大学学报（工学版）,2019,53(11):2154-2162. 被引量：1
8朱艳丽,杨小平,王良,张志宇.TransRD：一种不对等特征的知识图谱嵌入表示模型[J].中文信息学报,2019,33(11):73-82. 被引量：9
9颜学龙,马润平.基于深度极限学习机的模拟电路故障诊断[J].计算机工程与科学,2019,41(11):1911-1918. 被引量：14
10邹小武,盛蒙蒙,毛家发,盛伟国.一种用于人体行为识别的CNN-BLSTM模型[J].小型微型计算机系统,2019,40(11):2313-2317. 被引量：5

情报学报

2019年第11期

浏览历史

内容加载中请稍等...

词汇表示学习研究进展被引量：9

参考文献13

二级参考文献293

共引文献466

同被引文献84

引证文献9

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

词汇表示学习研究进展 被引量：9

参考文献13

二级参考文献293

共引文献466

同被引文献84

引证文献9

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

词汇表示学习研究进展被引量：9