语言知识驱动的词嵌入向量的可解释性研究被引量：2

A Study of Knowledge Motivated Explainalbe Word Embedding Vector

下载PDF

导出

摘要神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论:语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。 Neural network language models have many applications without much interpretations.An important and direct aspect of its interpretability is the association between word embedding vectors and linguistic features.The previous work of interpretability focuses on the knowledge injection to corpus-based word embedding and the theoretical analysis of training models,without direct verification and discussion on the correlation between word embedding vectors and linguistic features.In this paper,the pseudo-corpus derived from knowledge bases is applied.Some preliminary findings include:1)it is feasible to inject semantic features into the word embedding vectors under control;2)the compositionality of the word embedding vectors,i.e.the upper concept can be represented by the lower concepts,is observed with injected linguistic features;3)the injection of semantic features is reflected in all dimensions of word embedding vectors.

作者林星星邱晓枫刘扬虞梦夏祁晶康司辰 LIN Xingxing;QIU Xiaofeng;LIU Yang;YU Mengxia;QI Jing;KANG Sichen(School of Computer Science and Technology,Harbin Institute of Technology(Shenzhen),Shenzhen,Guangdong 518055,China;Key Laboratory of Computational Linguistics(Ministry of Education),Peking University,Beijing 100871,China;Department of Chinese Language and Literature,Peking University,Beijing 100871,China)

机构地区哈尔滨工业大学(深圳)计算机科学与技术学院北京大学计算语言学教育部重点实验室北京大学中国语言文学系

出处《中文信息学报》 CSCD 北大核心 2020年第8期1-9,共9页 Journal of Chinese Information Processing

基金国家社会科学基金(16BYY137、18ZDA295)。

关键词可解释性词嵌入向量伪语料法 interpretability word embedding vector pseudo-corpus method

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1段宇光,刘扬,俞士汶.《同义词词林》的嵌入表示与应用评估[J].厦门大学学报（自然科学版）,2018,57(6):867-875. 被引量：2

二级参考文献11

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2葛斌,李芳芳,郭丝路,汤大权.基于知网的词汇语义相似度计算方法研究[J].计算机应用研究,2010,27(9):3329-3333. 被引量：65
3田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：175
4吕立辉,梁维薇,冉蜀阳.基于词林的词语相似度的度量[J].现代计算机,2013(1):3-6. 被引量：15
5石静,吴云芳,邱立坤,吕学强.基于大规模语料库的汉语词义相似度计算方法[J].中文信息学报,2013,27(1):1-6. 被引量：25
6刘丹丹,彭成,钱龙华,周国栋.《同义词词林》在中文实体关系抽取中的作用[J].中文信息学报,2014,28(2):91-99. 被引量：25
7王东,熊世桓.基于同义词词林扩展的短文本分类[J].兰州理工大学学报,2015,41(4):104-108. 被引量：9
8徐庆,段利国,李爱萍,阴桂梅.基于实体词语义相似度的中文实体关系抽取[J].山东大学学报（工学版）,2015,45(6):7-15. 被引量：4
9朱新华,马润聪,孙柳,陈宏朝.基于知网与词林的词语语义相似度计算[J].中文信息学报,2016,30(4):29-36. 被引量：63
10李国臣,吕雷,王瑞波,李济洪,李茹.基于同义词词林信息特征的语义角色自动标注[J].中文信息学报,2016,30(1):101-107 114. 被引量：7

共引文献1

1焦利敏,刘泽超,顾子谦,金轮,胡亚欣,王生泽,刘冬阳.智能家电语音交互能力测试语料库建设的研究[J].家电科技,2022(S01):130-134.

同被引文献13

1崔宝今,林鸿飞,张霄.基于半监督学习的蛋白质关系抽取研究[J].山东大学学报（工学版）,2009,39(3):16-21. 被引量：12
2欧阳丹彤,瞿剑峰,叶育鑫.关系抽取中基于本体的远监督样本扩充[J].软件学报,2014,25(9):2088-2101. 被引量：7
3吴胜,刘茂福,胡慧君,张志清,顾进广.中文文本中实体数值型关系无监督抽取方法[J].武汉大学学报（理学版）,2016,62(6):552-560. 被引量：6
4叶志斌,严波.符号执行研究综述[J].计算机科学,2018,45(B06):28-35. 被引量：19
5叶育鑫,薛环,王璐,欧阳丹彤.基于带噪观测的远监督神经网络关系抽取[J].软件学报,2020,31(4):1025-1038. 被引量：9
6宁尚明,滕飞,李天瑞.基于多通道自注意力机制的电子病历实体关系抽取[J].计算机学报,2020,43(5):916-929. 被引量：31
7任泽众,郑晗,张嘉元,王文杰,冯涛,王鹤,张玉清.模糊测试技术综述[J].计算机研究与发展,2021,58(5):944-963. 被引量：21
8王俊,史存会,张瑾,俞晓明,刘悦,程学旗.融合上下文信息的篇章级事件时序关系抽取方法[J].计算机研究与发展,2021,58(11):2475-2484. 被引量：5
9毛典辉,梁秀霞,赵爽,郝治昊.面向区块链平台的庞氏骗局模式检测方法[J].计算机技术与发展,2022,32(5):153-159. 被引量：1
10芦笑瑜,麻荣宽,魏强.符号执行研究综述[J].工业信息安全,2022(1):24-31. 被引量：2

引证文献2

1邵镜泽,李琳娜,聂耀鑫.基于分段卷积模型的中文实体关系抽取模型及应用[J].信息系统工程,2022,35(9):145-148.
2白英民,师智斌,信文阁,窦建民,张舒娟,王子建.基于词嵌入与Shapelet时序特征的智能合约漏洞检测方法研究[J].中北大学学报（自然科学版）,2023,44(4):381-387. 被引量：1

二级引证文献1

1李姝.基于改进网络爬虫技术的高性能计算机程序切片级漏洞检测方法[J].信息技术与信息化,2024(4):200-203.

1桂卫华,曾朝晖,陈晓方,谢永芳,孙玉波.知识驱动的流程工业智能制造[J].中国科学：信息科学,2020,50(9):1345-1360. 被引量：23
2罗锦秀.浅谈提升初中语文语言表达能力的措施[J].好日子,2020(26):00107-00107.
3完么扎西.现代藏语信息熵的估算及语言模型的复杂度[J].电子技术与软件工程,2020(17):213-215.
4薛光.中药过敏不可小觑[J].养生保健指南,2020(9):57-57.
5陈莉.语言迁移视域下非英语专业大学生连接词误用分析[J].陕西教育（高教版）,2020(11):24-25. 被引量：2
6孙素芳.未来图书馆领域知识驱动的索引功能需求和编目[J].智库时代,2020(28):64-65.
7范雨梦,李倩文.ECM下的类义复合词语义研究[J].贵州工程应用技术学院学报,2020,38(5):15-20.
8王海艳.信息化背景下大学英语教学语言输入有效性探索研究[J].时代人物,2020(21):0200-0201.
9张昧藏,赵亚娜,杨瑞栋,田小梅,杨志,王薇,杜太存.宇航电子产品工艺设计自动化方案浅析[J].航天制造技术,2020(3):20-23. 被引量：1

中文信息学报

2020年第8期

浏览历史

内容加载中请稍等...

语言知识驱动的词嵌入向量的可解释性研究被引量：2

参考文献1

二级参考文献11

共引文献1

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

语言知识驱动的词嵌入向量的可解释性研究 被引量：2

参考文献1

二级参考文献11

共引文献1

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

语言知识驱动的词嵌入向量的可解释性研究被引量：2