-
题名基于平行周遍原则的汉语未登录词的知识表示与预测
被引量:3
- 1
-
-
作者
康司辰
虞梦夏
刘扬
-
机构
北京大学计算语言学教育部重点实验室
北京大学中国语言文学系
-
出处
《中文信息学报》
CSCD
北大核心
2020年第8期23-31,共9页
-
基金
国家社会科学基金(16BYY137、18ZDA295)。
-
文摘
汉语未登录词的知识表示与预测,包括词性、构词结构、词义等项目,是计算语言学领域中的基础性问题。该文依据"平行周遍"原则,从现有的语义构词知识中提取"平行条件",将未登录词潜在的构词因素与这些"平行条件"进行适应性匹配,从而对其知识表示进行相对完整的预测。该方法将新的语言学理论与未登录词的理解应用问题结合,取得了显著的效果,其解释能力、便捷性和精细程度优于此前方法。这些研究,除了在自然语言处理领域有实用价值,也有望推动词典编撰、语言研究与教学等人文领域的进展。
-
关键词
汉语未登录词
平行周遍条件
语义构词
知识表示
知识预测
-
Keywords
Chinese unknown word
parallel condition
semantic word-formation
knowledge representation
know-ledge prediction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语言知识驱动的词嵌入向量的可解释性研究
被引量:2
- 2
-
-
作者
林星星
邱晓枫
刘扬
虞梦夏
祁晶
康司辰
-
机构
哈尔滨工业大学(深圳)计算机科学与技术学院
北京大学计算语言学教育部重点实验室
北京大学中国语言文学系
-
出处
《中文信息学报》
CSCD
北大核心
2020年第8期1-9,共9页
-
基金
国家社会科学基金(16BYY137、18ZDA295)。
-
文摘
神经网络语言模型应用广泛但可解释性较弱,其可解释性的一个重要而直接的方面表现为词嵌入向量的维度取值和语法语义等语言特征的关联状况。先前的可解释性工作集中于对语料库训得的词向量进行知识注入,以及基于训练和任务的算法性能分析,对词嵌入向量和语言特征之间的关联缺乏直接的验证和探讨。该文应用基于语言知识库的伪语料法,通过控制注入语义特征,并对得到的词嵌入向量进行分析后取得了一些存在性的基础性结论:语义特征可以通过控制注入到词嵌入向量中;注入语义特征的词嵌入向量表现出很强的语义合成性,即上层概念可以由下层概念表示;语义特征的注入在词嵌入向量的所有维度上都有体现。
-
关键词
可解释性
词嵌入向量
伪语料法
-
Keywords
interpretability
word embedding vector
pseudo-corpus method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-