-
题名基于词信息嵌入的汉语构词结构识别研究
被引量:1
- 1
-
-
作者
郑婳
刘扬
殷雅琦
王悦
代达劢
-
机构
北京大学计算机学院
北京大学计算语言学教育部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2022年第5期31-40,66,共11页
-
基金
国家自然科学基金(62036001)
国家社会科学基金(18ZDA295)。
-
文摘
作为一种意合型语言,汉语中的构词结构刻画了构词成分之间的组合关系,是认知、理解词义的关键。在中文信息处理领域,此前的构词结构识别工作大多沿用句法层面的粗粒度标签,且主要基于上下文等词间信息建模,忽略了语素义、词义等词内信息对构词结构识别的作用。该文采用语言学视域下的构词结构标签体系,构建汉语构词结构及相关信息数据集,提出了一种基于BiLSTM和selfattention的模型,以此来探究词内、词间等多方面信息对构词结构识别的潜在影响和能达到的性能。实验取得了良好的预测效果,准确率达77.87%,F_(1)值为78.36%;同时,对比测试揭示,词内的语素义信息对构词结构识别具有显著的贡献,而词间的上下文信息贡献较弱且带有较强的不稳定性。
-
关键词
汉语构词结构
词信息
语素
-
Keywords
Chinese word-formation
word features
morphemes
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-