-
题名面向数字人文的古诗文本情感术语抽取与应用研究
被引量:22
- 1
-
-
作者
张卫
王昊
邓三鸿
张宝隆
-
机构
南京大学信息管理学院
-
出处
《中国图书馆学报》
CSSCI
北大核心
2021年第4期113-131,共19页
-
基金
国家自然科学基金面上项目“关联数据驱动下我国非遗文本的语义解析与人文计算研究”(编号:72074108)
中央高校基本科研业务费项目“面向人文计算的方志文本的语义分析和知识图谱研究”(编号:010814370113)的研究成果之一。
-
文摘
在跨学科知识范式下,数字人文的研究范畴随着自身学科体系的拓展而不断泛化,采取关键语义技术解析文化对象中的人文内涵与情感知识对于重拾学科"人文性"与"计算性"特质具有重要意义。本文以古诗文本为例,面向汉语诗文及其鉴赏实现大规模人文情感术语的自动化抽取与分析。首先在无标注集环境下提出一种基于"冷启动"的字序列自动标引方法来获取学习语料,随后在字向量(Char2Vec)指导下将汉字特征(部首、拼音等)和BERT语言学模型分别引入机器学习与深度学习模型,并从知识发现的角度定义新术语识别规则。研究发现,将现代鉴赏融入古诗原文显著优化了情感知识的广度与深度,领域术语能够被有效标引。训练的BERT-BiLSTM-CRFs深度学习模型的效果明显优于CRFs机器学习,最佳F1与F1distinct可分别达到95.63%和85.43%;同时汉字特征的引入也有效提升了传统CRFs效果,以领域特征和基于"竖心旁""心字底"部首约束特征为最优。相较于机器学习抽取出的长篇幅新术语,深度学习能够拓展出更多寄托情感知识的新意象词。源于诗文与鉴赏的情感术语为文学信息资源的情感分析与知识服务提供了参考(人文性),基于汉字语言特征的抽取方案为中文领域自然语言处理技术的深化提供了启迪(计算性)。
-
关键词
数字人文
古诗
情感术语抽取
汉字语言特征
Char2Vec
BERT
-
Keywords
Digital humanities
Ancient poetry
Sentiment term extraction
Chinese character linguistics feature
Char2Vec
BERT
-
分类号
G254
[文化科学—图书馆学]
-