摘要
实体知识的自动识别是古文智能处理的重要内容,也是古文数字人文研究的技术支撑。以实体知识为基础的数字人文研究若不考虑古籍中普遍存在的实体歧义,将难以得到准确可靠的数据和结论。文章以《春秋经传引得》为文本语料,考察了语料中同名异指和异名同指两大类人名实体歧义,根据古文实体歧义消解的特殊性,提出两类歧义的消解方法和思路。研究基于实体语境和时间知识,构建了消歧规则并以先秦古汉语为实例进行了验证。上述方法在其他古汉语语料中的适用性值得进一步探究,基于消歧后的语料,文章呈现了先秦人物的基本全貌,表明了本研究的价值所在。
In Ancient Chinese Information Processing,the extraction of entity knowledge is one of the most important studies.Study of digital humanities with entity knowledge should concern more about entity ambiguity for more precise results.The article presents two rule-based methods on entity disambiguation with the ancient Chinese corpus.Two types of entity ambiguity were deeply discussed and two methods with examples of entities in Chunqiu Jingzhuan Yinde were presented.Further research on more ancient Chinese corpus would have shown better understanding of the methods presented above.A visualization study with the data of disambiguated entities was carried out at last and thus showed the value of this study.
出处
《图书与情报》
CSSCI
北大核心
2020年第5期115-124,共10页
Library & Information
基金
国家社科基金重大项目“基于《汉学引得丛刊》的典籍知识库构建及人文计算研究”(项目编号:15ZDB127)
国家自科基金面上项目“基于典籍引得的句法级汉英平行语料库构建及人文计算研究”(项目编号:71673143)
江苏省社科基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果之一。
关键词
古文信息处理
实体歧义
古文智能处理
古文数字人文
ancient Chinese information processing
entity ambiguity
intelligent processing
ancient Chinese digital humanities