-
题名面向文本标题的人物关系抽取
被引量:3
- 1
-
-
作者
闫旸
赵佳鹏
李全刚
张洋
柳厅文
时金桥
-
机构
中国科学院信息工程研究所
电子科技大学计算机科学与工程学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第3期726-730,共5页
-
基金
中国科学院战略性先导科技专项基金资助项目(XDA06030200)~~
-
文摘
为了克服文本标题的人物关系抽取中非人物实体的干扰、关系特征词的选取以及标题中多人物实体对目标实体的关系判定的影响,提出基于决策树的人物实体判别、基于最小集合覆盖的关系特征词生成以及基于三层句式规则统计方法。首先,针对中国机器学习会议(CCML)竞赛中人物关系属性文件中对人物的描述,提取18种特征,采用C4.5分类器,获得了98.2%的查全率和92.6%的查准率,其结果作为下一步人物关系判定的条件;其次,为了保证特征词集合的规模维持在合适的水平,采用了基于最小集合覆盖的特征词覆盖的算法,结果表明,随着特征词集合达到一定的规模,特征词集合完成对所有类别关系的集合覆盖,用以判定文本标题中人物关系类型;最后,采用三层句式规则统计方法,用以生成过滤掉比重较小的句子规则和根据关系正负比例判定的进一步细分句式规则,以判定文本标题关系与否。实验结果表明,在19种人物关系判定上取得82.9%的查全率、74.4%的查准率以及78.4%的F1测度。所提方法可以有效用于新闻标题人物关系提取,用以构建人物关系知识图谱。
-
关键词
人物关系抽取
文本标题
最小集合覆盖
实体判别
句法规则
-
Keywords
personal relation extraction
textual headline
minimum set cover
personal entity judgment
syntax rule
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-