摘要
本文介绍了利用半监督学习方法自动发现标注语料中丢失的关系类型。针对候选关系样例,我们采用混合模型来表示,即利用关系类型的语言信息和结构化信息来表示一个关系样例。我们利用半监督学习算法Bootstrapping和标签传播算法标注语料中已存在关系类型的样例。对于剩下的关系样例,我们采用聚类的方法,得到的结果对应到标注语料中丢失的关系类型。本实验的实验数据是ACE2005中文语料,实验表明我们的模型取得了良好的效果。
In this paper,we propose a novel semi-supervised model to discover those missing relation types in labeled corpus and fulfill the aim of relation extraction automatically.We combine language information and structured information to represent candidate relation instances.First,we make use of Bootstrapping and Label Propagation algorithms to label the relation instances,whose types have exist in corpus.Second,we use unsupervised method to cluster the remaining relation instances and discover the missing relation types.Evaluation on the ACE2005 corpus shows that our proposed method can achieve ideal experimental results.
出处
《心智与计算》
2012年第1期45-53,共9页
Mind and Computation
基金
国家自然科学基金项目(60803078)
关键词
关系抽取
半监督学习
类型发现
标签传播
relation extraction
semi-supervised learning
type discovery
label propagation