-
题名基于训练样本集扩展的隐式篇章关系分类
被引量:3
- 1
-
-
作者
朱珊珊
洪宇
丁思远
严为绒
姚建民
朱巧明
-
机构
苏州大学江苏省计算机信息处理技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2016年第5期111-120,共10页
-
基金
国家自然科学基金(61373097
61272259
+6 种基金
61272260
90920004)
教育部博士学科点专项基金(2009321110006
20103201110021)
江苏省自然科学基金(BK2011282)
江苏省高校自然科学基金(11KJA520003)
苏州市自然科学基金(SH201212)
-
文摘
隐式篇章关系分类主要任务是在显式关联线索缺失的情况下,自动检测特定论元之间的语义关系类别。前人研究显示,语言学特征能够有效辅助隐式篇章关系的分类。目前,主流检测方法由于缺少足够的已标注隐式训练样本,导致分类器无法准确学习各种分类特征,分类精确率仅约为40%。针对这一问题,该文提出一种基于训练样本集扩展的隐式篇章关系分类方法。该方法首先借助论元向量,以原始训练样本集为种子实例,从外部数据资源中挖掘与其在语义以及关系上一致的"平行训练样本集";然后将"平行训练样本集"加入原始训练样本集中,形成扩展的训练样本集;最后基于扩展的训练样本集,实现隐式篇章关系的分类。该文在宾州篇章树库(Penn Discourse Treebank,PDTB)上对扩展的训练样本集进行评测,结果显示,相较于原始训练样本集,使用扩展的训练样本集的实验系统整体性能提升8.41%,在四种篇章关系类别上的平均性能提升5.42%。与现有主流分类方法性能对比,识别精确率提升6.36%。
-
关键词
隐式篇章关系
语义向量
训练样本集扩展
篇章分析
-
Keywords
implicit discourse relation
semantic vector
training data expansion
discourse analysis
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-