-
题名基于卷积树核的无指导中文实体关系抽取研究
被引量:12
- 1
-
-
作者
黄晨
钱龙华
周国栋
朱巧明
-
机构
苏州大学计算机科学与技术学院
张家港广播电视大学
-
出处
《中文信息学报》
CSCD
北大核心
2010年第4期11-17,共7页
-
基金
国家自然科学基金资助项目(60873150
60970056
+1 种基金
90920004)
江苏省自然科学基金资助项目(BK2008160)
-
文摘
该文提出了一种基于卷积树核的无指导中文实体关系抽取方法。该方法以最短路径包含树作为关系实例的结构化表示形式,以卷积树核函数作为树相似度计算方法,并采用分层聚类方法进行无指导中文实体关系抽取。在ACE RDC 2005中文基准语料库上的无指导关系抽取实验表明,采用该方法的F值最高可达到60.1,这说明基于卷积树核的无指导中文实体关系抽取是行之有效的。
-
关键词
计算机应用
中文信息处理
实体关系抽取
卷积树核
无指导学习
层次聚类
-
Keywords
computer application
Chinese information processing
entity relation extraction
unsupervised learning
convolution tree kernel
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于卷积树核的事件论元角色抽取方法
被引量:1
- 2
-
-
作者
高源
席耀一
李弼程
杨静
-
机构
解放军信息工程大学信息系统工程学院
[
-
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第4期722-725,共4页
-
基金
国家社会科学基金项目(14BXW028)资助
-
文摘
事件论元角色抽取是事件抽取的关键环节,句法分析信息对事件论元角色抽取具有重要作用.传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息.为此,提出基于卷积树核的事件论元角色抽取方法.首先,构造基本树结构,将句法分析信息转化为结构特征;其次,针对句法结构树包含较多冗余信息的问题,设计相应裁剪算法,优化树结构、减少卷积树核计算的时间复杂度;最后,构造复合核将平面特征与结构特征相结合,并训练支持向量机分类器完成事件论元角色抽取.实验证明,本文方法使事件论元角色抽取效果有了明显提升.
-
关键词
事件抽取
事件论元角色
核函数
卷积树核
-
Keywords
event extraction
event argument role
kernel function
convolution tree kernel
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于卷积树核的中文微博情感要素识别
被引量:7
- 3
-
-
作者
陈锋
巢文涵
周庆
李舟军
-
机构
北京航空航天大学
-
出处
《计算机科学》
CSCD
北大核心
2014年第12期133-137,142,共6页
-
基金
国家自然科学基金(61003111
61170189
+1 种基金
61370126)
高等学校博士学科点专项科研基金(20101102120016)资助
-
文摘
情感要素识别是情感分析的关键子任务之一,其目的是识别出文本情感所作用的情感对象。文本情感要素识别属于最细粒度的情感分析,吸引了大量研究者的关注。中文微博由于其语言简短灵活、文本不规范、噪声较大等特点,给中文微博情感分析研究工作带来了新的挑战。目前大部分情感要素识别方法都是基于规则的方法或者基于扁平化特征的统计学习方法,区分噪声的能力不强,性能提升有限。针对中文微博的特点,提出一种基于卷积树核的情感要素识别算法,即首先对句子进行词性标注与依存关系分析,将句子中的名词作为候选情感要素;然后基于两种不同的修剪策略对依存树进行修剪,以获取每个候选情感要素的结构化信息;最后采用卷积树核计算依存树的相似度,并在此基础上识别句子中的情感要素。NLP&CC2012和NLP&CC2013中文微博情感分析评测任务中的实验验证了该方法的性能,其准确率相比于传统方法有显著提升。
-
关键词
情感要素识别
中文微博
卷积树核
依存树修剪
-
Keywords
Sentiment target recognition
Chinese microblog
Convolution tree kernel
Pruning strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于核方法的中文实体关系抽取研究
被引量:18
- 4
-
-
作者
黄瑞红
孙乐
冯元勇
黄云平
-
机构
中国科学院软件研究所
-
出处
《中文信息学报》
CSCD
北大核心
2008年第5期102-108,共7页
-
基金
国家自然科学基金资助项目(6077302760736044)
国家863计划重点资助项目(2006AA010108)
-
文摘
命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分:研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。
-
关键词
计算机应用
中文信息处理
中文实体关系抽取
核方法
卷积树核
复合核
最短路径依赖核
-
Keywords
computer application
Chinese information processing
Chinese relation extraction
Kernel-based methods
convolution tree kernel
composite kernels
shortest path dependency kernel
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于合一句法和实体语义树的中文语义关系抽取
被引量:19
- 5
-
-
作者
虞欢欢
钱龙华
周国栋
朱巧明
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2010年第5期17-23,共7页
-
基金
国家863计划资助项目(2006AA01Z147)
国家自然科学基金资助项目(60673041
+3 种基金
60873150)
国家教育部博士点基金资助项目(200802850006)
江苏省自然科学基金资助项目(BK2008160)
江苏省高校自然科学重大基础研究项目(08KJA520002)
-
文摘
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。
-
关键词
中文语义关系抽取
卷积树核函数
实体语义信息
-
Keywords
Chinese semantic relation extraction
convolution tree kernel
entity semantic information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于组合核的中文实体关系抽取研究
被引量:3
- 6
-
-
作者
李丽双
党延忠
张婧
王敏
-
机构
大连理工大学
-
出处
《情报学报》
CSSCI
北大核心
2012年第7期702-708,共7页
-
基金
本文获得国家自然科学基金(71031002,61173101)资助.
-
文摘
将基于特征向量的平面核和基于句法分析树的结构核组合,进行中文实体关系抽取。首先进行特征选择实验,为构造平面核中的特征向量选择最优特征集合,特征包括实体大类、实体子类、实体类别等实体信息以及实体对在句子中的前后词信息。在定义结构核函数时,从包含两个实体的句子中提取最短路径包含树(shortestpathtree,SPT),然后使用卷积树核函数来计算两棵SPT树的相似度。在ACERDC2005中文语料库上进行实体关系大类的抽取实验,其F值达到了68.50%,比两个单独核函数的方法分别提高4.36%和17.37%。同时,在组合核中也进行了特征选择实验,得到了最好关系抽取性能的F值为70.58%,说明单独平面核的最优特征集在组合核中未必最优。结果表明,本文利用实体语义信息构造平面核并与结构核组合,对于中文实体关系抽取具有较好的性能。
-
关键词
关系抽取
组合核
平面核
卷积树核
-
Keywords
relation extraction, ensemble kernel, feature-based kernel, convolution kernel
-
分类号
G2
[文化科学]
-
-
题名基于句法树结构的情感评价单元抽取算法
被引量:9
- 7
-
-
作者
黄亿华
濮小佳
袁春风
武港山
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2011年第9期3229-3234,共6页
-
基金
国家自然科学基金资助项目(61072152
61021062)
国家"863"计划资助项目(2006AA010109)
-
文摘
情感评价单元的抽取是情感分析的基础任务之一,目前大部分的抽取方法都基于句法路径等扁平化的特征,区分中文评价文本中噪声的能力不强。提出了一种基于短语句法的树型结构来表示情感评价单元模式,并使用近似卷积树核的方法来计算这种结构的相似度;在此基础上,采用基于相似度计算的模式匹配方法进行情感评价单元抽取。在中文商品评论上进行实验,该方法比基于句法路径的方法准确率提高了13.4%,召回率提高了9.2%。实验证明提出的方法对中文商品评价的情感评价单元抽取效果较好。
-
关键词
情感分析
情感评价单元
句法树
卷积树核
相似度计算
商品评价
-
Keywords
sentiment analysis
appraisal expression
parse tree
convolution tree kernel
similarity calculation
product review
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于混合方法的历史沿革信息抽取
被引量:1
- 8
-
-
作者
田长波
林民
斯日古楞
-
机构
内蒙古师范大学计算机与信息工程学院
-
出处
《计算机工程与设计》
北大核心
2016年第9期2571-2576,共6页
-
基金
国家自然科学基金项目(61562068)
内蒙古自然科学基金项目(2013MS0912)
内蒙古师范大学研究生科研创新基金项目(CXJJS14078)
-
文摘
为从概念种类繁多、演变迅速的领域文本抽取历史沿革主题信息,提出一种结合混合卷积树核与改进TextRank算法的方法。利用混合卷积树核函数获取实体类型区分度高、歧义少的实体-动词关系候选集,利用改进TextRank算法获取与历史沿革关系最为密切的实体和演化动词候选集;利用候选集筛选出与历史沿革主题最为相关的实体关系,以演化动词作为核心组成信息五元组。混合卷积树核方法充分利用了不同侧面的语言结构化信息,改进TextRank算法结合了时序信息、词性信息及领域词典参与投票,实验结果表明,这样两种方法相互补充,提高了抽取的准确率,验证了该方法的有效性。
-
关键词
历史沿革
信息抽取
卷积树核
TextRank
实体关系
关键词抽取
-
Keywords
history evolution
information extraction
convolution tree kernel
TextRank
entity relation
keyword extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-