-
题名基于支持向量机分类和语义信息的中文跨文本指代消解
被引量:5
- 1
-
-
作者
赵知纬
顾静航
胡亚楠
钱龙华
周国栋
-
机构
苏州大学自然语言处理实验室
苏州大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第4期984-987,共4页
-
基金
国家自然科学基金资助项目(60873150
90920004)
+1 种基金
江苏省自然科学基金资助项目(BK2010219)
江苏省高校自然科学重大项目(11KJA520003)
-
文摘
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。
-
关键词
跨文本指代
信息抽取
支持向量机分类器
语义信息
重名消歧
多名聚合
-
Keywords
cross document co-reference resolution
information extraction
Support Vector Machine(SVM) classifier
semantics
name disambiguation
variant consolidation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一个面向信息抽取的中文跨文本指代语料库
被引量:3
- 2
-
-
作者
赵知纬
钱龙华
周国栋
-
机构
苏州大学自然语言处理实验室
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2015年第1期57-66,共10页
-
基金
国家自然科学基金(60873150
90920004)
+1 种基金
江苏省自然科学基金(BK2010219
11KJA520003)
-
文摘
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。
-
关键词
跨文本指代
信息抽取
语料库标注
困惑度
-
Keywords
cross document coreference
information extraction
corpora annotation
perplexity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于近似随机测试的语义关系抽取比较
- 3
-
-
作者
彭成
钱龙华
赵知纬
周国栋
-
机构
苏州大学计算机科学与技术学院
苏州大学自然语言处理实验室
-
出处
《计算机工程》
CAS
CSCD
2012年第21期197-201,共5页
-
基金
国家自然科学基金资助项目(60873150
90920004
+1 种基金
61003153)
江苏省自然科学基金资助项目(BK2010219)
-
文摘
为比较结构化信息和句法分析器对树核函数的关系抽取的作用,提出一种基于近似随机测试语义关系比较方法。对于2种不同配置关系的抽取结果,采用随机标号互换的方法重复产生样本,通过计算这些样本的性能差异进行显著性分析。实验结果表明,动态关系树是最佳的结构化信息,句法分析器Charniak和Berkeley性能均优于Stanford。
-
关键词
关系抽取
树核函数
结构化信息
显著性测试
近似随机测试
-
Keywords
relation extraction
tree kernel function
structured information
significance test
approximate random test
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向信息抽取的中文跨文本指代消解研究
被引量:1
- 4
-
-
作者
季红洁
赵知纬
钱龙华
-
机构
苏州大学计算机科学与技术学院
-
出处
《福建电脑》
2012年第11期10-12,45,共4页
-
基金
苏州大学"大学生创新性实验计划"项目
-
文摘
跨文本指代消解研究是自然语言处理中的一个重点以及难点,是信息检索、信息抽取和多文档摘要等应用的重要组成部分。传统的跨文本指代消解主要解决信息检索中遇到的重名消歧问题。本文从信息抽取的角度出发,旨在解决信息抽取过程中的重名消歧和多名聚合两大跨文本指代消解任务。本文在一个基于ACE2005中文语料库标注的中文跨文本指代语料库上,利用空间向量模型进行面向信息抽取的跨文本指代消解。
-
关键词
跨文本指代消解
信息抽取
向量空间模型
层次聚类
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-