期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
一个面向信息抽取的中英文平行语料库 被引量:2
1
作者 惠浩添 李云建 +1 位作者 钱龙华 周国栋 《计算机工程与科学》 CSCD 北大核心 2015年第12期2331-2338,共8页
除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映... 除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。 展开更多
关键词 命名实体 语义关系 双语映射 平行语料库
下载PDF
基于机器翻译的双语协同关系抽取 被引量:2
2
作者 胡亚楠 惠浩添 +1 位作者 钱龙华 朱巧明 《计算机应用研究》 CSCD 北大核心 2015年第3期662-665,共4页
传统的弱指导关系抽取研究主要集中于单语言内部。为了充分利用语言之间的互补性来减轻对大规模训练数据的需求,提出一种双语协同训练的关系分类方法。针对小规模标注语料和一定规模的未标注语料,通过机器翻译和实体对齐产生关系实例的... 传统的弱指导关系抽取研究主要集中于单语言内部。为了充分利用语言之间的互补性来减轻对大规模训练数据的需求,提出一种双语协同训练的关系分类方法。针对小规模标注语料和一定规模的未标注语料,通过机器翻译和实体对齐产生关系实例的双语视图,最后利用协同训练得到两种语言的分类模型。在ACE RDC 2005中英文语料上的实验表明,双语协同训练方法可以同时提高中文和英文的关系分类性能,并且减少对于标注训练数据量的需求。 展开更多
关键词 双语协同训练 机器翻译 实体对齐
下载PDF
基于SIFT特征降维的视频车辆跟踪研究
3
作者 詹智财 惠浩添 张松松 《电脑知识与技术》 2012年第6期3954-3957,共4页
针对尺度不变特征变换(SIFT)算法在匹配时特征数量过多导致的耗时过长的问题,该文提出一种基于SIFT和主成分分析(PCA)相结合的SIFT特征降维的视频车辆跟踪算法。首先利用SIFT提取出车辆视频图像帧中的所有特征点及其特征向量,其... 针对尺度不变特征变换(SIFT)算法在匹配时特征数量过多导致的耗时过长的问题,该文提出一种基于SIFT和主成分分析(PCA)相结合的SIFT特征降维的视频车辆跟踪算法。首先利用SIFT提取出车辆视频图像帧中的所有特征点及其特征向量,其次使用PCA算法对其维数约减并找出各自的具有代表性的特征参数,达到对特征点向量降维的目的,最后利用西式距离找出不同车辆图像帧中相似的车辆。实验证明,该算法在保证原SIFT算法鲁棒性、稳定性的同时减少了计算量,增加了匹配效率,增强了实时性。 展开更多
关键词 SIFT PCA 降维 车辆跟踪
下载PDF
一个中文实体链接语料库的建设 被引量:7
4
作者 舒佳根 惠浩添 +1 位作者 钱龙华 朱巧明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期321-327,共7页
鉴于现有中文实体链接基准语料库的缺乏,在ACE2005中文语料库和中文维基百科的基础上,通过自动构造和人工标注的方法,构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同,构造的中文实体链接语料库是基... 鉴于现有中文实体链接基准语料库的缺乏,在ACE2005中文语料库和中文维基百科的基础上,通过自动构造和人工标注的方法,构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同,构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建,将为中文实体链接研究提供一个可用的基准平台。 展开更多
关键词 中文 实体链接 语料库
下载PDF
基于自监督学习的维基百科家庭关系抽取 被引量:1
5
作者 朱苏阳 惠浩添 +1 位作者 钱龙华 张民 《计算机应用》 CSCD 北大核心 2015年第4期1013-1016,1020,共5页
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成... 传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。 展开更多
关键词 自监督学习 维基百科 半结构化信息 关系抽取
下载PDF
中文维基百科的实体分类研究 被引量:1
6
作者 徐志浩 惠浩添 +1 位作者 钱龙华 朱巧明 《中文信息学报》 CSCD 北大核心 2015年第5期91-97,124,共8页
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来... 维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。 展开更多
关键词 维基百科 实体分类 半结构化信息 信息框
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部