期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
中文实体关系抽取中的特征选择研究 被引量:55
1
作者 董静 孙乐 +1 位作者 冯元勇 黄瑞红 《中文信息学报》 CSCD 北大核心 2007年第4期80-85,91,共7页
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为:包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了... 命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为:包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF模型框架下,以ACE2007的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。 展开更多
关键词 计算机应用 中文信息处理 实体关系抽取 包含关系 非包含关系 特征选择 ACE评测
下载PDF
基于分类信心重排序的中文共指消解研究
2
作者 冯元勇 孙乐 +1 位作者 董静 李文波 《中文信息学报》 CSCD 北大核心 2007年第6期22-28,共7页
共指消解是自然语言处理的核心问题之一。本文针对分步消解中分类器全局信息的不足,依据分类信心对全体提及配对进行排序,优先根据可靠的分类结果对提及进行聚集或分离。实验表明,该算法在多个学习框架下显著地改善了系统的整体性能。
关键词 计算机应用 中文信息处理 中文共指消解 提及配对共指分类信心 信息抽取 自然语言处理 机器学习 聚类算法
下载PDF
基于单字提示特征的中文命名实体识别快速算法 被引量:24
3
作者 冯元勇 孙乐 +1 位作者 李文波 张大鲲 《中文信息学报》 CSCD 北大核心 2008年第1期104-110,共7页
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降... 近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。 展开更多
关键词 计算机应用 中文信息处理 中文命名实体识别 条件随机场 自然语言处理 机器学习
下载PDF
基于非连续短语的统计翻译模型研究 被引量:5
4
作者 张大鲲 张玮 +1 位作者 冯元勇 孙乐 《中文信息学报》 CSCD 北大核心 2007年第1期101-108,共8页
目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决... 目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。 展开更多
关键词 人工智能 机器翻译 非连续短语 统计机器翻译 短语模型
下载PDF
基于Web中文检索系统SEARCH2000的设计与实现 被引量:7
5
作者 杜林 张毅波 孙玉芳 《中文信息学报》 CSCD 北大核心 2000年第6期14-20,共7页
本文详细介绍Search 2 0 0 0中文检索系统的设计思想及实现方法。与传统的全文检索系统相比 ,基于WEB的信息检索系统 ,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有... 本文详细介绍Search 2 0 0 0中文检索系统的设计思想及实现方法。与传统的全文检索系统相比 ,基于WEB的信息检索系统 ,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇 ,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2 0 0 0全文检索系统 ,使用智能化的页面相关分析、评分技术 ,以及高效数据存取、压缩算法和知识库的支持 ,使其具有使用方便、查询时间短、查询精度高等特点。 展开更多
关键词 信息检索 中文信息处理 Search2000 页面 WEB
下载PDF
平行语料库中双语术语词典的自动抽取 被引量:30
6
作者 孙乐 金友兵 +1 位作者 杜林 孙玉芳 《中文信息学报》 CSCD 北大核心 2000年第6期33-39,共7页
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词... 本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。 展开更多
关键词 术语抽取 翻译概率 英汉平行语料库 术语词典
下载PDF
亚洲语言信息检索评测会议NTCIR介绍 被引量:2
7
作者 张俊林 黄瑞红 孙乐 《数字图书馆论坛》 2006年第9期20-25,共6页
随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研艽领域。而跨语言信息检索评测是检索系统发展过程中非常重要的一环。NTCIR是针对亚洲语言的跨语言信息检索评测会议,本文介绍了NTCIR的发展... 随着互联网资源的多语言性和用户所使用语言的日益多样性,跨语言信息检索成为越来越重要的研艽领域。而跨语言信息检索评测是检索系统发展过程中非常重要的一环。NTCIR是针对亚洲语言的跨语言信息检索评测会议,本文介绍了NTCIR的发展历史,评测任务安排以及评测语料等有关信息。NTCIR已经成为相关研冤领域的著名国际会议,随着参赛队伍数目增加以及各种评测语料集合的逐步完善,可以预见它的影响将进一步扩大并对相关学科产生更加积极的影响。 展开更多
关键词 NTCIR 跨语言信息检索 评测会议
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部