-
题名基于自动构建语料库的词汇级复述研究
被引量:3
- 1
-
-
作者
赵世奇
刘挺
李生
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2009年第5期975-980,共6页
-
基金
国家自然科学基金(No.60803093
No.60675034)
国家863高技术研究发展计划(No.2008AA01Z144)
-
文摘
本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选择最为合适的复述.实验结果表明自动构建的复述语料库对于词汇级复述的抽取是有效的.同时,本文提出的模型明显优于两种传统模型,在准确率和召回率上分别提高10%左右.
-
关键词
词汇级复述
复述语料库
复述模型
-
Keywords
lexical paraphrasing
paraphrase corpus
paraphrasing model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名复述技术研究综述
被引量:13
- 2
-
-
作者
刘挺
李维刚
张宇
李生
-
机构
哈尔滨工业大学计算机学院信息检索研究室
-
出处
《中文信息学报》
CSCD
北大核心
2006年第4期25-32,共8页
-
基金
国家自然科学基金资助项目(604350206050307260575042)
-
文摘
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为复述研究提高了可能,使之受到越来越多的关注。在英文和日文方面,复述技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了系统的性能。本文主要对复述实例库的构建、复述规则的抽取以及复述的生成等几方面的最新研究进展进行详细的综述,并简要介绍了我们在中文复述方面进行的初步研究工作。在文章的最后一部分,我们对复述技术的难点及未来的发展方向进行了展望,并对全文进行了总结。
-
关键词
人工智能
自然语言处理
综述
句子复述
复述语料库
复述抽取
复述生成
-
Keywords
artical intelligence
natural language processing
overview
sentence paraphrasing
paraphrases corpus
paraphrases extraction
paraphrases generation
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-