-
题名基于双语语料库的短语复述实例获取研究
被引量:5
- 1
-
-
作者
李维刚
刘挺
李生
-
机构
哈尔滨工业大学计算机学院信息检索研究室
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期112-117,共6页
-
基金
国家自然科学基金(60503072
60575042
60435020)
-
文摘
本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比较每一个候选复述短语和输入短语之间的语义一致性,来确定每个候选是否成为最终的复述实例。实验结果表明,本文短语复述实例获取方法的综合准确率达到了60%,获取了较好的性能。
-
关键词
计算机应用
中文信息处理
复述实例
复述获取
短语复述
双语语料库
-
Keywords
computer application
Chinese information processing
paraphrase example, paraphrase acquisition, phrasal paraphrase, bilingual Ccrpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名复述技术研究
被引量:14
- 2
-
-
作者
赵世奇
刘挺
李生
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2009年第8期2124-2137,共14页
-
基金
国家自然科学基金Nos.60803093
60675034
国家高技术研究发展计划(863)No.2008AA01Z144~~
-
文摘
对自然语言处理研究中的复述的研究现状与进展进行了总结,分别介绍了复述的应用、复述资源的获取、复述句的生成、复述的评测以及与复述紧密联系的相关研究等.重在对复述研究的主流方法和前沿进展进行概括、比较和分析,以期对后续研究有所助益.
-
关键词
复述
复述获取
复述生成
评测
-
Keywords
paraphrasing
paraphrase acquisition
paraphrase generation
evaluation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于随机行走N步的汉语复述短语获取方法
被引量:1
- 3
-
-
作者
马军
张玉洁
徐金安
陈钰枫
-
机构
北京交通大学计算机与信息技术学院
-
出处
《中国科学:信息科学》
CSCD
北大核心
2017年第8期1066-1077,共12页
-
基金
北京交通大学人才基金(批准号:KKRC11001532)
国家自然科学基金(批准号:61370130
+1 种基金
61473294)
中央高校基本科研业务费专项资金(批准号:2015JBM033)资助项目
-
文摘
在利用大规模双语语料获取复述知识方面,传统的基于"枢轴"方法只能考虑两步以内的复述现象.本文针对已有方法的局限性,对不同语言之间互为翻译的短语对构建翻译关系图,提出基于随机行走N步的复述获取算法,改进已有方法以获取更多潜在的复述知识.本文描述了由汉英短语翻译表构建翻译关系图的方法、基于N步的随机行走算法和基于期望步数的复述短语可信度计算方法.同时,本文提出面向多语言对的翻译关系图扩展方法.在NTCIR汉英和英日双语平行语料上进行了实验与评测,并与传统方法进行了对比.实验结果表明本文所提出的方法能够获取更多的复述知识,而且扩展语言对的翻译关系图能够有效获取更多潜在的复述知识.
-
关键词
复述获取
短语翻译表
翻译关系图
随机行走
期望步数
-
Keywords
paraphrase acquisition
phrase translation table
translation relation graph
random walk
hitting time
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-