基于中英平行专利语料的短语复述自动抽取研究被引量：7

Automatically Extracting Phrase-level Paraphrases from Chinese-English Parallel Patents

下载PDF

导出

摘要短语复述自动抽取是自然语言处理领域的重要研究课题之一,已广泛应用于信息检索、问答系统、文档分类等任务中。而专利语料作为人类知识和技术的载体,内容丰富,实现基于中英平行专利语料的短语复述自动抽取对于技术主题相关的自然语言处理任务的效果提升具有积极意义。该文利用基于统计机器翻译的短语复述抽取技术从中英平行专利语料中抽取短语复述,并利用基于组块分析的技术过滤短语复述抽取结果。而且,为了处理对齐错误和翻译歧义引起的短语复述抽取错误,我们利用分布相似度对短语复述抽取结果进行重排序。实验表明,基于统计机器翻译的短语复述抽取在中英文上准确率分别为43.20%和43.60%,而经过基于组块分析的过滤技术后准确率分别提升至75.50%和52.40%。同时,利用分布相似度的重排序算法也能够有效改进抽取效果。 Automatically extracting phrase-level paraphrases is an important research task in natural language processing （NLP）, which has been applied in applications such as information retrieval, query answering and document classification. Moreover, technique patents, as an important carrier of human knowledge and technology, contain abundant information. Hence, automatically extracting phrase-level paraphrases from Chinese-English parallel patents has a positive effect on NLP tasks about technology. In this paper, we aim to extract phrase-level paraphrases from Chinese-English parallel patents automatically using method based on statistical machine translation, and use chunk parsing technology for paraphrase verification. Moreover, to dispose the errors caused by translation ambiguity and bad word alignment, we use distributional similarity to re-rank the extracted phrase-level paraphrases. In experiments, we find that the method based on statistical machine translation gets a precision of 43.20% on Chinese patents while 43.60% on English patents for Top-500 results. Meanwhile, after verification with chunk parsing, the precisions are raised to 75.50% and 52.40%-%, respectively. Moreover, the re-ranking based on distributional similarity also improves the performance significantly.

作者李莉刘知远孙茂松

机构地区清华大学计算机系

出处《中文信息学报》 CSCD 北大核心 2013年第6期151-157,174,共8页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(61133012) 国家863计划资助项目(2012AA011102)

关键词自动抽取短语语料专利平行统计机器翻译自然语言处理抽取技术 phrase-level paraphrase statistical machine translation chunk parsing distributional similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1周强,孙茂松,黄昌宁.汉语句子的组块分析体系[J].计算机学报,1999,22(11):1158-1165. 被引量：31
2田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报（信息科学版）,2010,28(6):602-608. 被引量：178
3岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
4刘挺,李维刚,张宇,李生.复述技术研究综述[J].中文信息学报,2006,20(4):25-32. 被引量：13
5张桂平,刘东生,尹宝生,徐立军,苗雪雷.面向专利文献的中文分词技术的研究[J].中文信息学报,2010,24(3):112-116. 被引量：17
6Zhang Kaixu,Sun Maosong.Unified Framework of Performing Chinese Word Segmentation and Part-of-Speech Tagging[J].China Communications,2012,9(3):1-9. 被引量：3
7周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
8刘颖,铁铮,余畅.汉英短语翻译对的自动抽取[J].计算机应用与软件,2012,29(7):69-72. 被引量：3
9李珩,朱靖波,姚天顺.基于SVM的中文组块分析[J].中文信息学报,2004,18(2):1-7. 被引量：50
10张西龙,季铎,王岩,苗雪雷.英汉专利语料中长句的分割[J].沈阳航空航天大学学报,2011,28(5):67-70. 被引量：2

二级参考文献166

1孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
2张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
3黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
4戴浩一.概念结构与非自主性语法:汉语语法概念系统初探[J].当代语言学,2002,4(1):1-12. 被引量：109
5余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
6沈达阳,孙茂松,黄昌宁.汉语自动分词和词性标注一体化系统[J].中文信息,1996,13(5):17-19. 被引量：5
7黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
8周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
10程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11

共引文献376

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
3孙凯丽,邓沌华,李源,李妙,李洋.基于句内注意力机制多路CNN的汉语复句关系识别方法[J].中文信息学报,2020(6):9-17. 被引量：10
4马林兵,张宇菲,谭婷,杨宗和.基于本体论空间搜索引擎研究——以地震灾害为例[J].计算机应用研究,2020,37(S02):202-204. 被引量：1
5付晓歌.汉语动结式依存结构与特征结构对比分析[J].襄樊学院学报,2009,30(4):62-65.
6伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
7程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
8谭咏梅,姚天顺,陈晴,李珩,朱靖波.基于SVM+Sigmoid的汉语组块识别[J].计算机科学,2004,31(8):142-146. 被引量：3
9陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
10党政法,周强.短语树到依存树的自动转换研究[J].中文信息学报,2005,19(3):21-27. 被引量：12

同被引文献75

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
3徐中一,胡谦,刘磊.基于CRF的中文组块分析[J].吉林大学学报（理学版）,2007,45(3):416-420. 被引量：7
4Erdmann M, Nakayama K, HaraT, et al. An approach for extracting bilingual terminology from Wikipedia [C]// Database Systems for Advanced Applications. Berlin, Heidelberg: Springer, 2008:380-392.
5Bourigault D. Surface grammatical analysis for the extraction of terminological noun phrases [C]// Proceedings of the 14-th Conference on Computational Linguistics, Volume 3. Nantes, France: Association for Computational Linguistics, 1992: 977-981.
6Justeson J S, Katz S M. Technical terminology: Some linguistic properties and an algorithm for identification in text [J]. Natural Language Engineering, 1995, 1(1): 9-27.
7Ananiadou S. A methodology for automatic term recognition [C]// Proceedings of the 15-th Conference on Computational Linguistics, Volume 2. Kyoto, Japan: Association for Computational Linguistics, 1994: 1034- 1038.
8Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms: The C-value/NC-value method [J]. International Journal on Digital Libraries, 2000, 3(2) : 115 - 130.
9Takeuchi K, Collier N. Use of support vector machines in extended named entity recognition [C]// Proceedings of the 6-th Conference on Natural Language Learning, Volume 20. Stroudsburg, PA: Association for Computational Linguistics, 2002 : 1 - 7.
10Lafferty J, Mccallum A, Pereira F C. Conditional random fields: Probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the 18-th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers, 2001 : 282 - 289.

引证文献7

1孙茂松,李莉,刘知远.面向中英平行专利的双语术语自动抽取[J].清华大学学报（自然科学版）,2014,54(10):1339-1343. 被引量：8
2翁贞,李茂西,王明文.利用Markov网络抽取复述增强机器译文自动评价方法[J].中文信息学报,2015,29(5):136-142. 被引量：1
3严灿勋.二分图顶点配对模型下的英汉句子对齐研究[J].中文信息学报,2016,30(5):153-159. 被引量：3
4张丽林,李茂西,肖文艳,万剑怡,王明文.机器翻译自动评价中领域知识复述抽取研究[J].北京大学学报（自然科学版）,2017,53(2):230-238. 被引量：9
5曹祺,赵伟,张英杰,赵树君,陈亮.基于Doc2Vec的专利文件相似度检测方法的对比研究[J].图书情报工作,2018,62(13):74-81. 被引量：16
6于清,常乐,徐健,刘天毅,LI Xiao-long.基于汉维医疗平行语料的双语术语抽取研究[J].内蒙古大学学报（自然科学版）,2018,49(5):528-533. 被引量：5
7颜欣,张宇,潘晓彤,刘作鹏,刘挺.基于深度学习的中文短语复述抽取技术研究[J].中文信息学报,2021,35(2):61-68. 被引量：1

二级引证文献41

1邢富坤,孙晓迪.基于汉语标点句的汉英双语对齐语料库构建及对齐语序分析[J].语料库语言学,2021(2):136-147. 被引量：1
2张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
3张莉,刘昱显.基于语序位置特征的汉英术语对自动抽取研究[J].南京大学学报（自然科学版）,2015,51(4):707-713. 被引量：6
4张丽林,李茂西,肖文艳,万剑怡,王明文.机器翻译自动评价中领域知识复述抽取研究[J].北京大学学报（自然科学版）,2017,53(2):230-238. 被引量：9
5冯青文.知识抽取国内研究现状分析[J].常州信息职业技术学院学报,2017,16(2):32-36. 被引量：2
6于清,常乐,徐健,刘天毅,LI Xiao-long.基于汉维医疗平行语料的双语术语抽取研究[J].内蒙古大学学报（自然科学版）,2018,49(5):528-533. 被引量：5
7蒋俊梅.基于平行语料库的双语术语抽取系统研究[J].现代电子技术,2016,39(15):108-111. 被引量：2
8谭亦鸣,王明文,李茂西.基于翻译质量估计的神经网络译文自动后编辑[J].北京大学学报（自然科学版）,2018,54(2):255-261. 被引量：2
9王亚娟,李晓,杨雅婷,米成刚.基于释义信息的维汉机器翻译系统融合研究[J].计算机工程,2019,45(4):288-295. 被引量：7
10阮光册,夏磊.基于Doc2Vec的期刊论文热点选题识别[J].情报理论与实践,2019,42(4):107-111. 被引量：19

1张锐.浅析MAC地址过滤技术在无线网络中的应用[J].中小企业管理与科技,2012(16):288-289. 被引量：1
2罗艳丽.计算机网络防火墙的基本类型及其主要技术特征[J].未来英才,2016,0(14):173-173.
3石翠.面向中文专利文献的单层并列结构识别[J].软件,2014,35(2):75-78. 被引量：2
4石翠.面向中文专利文献的单层并列结构识别[J].软件,2014,35(3):68-71. 被引量：2
5李维刚,刘挺,李生.基于双语语料库的短语复述实例获取研究[J].中文信息学报,2007,21(5):112-117. 被引量：5
6张西龙,季铎,王岩,苗雪雷.英汉专利语料中长句的分割[J].沈阳航空航天大学学报,2011,28(5):67-70. 被引量：2
7李洪政,朱筠,晋耀红.汉英专利机器翻译中动-介兼类词自动识别[J].计算机工程与应用,2015,51(11):6-11. 被引量：1
8石翠,周俏丽,张桂平.面向中文专利文献的有标记并列结构的统计分析[J].中文信息学报,2013,27(5):43-50. 被引量：4
9王柯杰.网络环境下提升计算机教育效果的研究[J].电子技术与软件工程,2016(14):11-11.
10周诚诚,张代远.利用图像识别技术过滤海量可疑钓鱼网站[J].计算机技术与发展,2012,22(11):246-249. 被引量：5

中文信息学报

2013年第6期

浏览历史

内容加载中请稍等...

基于中英平行专利语料的短语复述自动抽取研究被引量：7

参考文献11

二级参考文献166

共引文献376

同被引文献75

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于中英平行专利语料的短语复述自动抽取研究 被引量：7

参考文献11

二级参考文献166

共引文献376

同被引文献75

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于中英平行专利语料的短语复述自动抽取研究被引量：7