摘要
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。
Automatic bilingual terminology extraction is one of the most important natural language processing(NLP)tasks,which is meaningful for cross-language information retrieval and machine translation. An unsupervised bilingual terminology extraction algorithm is developed for Chinese-English parallel patents,which utilizes phrase alignment of statistical machine translation and chunk analysis based on conditional random fields(CRF)to extract bilingual terminologies.This algorithm makes use of detailed topics information of patents to improve the precision of bilingual terminology extraction.Experiments demonstrate that this algorithm has a precision up to 94%.
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第10期1339-1343,共5页
Journal of Tsinghua University(Science and Technology)
基金
国家科技支撑计划重点项目(2009BAH41B04)
教育部哲学社会科学研究重大课题攻关项目(10JZD0043)
关键词
短语对齐
条件随机场
组块分析
双语术语
phrase alignment
conditional random fields(CRF)
chunk analysis
bilingual terminology