摘要
Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。
The research on Wikipedia Cross-Lingual Link Discovery(CLLD)is to automatically identify an anchor text related to topic from source language Wikipedia articles,and recommend a set of relevant target language links to the anchor text.It involves three key problems:anchor text identification,anchor text translation,and target link discovery.To deal with the multiple target translations of an anchor text,we propose a context-based translation selection method,which uses a vote method based on pointwise mutual information(PMI).Experiments on the translation selection of person names,terminology and abbreviation in Chinese and English Wikipedia articles,the results show that the method achieves good performances.
出处
《中文信息学报》
CSCD
北大核心
2016年第2期196-201,216,共7页
Journal of Chinese Information Processing
基金
国家科技支撑计划资助项目(2012BAH14F00)
国家973计划资助项目(2010CB530401)