-
题名一种灵活高效的增量式Web平行语料抽取方法
- 1
-
-
作者
刘小峰
郑禹铖
李东阳
-
机构
华中科技大学软件学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第11期248-254,共7页
-
文摘
从Web中抽取平行语料对于机器翻译和其他多语语言处理任务来说非常重要,由此提出了一种从Web中灵活高效地增量抽取平行语料的方法,通过持续地对Common Crawl的Web抓取存档进行下载、扫描和分析统计,增量更新域名下的语言文本长度统计数据。对于任意给定的感兴趣目标语言对,抽取方法基于域名下的语言文本长度统计数据确定抓取网站入口,并根据目标语言进行定向抓取,忽略多语域名和目标语言外的链接。此外还提出了一种在多语域名内基于语义相似性进行全局对齐的新的句子对齐方法。实验表明,增量抽取能够持续不断地获得新的平行语料,根据指定的语言对进行抽取,可以灵活地获得感兴趣的目标语言对平行语料;新的对齐方法在对齐效率上明显优于全局方法,且能完成局部方法无法完成的对齐;在6个语言方向中,抽取到的平行语料在4个中低资源语言方向的质量优于现有Web开源平行语料,在2个高资源语言方向的质量接近现有最好的Web开源平行语料。
-
关键词
平行语料抽取
句子对齐
语料库构建
机器翻译
WEB挖掘
-
Keywords
Parallel corpus extraction
Sentence alignment
Corpus construction
Machine translation
Web mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-