摘要
机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,其是机器翻译的一个子任务,侧重于语音信息的翻译。音译后可知道源单词在另一种语言中的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍。机器音译在多语言文本处理、语料库对齐、信息抽取等自然语言应用中发挥着重要作用。该文阐述了目前机器音译任务中存在的挑战,对主要的音译方法进行了剖析、分类和整理,对音译数据集进行了罗列汇总,并列出了常用的音译效果评价指标,最后对该领域目前存在的问题进行了说明,并对音译学的未来进行了展望。该文旨在为进入该领域的新人提供快速的入门指南,或供其他研究者参考。
Machine transliteration refers to the process of automatically converting text from one language into another according to the phonetic information.Machine transliteration plays an important role in natural language applications such as multilingual text processing,corpus alignment,and information extraction.This paper investigates the challenges existing in the current machine transliteration tasks,summarizes the main transliteration methods,elaborates the transliteration data sets,and reviews the popular evaluation metrics of transliteration.The existing problems are outlined,and the future research directions of transliteration are discussed.
作者
李卓
王志娟
赵小兵
LI Zhuo;WANG Zhijuan;ZHAO Xiaobing(School of Information Engineering,Minzu University of China,Beijing 100081,China;Natural Language Resource Monitoring and Research Center of Minority Languages,Beijing 100081,China;Institute of Scientific and Technical Information of China,Beijing 100038,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第7期1-17,共17页
Journal of Chinese Information Processing
基金
国家语委项目(ZDI145-61)。
关键词
音译
综述
语料库
评价指标
transliteration
survey
corpus
evaluation metrics