摘要
本研究使用数据增强和对抗训练策略,基于mT5预训练模型实现中文到文言文的自动翻译。针对训练数据稀缺问题,我们收集并扩充了大量现代汉语与古代汉语平行语料库。模型在文言文翻译任务上表现出色,数据增强后,1-gramBLEU、CHRF和Rouge得分分别提升了4.27%,2.3%,和2.16%。引入对抗训练策略后,模型性能得到进一步提升。同时,我们设计并部署了一个带图形用户界面的Web应用。总体而言,本研究展示了数据增强和对抗训练在预训练模型中的潜力,并通过扩大数据量和优化训练策略,提升了模型的泛化能力和翻译性能。