期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
多引擎机器翻译译文重排序与融合研究
1
作者 李铭 张克亮 +1 位作者 唐亮 夏榕璟 《情报工程》 2023年第2期96-107,共12页
[目的/意义]使用不用的模型、方法、语种、数据构建的机器翻译引擎往往在不同的场景下具有不同的翻译效果。因此,很多研究者都在构建机器翻译引擎时尝试使用多引擎译文融合或多翻译方法融合的方式来利用不同翻译引擎的优点,然而过往的... [目的/意义]使用不用的模型、方法、语种、数据构建的机器翻译引擎往往在不同的场景下具有不同的翻译效果。因此,很多研究者都在构建机器翻译引擎时尝试使用多引擎译文融合或多翻译方法融合的方式来利用不同翻译引擎的优点,然而过往的工作没有考虑到如何利用用户在使用多引擎机器翻译所产生的数据来获取存在于用户认知域中对这些引擎译文的评价。[方法/过程]本文研究提出了基于六个翻译引擎的多引擎翻译平台。该平台在长期使用中产生了翻译结果、用户特征、人工校译等数据,本文基于以上大规模历史数据构建了翻译模型训练资源库,结合Page Rank算法、贝叶斯公式和UNQE方法提出了多引擎机器翻译译文重排序方法,并利用译文重排序的结果与翻译模型训练资源库中的翻译实例相关数据,进一步使用Transformer架构训练了译文融合模型。[局限]所提方法存在冷启动问题,需要一定时间、大量用户的真实数据才能够实现预期效果。[结果/结论]实验结果表明了本文提出的方法能够融合多引擎优势,提高不同领域的平均译文质量。 展开更多
关键词 多引擎机器翻译 译文重排序 译文融合
下载PDF
面向中文命名实体识别任务的数据增强 被引量:3
2
作者 李健 张克亮 +2 位作者 唐亮 夏榕璟 任静静 《计算机与现代化》 2022年第4期1-6,11,共7页
在低资源自然语言处理(NLP)任务中,现有的数据不足以训练一个理想的深度学习模型,文本数据增强是提高此类任务训练效果的有效方法。针对中文命名实体识别任务,提出一组基于实例替换的数据增强方法。将训练样本中的命名实体替换为另一个... 在低资源自然语言处理(NLP)任务中,现有的数据不足以训练一个理想的深度学习模型,文本数据增强是提高此类任务训练效果的有效方法。针对中文命名实体识别任务,提出一组基于实例替换的数据增强方法。将训练样本中的命名实体替换为另一个同类实体而保持标签不变,具体算法包括:1)实体之间交叉互换;2)实体内部同义替换;3)中文人名自动生成。分别在PeopleDailyNER和CLUENER2020数据集上应用上述方法,并对BERT+CRF模型进行增强训练。实验结果表明,仅添加与原始数据等量的增强数据,在小样本条件下能使模型F1值在2个数据集上分别提升约10%和7%,随着样本数据的增加,训练效果仍有明显提升。 展开更多
关键词 深度学习 文本数据增强 命名实体识别 实例交叉 中文人名生成器
下载PDF
英语网络非正规语言表达的自动识别与术语库构建 被引量:1
3
作者 夏榕璟 张克亮 《中国科技术语》 2022年第1期36-44,共9页
网络非正规语言表达(Network Informal Language Expression, NILE)具有的创新性强、超常规化、表达方式口语化等特点,为许多自然语言处理任务带来了挑战。在使用网络语言进行交流的过程中,部分网络非正规语言表达逐渐标准化和规范化,... 网络非正规语言表达(Network Informal Language Expression, NILE)具有的创新性强、超常规化、表达方式口语化等特点,为许多自然语言处理任务带来了挑战。在使用网络语言进行交流的过程中,部分网络非正规语言表达逐渐标准化和规范化,形成网络非正规语言表达术语。通过对46万余条Twitter数据的收集、处理和分析,英语网络非正规语言表达可以在音、形、义层面划分为13类,并对其特征进行分析和总结。结合统计方法和规则方法的优点,设计了统计和规则融合的英语网络非正规语言表达自动识别方法。最终构建规模为7000余条的网络非正规语言表达术语库。 展开更多
关键词 网络非正规语言表达 自动识别 术语库
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部