期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
多语言专利机器翻译平行语料构建方法研究 被引量:1
1
作者 曹竟成 邬小倩 +2 位作者 王倩 孙小宇 邓汇娟 《中国发明与专利》 2022年第6期70-75,80,共7页
神经网络机器翻译技术本质上是数据驱动型技术,大规模、高质量的语料资源是构建高性能多语种神经网络机器翻译系统的基础条件,语料资源建设至关重要。本文基于现有专利机器翻译引擎训练语料扩充及特定语言方向专利语料资源建设的需求,... 神经网络机器翻译技术本质上是数据驱动型技术,大规模、高质量的语料资源是构建高性能多语种神经网络机器翻译系统的基础条件,语料资源建设至关重要。本文基于现有专利机器翻译引擎训练语料扩充及特定语言方向专利语料资源建设的需求,对基于标准BLEU4算法、基于伪数据构建及基于同族专利数据进行多语言专利平行语料构建的方法分别进行研究,并分析总结不同的专利平行语料构建方法的优劣及各自的适用场景,以期探索多语言专利平行语料构建的可靠方案,有效扩充现有专利语料资源。 展开更多
关键词 多语言平行语料构建 中间语言匹配 标准bleu4算法 伪数据构建 同族专利
下载PDF
快速形式匹配及其性能评价分析
2
作者 于俊婷 刘伍颖 +1 位作者 易绵竹 何宏业 《电脑知识与技术》 2016年第7期162-168,共7页
句子匹配问题及其评价极具研究价值。本文针对存在天然空格分隔符的语言提出一种快速形式匹配算法,该算法将字符进行打包,充分利用单词中字符的内聚性,使源句子与目标句子在形式上进行快速匹配,有效提高匹配性能,缩短匹配时间。我们在... 句子匹配问题及其评价极具研究价值。本文针对存在天然空格分隔符的语言提出一种快速形式匹配算法,该算法将字符进行打包,充分利用单词中字符的内聚性,使源句子与目标句子在形式上进行快速匹配,有效提高匹配性能,缩短匹配时间。我们在双语句子数据集上进行了实验,并采用BLEU、ROUGE_L和ROUGE_S三种评价指标进行评价。实验结果表明快速形式匹配能够在缩短87.6%时间的前提下将传统Levenshtein匹配的平均BLEU4值提升12.5%,ROUGE_L的F值提升17.7%,ROUGE_S的F值提升16.0%;在进行句子匹配性能评价时,ROUGE_L能够以较短的时间获取较高的性能评估值,性能最优,BLEU性能次之,ROUGE_S性能第三。 展开更多
关键词 快速形式匹配 bleu4 ROUGE_L ROUGE_S 评价
下载PDF
一种基于字符包的Levenshtein句子匹配算法
3
作者 于俊婷 赵晓潇 何宏业 《数码设计》 2017年第8期19-21,23,共4页
本文针对句子匹配问题提出了一种高效基于字符包的Levenshtein算法(CWLA),该算法倾向于找到与源句子形式上相似的句子。我们在双语句子数据集上进行了实验,实验结果表明在英汉数据集上CWLA能够在缩短71.9%时间的前提下将传统基于字符的L... 本文针对句子匹配问题提出了一种高效基于字符包的Levenshtein算法(CWLA),该算法倾向于找到与源句子形式上相似的句子。我们在双语句子数据集上进行了实验,实验结果表明在英汉数据集上CWLA能够在缩短71.9%时间的前提下将传统基于字符的Levenshtein算法(CLA)的平均BLEU4值提升14.5%;在俄汉数据集上,时间缩短了76.4%,平均BLEU4值提升了12.5%。由于字符包充分利用了单词内部字符的内聚性,使得CWLA能够以较小的时间代价获取较高的匹配性能。 展开更多
关键词 句子匹配 字符包 CWLA CLA bleu4
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部