期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于多元信息融合的神经机器译文自动评价方法 被引量:1
1
作者 刘媛 李茂西 +1 位作者 项青宇 李易函 《中文信息学报》 CSCD 北大核心 2023年第3期89-100,共12页
机器译文自动评价对推动机器翻译发展和应用有着重要作用。最新的神经机器译文自动评价方法使用预训练语境词向量提取深层语义特征,并将它们直接拼接输入多层神经网络预测译文质量,其中直接拼接操作容易导致特征间缺乏深入融合,而逐层... 机器译文自动评价对推动机器翻译发展和应用有着重要作用。最新的神经机器译文自动评价方法使用预训练语境词向量提取深层语义特征,并将它们直接拼接输入多层神经网络预测译文质量,其中直接拼接操作容易导致特征间缺乏深入融合,而逐层抽象进行预测时容易丢失细粒度准确匹配信息。针对以上问题,该文提出将中期信息融合方法和后期信息融合方法引入译文自动评价,使用拥抱融合对不同特征进行交互中期融合,基于细粒度准确匹配的句移距离和句级余弦相似度进行后期融合。在WMT’21 Metrics Task基准数据集上的实验结果表明,提出的方法能有效提高其与人工评价的相关性,达到与参加评测最优系统的可比性能。 展开更多
关键词 机器翻译 译文自动评价 信息融合 信息表征 拥抱融合
下载PDF
融合XLM词语表示的神经机器译文自动评价方法
2
作者 胡纬 李茂西 +1 位作者 裘白莲 王明文 《中文信息学报》 CSCD 北大核心 2023年第9期46-54,共9页
机器译文自动评价对机器翻译的发展和应用起着重要的促进作用,其一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间,结合... 机器译文自动评价对机器翻译的发展和应用起着重要的促进作用,其一般通过计算机器译文和人工参考译文的相似度来度量机器译文的质量。该文通过跨语种预训练语言模型XLM将源语言句子、机器译文和人工参考译文映射到相同的语义空间,结合分层注意力和内部注意力提取源语言句子与机器译文、机器译文与人工参考译文以及源语言句子与人工参考译文之间的差异特征,并将其融入基于Bi-LSTM神经译文自动评价方法中。在WMT 19译文自动评价数据集上的实验结果表明,融合XLM词语表示的神经机器译文自动评价方法显著提高了其与人工评价的相关性。 展开更多
关键词 机器翻译 译文自动评价 跨语种预训练语言模型 差异特征
下载PDF
基于神经网络的机器译文自动评价综述
3
作者 刘媛 李茂西 +1 位作者 罗琪 李易函 《中文信息学报》 CSCD 北大核心 2023年第9期1-14,共14页
机器译文自动评价是指对机器翻译系统输出译文的质量进行自动评价,是机器翻译领域的一项重要研究任务。目前机器译文自动评价方法的研究主流为基于神经网络的机器译文自动评价,该文对其进行综述,将其分为基于表征匹配的方法和基于端到... 机器译文自动评价是指对机器翻译系统输出译文的质量进行自动评价,是机器翻译领域的一项重要研究任务。目前机器译文自动评价方法的研究主流为基于神经网络的机器译文自动评价,该文对其进行综述,将其分为基于表征匹配的方法和基于端到端神经网络的方法,梳理和对比了这两类自动评价方法的代表性工作及其特点,并介绍推动机器译文自动评价研究的相关评测活动和性能评价指标,最后展望基于神经网络的机器译文自动评价的发展趋势,并对全文进行总结。 展开更多
关键词 机器翻译 自动评价 神经网络 深度学习
下载PDF
机器翻译系统融合技术综述 被引量:16
4
作者 李茂西 宗成庆 《中文信息学报》 CSCD 北大核心 2010年第4期74-84,118,共12页
该文对机器翻译研究中的系统融合方法进行了全面综述和分析。根据在多系统输出结果的基础上进行融合的层次差异,我们将系统融合方法分为三类:句子级系统融合、短语级系统融合和词汇级系统融合。然后,针对这三种融合方法,该文分别介绍了... 该文对机器翻译研究中的系统融合方法进行了全面综述和分析。根据在多系统输出结果的基础上进行融合的层次差异,我们将系统融合方法分为三类:句子级系统融合、短语级系统融合和词汇级系统融合。然后,针对这三种融合方法,该文分别介绍了它们各自具有代表性的研究工作,包括实现方法、置信度估计和解码算法等,并着重阐述了近年来使用广泛的词汇级系统融合方法中用于构造混淆网络的词对齐技术。最后,该文对这三类系统融合方法进行了比较、总结和展望。 展开更多
关键词 人工智能 机器翻译 系统融合 最小贝叶斯风险解码 混淆网络解码 词对齐
下载PDF
基于单目CCD摄像机的三维点云数据重建研究 被引量:3
5
作者 李茂西 王从军 陈鑫 《自动化与仪表》 2005年第5期13-16,共4页
提出一种基于单目CCD摄像机反求系统的三维数据的获取方法熏首先对单目CCD摄像机拍摄的单幅图像进行滤波、细化等手段处理得到单像素宽度的激光条纹熏通过摄像机标定和激光投影平面标定建立激光条纹上的像素点与空间上的三维点之间一一... 提出一种基于单目CCD摄像机反求系统的三维数据的获取方法熏首先对单目CCD摄像机拍摄的单幅图像进行滤波、细化等手段处理得到单像素宽度的激光条纹熏通过摄像机标定和激光投影平面标定建立激光条纹上的像素点与空间上的三维点之间一一对应的函数映射,获取物体的外轮廓信息。通过试验分析证明其可行性。 展开更多
关键词 摄像机标定 激光投影平面 数字图像处理 反求工程
下载PDF
机器译文自动评价中基于IHMM的近义词匹配方法研究 被引量:2
6
作者 李茂西 徐凡 王明文 《中文信息学报》 CSCD 北大核心 2016年第4期117-123,共7页
机器译文的自动评价推动着机器翻译技术的快速发展与应用,在其研究中的一个关键问题是如何自动的识别并匹配机器译文与人工参考译文之间的近义词。该文探索以源语言句子作为桥梁,利用间接隐马尔可夫模型(IHMM)来对齐机器译文与人工参考... 机器译文的自动评价推动着机器翻译技术的快速发展与应用,在其研究中的一个关键问题是如何自动的识别并匹配机器译文与人工参考译文之间的近义词。该文探索以源语言句子作为桥梁,利用间接隐马尔可夫模型(IHMM)来对齐机器译文与人工参考译文,匹配两者之间的近义词,提高自动评价方法与人工评价方法的相关性。在LDC2006T04语料和WMT数据集上的实验结果表明,该方法与人工评价的系统级别相关性和句子级别相关性不仅一致的优于在机器翻译中广泛使用的BLEU、NIST和TER方法,而且优于使用词根信息和同义词典进行近义词匹配的METEOR方法。 展开更多
关键词 机器译文自动评价 近义词匹配 间接隐马尔可夫模型 单语句子词对齐 相关性
下载PDF
基于ListMLE排序学习方法的机器译文自动评价研究 被引量:2
7
作者 李茂西 江爱文 王明文 《中文信息学报》 CSCD 北大核心 2013年第4期22-29,共8页
机器翻译译文质量的自动评价是推动机器翻译技术快速发展的一条重要途径。该文提出了基于List-MLE排序学习方法的译文自动评价方法。在此基础上,探讨引入刻画译文流利度和忠实度的特征,来进一步提高译文自动评价结果和人工评价结果的一... 机器翻译译文质量的自动评价是推动机器翻译技术快速发展的一条重要途径。该文提出了基于List-MLE排序学习方法的译文自动评价方法。在此基础上,探讨引入刻画译文流利度和忠实度的特征,来进一步提高译文自动评价结果和人工评价结果的一致性。实验结果表明,在评价WMT11德英任务和IWSLT08BTEC CEASR任务上的多个翻译系统的输出译文质量时,该文提出的方法预测准确率高于BLEU尺度和基于RankSVM的译文评价方法。 展开更多
关键词 机器译文评价 排序学习 ListMLE方法 人工评价 自动评价
下载PDF
平行光线对双目视觉测量系统的影响研究 被引量:2
8
作者 李茂西 王从军 陈鑫 《机械与电子》 2005年第5期15-17,共3页
通过分析不同强弱平行光线,对系统测量数据的两阶段两步法CCD摄像机标定和扫描影响,寻找出一段范围的平行光线,进行CCD摄像机参数标定和被测物体的扫描测量.试验证明,使用验证范围内平行光线进行测量,可以提高该系统测量的精度.
关键词 双目视觉测量系统 两步法 摄像机标定 数字图像处理 扫描
下载PDF
双目视觉测量中三维坐标的求取方法研究 被引量:37
9
作者 罗世民 李茂西 《计算机工程与设计》 CSCD 北大核心 2006年第19期3622-3624,共3页
双目视觉测量将同一时刻拍摄的两副物体激光条纹图像,经过特征提取和立体匹配得到两两对应的像素点对,根据摄像机标定建立的物空间坐标到像平面坐标对应的矩阵,利用最小二乘法求取物体三维空间点的坐标。但是,由于最小二乘法没有考虑所... 双目视觉测量将同一时刻拍摄的两副物体激光条纹图像,经过特征提取和立体匹配得到两两对应的像素点对,根据摄像机标定建立的物空间坐标到像平面坐标对应的矩阵,利用最小二乘法求取物体三维空间点的坐标。但是,由于最小二乘法没有考虑所建立的超限定方程组所代表的几何意义,计算出的点坐标精度不高。提出一种考虑方程组所代表几何意义的方法,利用异面直线公垂线中点去逼近物体空间点。 展开更多
关键词 双目视觉测量 摄像机标定 立体匹配 最小二乘法 异面直线
下载PDF
基于神经网络特征的句子级别译文质量估计 被引量:14
10
作者 陈志明 李茂西 王明文 《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1804-1812,共9页
机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约... 机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT15和WMT16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果. 展开更多
关键词 机器翻译质量估计 句子级别 词向量 递归神经网络语言模型 支持向量回归
下载PDF
基于word2vec的大中华区词对齐库的构建 被引量:6
11
作者 王明文 徐雄飞 +1 位作者 徐凡 李茂西 《中文信息学报》 CSCD 北大核心 2015年第5期76-83,共8页
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大... 该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。 展开更多
关键词 大中华区 词对齐 最长公共子序列 word2vec
下载PDF
基于主位-述位结构理论的英文作文连贯性建模研究 被引量:2
12
作者 徐凡 王明文 +2 位作者 谢旭升 李茂西 万剑怡 《中文信息学报》 CSCD 北大核心 2016年第1期115-123,共9页
该文在研究了有监督的基于实体和基于篇章关系网格的篇章连贯性模型的基础上,提出了一个无监督的基于主位-述位结构理论的篇章连贯性模型。该模型通过引入词语的词干、上下位、近义和复述等语义方面的信息来计算相邻句子中主位和述位的... 该文在研究了有监督的基于实体和基于篇章关系网格的篇章连贯性模型的基础上,提出了一个无监督的基于主位-述位结构理论的篇章连贯性模型。该模型通过引入词语的词干、上下位、近义和复述等语义方面的信息来计算相邻句子中主位和述位的相似度,并利用此相似度值来描述篇章的连贯性。同时,该文提出了一种简单有效的基于篇章关系计数的连贯性模型,并采用线性组合方法将其与基于主位-述位结构理论的连贯性模型加以集成。上述模型在国际基准英文作文语料上进行试验,实验结果表明采用线性组合的连贯性模型后,作文连贯性检测准确率与目前基于实体和篇章关系网格的模型相比得到显著提升。 展开更多
关键词 衔接性 连贯性 主位-述位结构理论 篇章关系 线性组合
下载PDF
机器翻译自动评价中领域知识复述抽取研究 被引量:8
13
作者 张丽林 李茂西 +2 位作者 肖文艳 万剑怡 王明文 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期230-238,共9页
针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题,提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类,并利用改进的M-L方法过滤,得到特... 针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题,提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类,并利用改进的M-L方法过滤,得到特定领域训练语料,然后在训练语料中利用Markov网络模型,抽取特定领域复述表,最后将此复述表应用在机器译文自动评价中,以提高同义词和近义词的匹配精度。在WMT’14 Metrics task和WMT’15 Metrics task数据集上的实验结果表明,利用领域知识抽取的复述能够增加自动评价方法METEOR和TER与人工评价的相关性。 展开更多
关键词 复述 机器译文自动评价 语言模型 MARKOV网络 文档聚类
下载PDF
基于子词的句子级别神经机器翻译的译文质量估计方法 被引量:13
14
作者 李培芸 翟煜锦 +4 位作者 项青宇 李茂西 裘白莲 罗文兵 王明文 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期159-166,共8页
目前性能最优的译文质量估计系统使用神经机器翻译中的编码器-解码器模型作为特征提取器.该方法由于限制词表大小易导致数据稀疏问题,从而使得较多的未登陆词不能被正确评价.为了缓解上述问题,在详细分析不同子词切分方法的特点后,提出... 目前性能最优的译文质量估计系统使用神经机器翻译中的编码器-解码器模型作为特征提取器.该方法由于限制词表大小易导致数据稀疏问题,从而使得较多的未登陆词不能被正确评价.为了缓解上述问题,在详细分析不同子词切分方法的特点后,提出了基于字节对编码(BPE)子词切分和基于一元文法语言模型子词切分的神经译文质量估计方法,并将两者的译文质量估计的得分与基于词语切分的神经译文质量估计得分融合后进行译文质量估计.在WMT18句子级别译文质量估计子任务数据集上的实验结果表明:融合BPE子词切分、一元文法语言模型子词切分和词语切分的神经译文质量估计方法的性能在多个评测子任务上超过了WMT18给出的最好参与系统,深入的实验分析进一步揭示了融合不同粒度的句子切分方法提高了译文质量估计的健壮性. 展开更多
关键词 质量估计 神经机器翻译 子词 编码器-解码器模型 循环神经网络 联合神经网络
下载PDF
基于QE的机器翻译重排序方法研究 被引量:7
15
作者 翟煜锦 李培芸 +4 位作者 项青宇 李茂西 裘白莲 钟茂生 王明文 《江西师范大学学报(自然科学版)》 CAS 北大核心 2020年第1期46-50,88,共6页
该文提出了一种融合BERT语境向量的多模型集成的翻译质量估计方法,以及基于译文质量估计的多候选译文重排序方法,实验结果表明,这2种方法均取得了较好的实验效果.
关键词 机器翻译 机器翻译质量估计 重排序 编码器-解码器模型 卷积神经网络
下载PDF
基于词项—句子—文档三层图模型的多文档自动摘要 被引量:6
16
作者 熊娇 王明文 +1 位作者 李茂西 万剑怡 《中文信息学报》 CSCD 北大核心 2014年第6期201-207,共7页
应用图模型来研究多文档自动摘要是当前研究的一个热点,它以句子为顶点,以句子之间相似度为边的权重构造无向图结构。由于此模型没有充分考虑句子中的词项权重信息以及句子所属的文档信息,针对这个问题,该文提出了一种基于词项—句子—... 应用图模型来研究多文档自动摘要是当前研究的一个热点,它以句子为顶点,以句子之间相似度为边的权重构造无向图结构。由于此模型没有充分考虑句子中的词项权重信息以及句子所属的文档信息,针对这个问题,该文提出了一种基于词项—句子—文档的三层图模型,该模型可充分利用句子中的词项权重信息以及句子所属的文档信息来计算句子相似度。在DUC2003和DUC2004数据集上的实验结果表明,基于词项—句子—文档三层图模型的方法优于LexRank模型和文档敏感图模型。 展开更多
关键词 图模型 多文档自动摘要 句子相似度 词项—句子— 文档图
下载PDF
基于跨语种预训练语言模型XLM-R的神经机器翻译方法 被引量:4
17
作者 王倩 李茂西 +1 位作者 吴水秀 王明文 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第1期29-36,共8页
探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量。提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示。在WMT英语-德... 探索将XLM-R跨语种预训练语言模型应用在神经机器翻译的源语言端、目标语言端和两端,提高机器翻译的质量。提出3种网络模型,分别在Transformer神经网络模型的编码器、解码器以及两端同时引入预训练的XLM-R多语种词语表示。在WMT英语-德语、IWSLT英语-葡萄牙语以及英语-越南语等翻译中的实验结果表明,对双语平行语料资源丰富的翻译任务,引入XLM-R可以很好地对源语言句子进行编码,从而提高翻译质量;对双语平行语料资源匮乏的翻译任务,引入XLM-R不仅可以很好地对源语言句子进行编码,还可以对源语言端和目标语言端的知识同时进行补充,提高翻译质量。 展开更多
关键词 跨语种预训练语言模型 神经机器翻译 Transformer网络模型 XLM-R模型 微调
下载PDF
“细粒度英汉机器翻译错误分析语料库”的构建与思考 被引量:3
18
作者 裘白莲 王明文 +2 位作者 李茂西 陈聪 徐凡 《中文信息学报》 CSCD 北大核心 2022年第1期47-55,共9页
机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用。该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用自动标注和人工标注相结合的方法,构建了... 机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用。该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用自动标注和人工标注相结合的方法,构建了一个细粒度英汉机器翻译错误分析语料库,其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等。标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系统的开发和人工译员的后编辑。 展开更多
关键词 机器翻译 错误分析 错误标注 译后编辑
下载PDF
融合BERT语境词向量的译文质量估计方法研究 被引量:6
19
作者 李培芸 李茂西 +1 位作者 裘白莲 王明文 《中文信息学报》 CSCD 北大核心 2020年第3期56-63,共8页
蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引... 蕴含语义、句法和上下文信息的语境词向量作为一种动态的预训练词向量,在自然语言处理的下游任务中有着广泛应用。然而,在机器译文质量估计中,没有相关研究工作涉及语境词向量。该文提出利用堆叠双向长短时记忆网络将BERT语境词向量引入神经译文质量估计中,并通过网络并联的方式与传统的译文质量向量相融合。在CWMT18译文质量估计评测任务数据集上的实验结果表明,融合中上层的BERT语境词向量均显著提高了译文质量估计与人工评价的相关性,并且当对BERT语境词向量的最后4层表示平均池化后引入译文质量估计中对系统性能的提高幅度最大。实验分析进一步揭示了融合语境词向量的方法能利用译文的流利度特征来提高翻译质量估计的效果。 展开更多
关键词 神经译文质量估计 语境词向量 循环神经网络 编码器-解码器网络 质量向量
下载PDF
基于孪生BERT网络的科技文献类目映射 被引量:3
20
作者 何贤敏 李茂西 何彦青 《计算机研究与发展》 EI CSCD 北大核心 2021年第8期1751-1760,共10页
国际专利分类法(international patent classification,IPC)和中国图书馆分类法(Chinese library classification,CLC)作为重要分类标识,分别在专利信息和期刊文献的组织以及管理中发挥着重要作用.如何准确地建立它们之间的映射关系对... 国际专利分类法(international patent classification,IPC)和中国图书馆分类法(Chinese library classification,CLC)作为重要分类标识,分别在专利信息和期刊文献的组织以及管理中发挥着重要作用.如何准确地建立它们之间的映射关系对实现专利信息、期刊资源交叉浏览和检索有着重要的意义.提出了基于BERT预训练上下文语言模型的孪生网络用于建立IPC类目和CLC类目之间的映射关系,利用孪生网络模型分别抽象这2个分类法类目描述文本,通过平均池化抽象后的向量表示计算得到它们相同维度的句子向量,基于余弦相似度计算句子之间的相似度得分,完成类目映射.在人工标注一定规模的IPC类目和CLC类目之间的映射语料库上进行实验验证,结果表明提出的方法显著优于基于规则的方法和Sia-Multi,Bi-TextCNN,Bi-LSTM等深度神经网络的方法.相关的代码、模型和人工标注语料库已经公开发布. 展开更多
关键词 国际专利分类法 中国图书馆分类法 基于孪生BERT网络 类目映射 对比损失
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部