期刊文献+
共找到321篇文章
< 1 2 17 >
每页显示 20 50 100
融入实体翻译的汉越神经机器翻译模型
1
作者 高盛祥 侯哲 +1 位作者 余正涛 赖华 《计算机应用》 北大核心 2025年第1期69-74,共6页
在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源... 在汉越低资源翻译任务中,句子中的实体词准确翻译是一大难点。针对实体词在训练语料中出现的频率较低,模型无法构建双语实体词之间的映射关系等问题,构建一种融入实体翻译的汉越神经机器翻译模型。首先,通过汉越实体双语词典预先获取源句中实体词的翻译结果;其次,将结果拼接在源句末端作为模型的输入,同时在编码端引入“约束提示信息”增强表征;最后,在解码端融入指针网络机制,以确保模型能复制输出源端句的词汇。实验结果表明,该模型相较于跨语言模型XLM-R(Cross-lingual Language Model-RoBERTa)的双语评估替补(BLEU)值在汉越方向提升了1.37,越汉方向提升了0.21,时间性能上相较于Transformer该模型在汉越方向和越汉方向分别缩短3.19%和3.50%,可有效地提升句子中实体词翻译的综合性能。 展开更多
关键词 汉越神经机器翻译 实体翻译 双语词典 指针网络 低资源
下载PDF
基于微调原型网络的小样本敏感信息识别方法 被引量:1
2
作者 余正涛 关昕 +2 位作者 黄于欣 张思琦 赵庆珏 《中文信息学报》 CSCD 北大核心 2024年第1期115-123,共9页
敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方... 敏感信息识别主要是指识别互联网上涉及色情、毒品、邪教、暴力等类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,但由于缺乏大规模的敏感信息标注数据,分类效果不佳。该文提出一种基于微调原型网络的小样本敏感信息识别方法,在小样本学习框架下,利用快速适应的微调原型网络来缓解元训练阶段通用新闻领域和元测试阶段敏感信息数据差异大的问题。首先,在元训练阶段,基于通用新闻领域的分类数据训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数,然后在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。实验结果证明,相比当前最优的小样本分类模型,该文提出的快速适应微调策略的原型网络显著提升了敏感信息识别效果。 展开更多
关键词 敏感信息识别 小样本学习 微调策略 原型网络
下载PDF
多模态特征的越南语语音识别文本标点恢复 被引量:1
3
作者 赖华 孙童 +3 位作者 王文君 余正涛 高盛祥 董凌 《计算机应用》 CSCD 北大核心 2024年第2期418-423,共6页
越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南... 越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。 展开更多
关键词 语音识别 标点恢复 越南语 BERT 多模态
下载PDF
基于多维度注意力机制和复数Conformer的单通道语音增强方法
4
作者 高盛祥 莫尚斌 +2 位作者 余正涛 董凌 王文君 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期393-403,共11页
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-... 为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。 展开更多
关键词 深度复数网络 声学特征 关联信息 多维度注意力机制 语音增强
下载PDF
基于类型矩阵转移的汉越事件因果关系识别
5
作者 高盛祥 熊琨 +2 位作者 余正涛 张磊 黄于欣 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第1期118-127,共10页
针对汉越跨语言新闻事件因果关系识别中,汉越跨语言的文本语义空间难以统一、新闻之间的因果关联特征捕获困难的问题,提出了基于类型矩阵转移的汉越跨语言新闻事件因果关系识别方法。通过跨语言预训练统一汉越跨语言的文本语义空间,使... 针对汉越跨语言新闻事件因果关系识别中,汉越跨语言的文本语义空间难以统一、新闻之间的因果关联特征捕获困难的问题,提出了基于类型矩阵转移的汉越跨语言新闻事件因果关系识别方法。通过跨语言预训练统一汉越跨语言的文本语义空间,使用树形长短期记忆循环神经网络提取汉越文本中的句法结构化特征,融入汉越句法特征并结合基于事件类型转移的注意力机制,对汉越事件句对的因果关系进行识别。实验结果表明,该方法在汉越跨语言新闻事件因果关系的识别上较基线模型准确率有所提升。 展开更多
关键词 汉越跨语言 事件类型 语言对抗 句法信息 因果关系
下载PDF
基于时频信息梯度估计的单通道语音增强方法
6
作者 高盛祥 方妍文 +2 位作者 余正涛 董凌 莫尚斌 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期1051-1058,共8页
[目的]语音增强可用于提升现实噪声环境下语音翻译系统的性能.针对现有基于概率扩散模型的语音增强方法存在生成语音结构被破坏、难以对全局特征建模的问题进行研究.[方法]本文提出基于时频信息梯度估计的单通道语音增强方法.首先将语... [目的]语音增强可用于提升现实噪声环境下语音翻译系统的性能.针对现有基于概率扩散模型的语音增强方法存在生成语音结构被破坏、难以对全局特征建模的问题进行研究.[方法]本文提出基于时频信息梯度估计的单通道语音增强方法.首先将语音复数谱送入编码器中提取深层表征,并提出将残差快速傅里叶卷积(residual fast fourier convolution,Res-FFC)用于修复生成语音并对语音全局特征进行建模,同时在编解码的过程中融入语音时域信息.[结果]在公开数据集Voice Bank-DEMAND上的实验结果表明,相比基于分数生成模型的复数时频域语音增强网络(SGMSE),本文所提方法在客观评价指标SI-SDR和WB-PESQ分别提高0.5和0.19.[结论]本文提出的语音增强方法通过融入Res-FFC和语音时域信息,提升了模型对语音全局特征的捕捉能力,可有效抑制噪声,提升语音质量. 展开更多
关键词 语音增强 概率扩散模型 单通道 快速傅里叶卷积
下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成
7
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
下载PDF
基于语音语义引导的语音分割方法
8
作者 高盛祥 杨尚龙 +2 位作者 余正涛 董凌 周国江 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期1042-1050,共9页
[目的]语音分割旨在将音频流或者较长的音频分割为短的音频片段,是语音翻译任务中的一个必要步骤.恰当的分割使音频段具有完整的语义,从而使语音翻译模型更关注句子完整的上下文信息,解码得到更优的翻译结果.[方法]本文提出一种基于语... [目的]语音分割旨在将音频流或者较长的音频分割为短的音频片段,是语音翻译任务中的一个必要步骤.恰当的分割使音频段具有完整的语义,从而使语音翻译模型更关注句子完整的上下文信息,解码得到更优的翻译结果.[方法]本文提出一种基于语音语义引导的语音分割方法,使用基于HuBERT的帧分类器对音频帧进行分类,得到每个音频帧是否为语音帧的概率,并使用ipDAC算法对音频进行递归切割,从而实现对音频的分割.[结果]本文方法在Must-C英语-越南语翻译数据集上的BLEU值上相较已有方法取得了0.6个百分点的提升.[结论]通过对比不同的分割方法对模型性能的影响,证明所提方法能有效减少语音翻译模型在解码时的性能损失. 展开更多
关键词 语音翻译 语音分割 HuBERT预训练模型
下载PDF
基于三幕结构思维链和语义自洽的事件驱动故事生成方法 被引量:1
9
作者 黄于欣 赵源 +2 位作者 余正涛 吴磊 马九顺 《模式识别与人工智能》 EI CSCD 北大核心 2024年第7期571-583,共13页
事件驱动故事生成旨在根据有限的故事背景和事件信息生成连贯且符合事件内容的故事.然而,现有方法常因对复杂的事件关系推理不足,导致生成的故事存在语义不连贯、情节冲突等问题.为此,文中提出基于三幕结构思维链和语义自洽的事件驱动... 事件驱动故事生成旨在根据有限的故事背景和事件信息生成连贯且符合事件内容的故事.然而,现有方法常因对复杂的事件关系推理不足,导致生成的故事存在语义不连贯、情节冲突等问题.为此,文中提出基于三幕结构思维链和语义自洽的事件驱动故事生成方法,在生成故事前选择类型多样的故事示例,学习不同类型故事的写作方式.生成故事时,按照故事的开端、冲突和结局三幕结构设计思维链,引导方法合理规划故事内容,避免故事情节前后矛盾.生成故事后,引入语义自洽,模拟作家的推敲过程,从生成的多个故事中选择语义一致、连贯性和相关性较高的故事.实验表明,相比提示学习方法,文中方法的BLEU-4和BERTScore指标值有所提升,并且在人工评估中也占有一定的优势. 展开更多
关键词 事件驱动故事生成 大规模语言模型 语义自恰 三幕结构思维链
下载PDF
融合词性语义扩展信息的事件检测模型 被引量:1
10
作者 严海宁 余正涛 +2 位作者 黄于欣 宋燃 杨溪 《计算机工程》 CAS CSCD 北大核心 2024年第3期89-97,共9页
事件检测是事件抽取中的关键步骤,依赖于触发词进行事件类型分类。现有主流事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,在稀疏标记的触发词或者未见过的触发词上容易失效。改进方法通常通过扩充更多训练实例... 事件检测是事件抽取中的关键步骤,依赖于触发词进行事件类型分类。现有主流事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,在稀疏标记的触发词或者未见过的触发词上容易失效。改进方法通常通过扩充更多训练实例来缓解这一问题,但扩充后的数据分布不平衡,存在内置偏差,仍然表现不佳。为此,建立一种融合词性语义扩展信息的事件检测模型。对词粒度扩展信息进行分析,在不增加训练实例的条件下缩小候选触发词的范围,并对候选触发词进行语义扩展,挖掘候选触发词的上下文中蕴含的丰富语义,缓解了标记数据稀疏造成模型训练不充分的情况。通过词性筛选模块寻找候选触发词并对其进行语义扩展挖掘词粒度语义信息,融合句子粒度语义信息提升语义表征的鲁棒性,最终利用Softmax分类器进行分类完成事件检测任务。实验结果表明,该模型在ACE2005和KBP2015数据集上的事件检测任务中的F1值分别达到79.5%和67.5%,有效提升了事件检测性能,并且在稀疏标记数据实验中的F1值达到78.5%,明显改善了标记数据稀疏带来的不良影响。 展开更多
关键词 事件检测 稀疏标记 词性筛选 语义扩展 语义融合 动态多池化
下载PDF
一种Mask交互融合预训练知识的低资源神经机器翻译方法 被引量:1
11
作者 朱志国 郭军军 余正涛 《小型微型计算机系统》 CSCD 北大核心 2024年第3期591-597,共7页
融合预训练语言知识是提升低资源神经机器翻译性能的有效手段.现有融合预训练语言知识的方法都比较复杂,计算资源消耗较大.针对以上问题,本文提出了一种简单有效的Mask交互融合预训练知识的低资源神经机器翻译方法,首先利用BERT的句子... 融合预训练语言知识是提升低资源神经机器翻译性能的有效手段.现有融合预训练语言知识的方法都比较复杂,计算资源消耗较大.针对以上问题,本文提出了一种简单有效的Mask交互融合预训练知识的低资源神经机器翻译方法,首先利用BERT的句子表征与源语言表征的自注意力交互计算两种表征的相似度,根据相似度值构造Mask知识矩阵,然后将Mask知识矩阵作用于源语言表征,自适应地将BERT表征中对低资源神经机器翻译任务有益的语言知识融入翻译模型,提升翻译模型对语言知识的表征能力.在IWSLT标准低资源翻译任务上的实验结果表明,与Transformer基线模型相比,所提方法获得了0.9~3.39的BLEU值提升,证明了所提方法能够有效利用预训练语言知识增强神经机器翻译性能. 展开更多
关键词 低资源神经机器翻译 知识融合 BERT Mask交互融合
下载PDF
基于梯度权重变化训练策略的低资源机器翻译 被引量:1
12
作者 王家琪 朱俊国 余正涛 《计算机科学与探索》 CSCD 北大核心 2024年第3期731-739,共9页
近年来Transformer等神经网络模型在机器翻译上取得了显著的成功,但训练这些模型需要依靠丰富的有标签数据,而低资源机器翻译因受限于平行语料库的规模,导致训练得到的模型表现不佳,同时很容易针对高频词汇过度拟合,从而降低模型在测试... 近年来Transformer等神经网络模型在机器翻译上取得了显著的成功,但训练这些模型需要依靠丰富的有标签数据,而低资源机器翻译因受限于平行语料库的规模,导致训练得到的模型表现不佳,同时很容易针对高频词汇过度拟合,从而降低模型在测试集上的泛化能力。为了缓解这一现象,提出了一种梯度权重变化的策略,即在Adam算法基础上为每一个新批次所产生的梯度乘以一个系数。该系数递增变化,旨在在训练早期削弱对高频特征的依赖,而在训练后期保持算法的快速收敛优势。介绍了模型改进后的训练流程,其中包括系数的调整和衰减,以实现在不同训练阶段的不同侧重。这种策略的目标是增加对低频词汇的关注度,防止模型对高频词汇的过拟合。在三个低资源的双语数据集上进行了翻译任务实验,该方法在测试集上相对于基线模型分别提升了0.72、1.37和1.04个BLEU得分。 展开更多
关键词 神经机器翻译 过拟合 动态梯度权重
下载PDF
基于生成对抗网络的越南语新闻事件共指关系识别方法 被引量:1
13
作者 汪翠 余正涛 梁晨 《中文信息学报》 CSCD 北大核心 2024年第2期79-86,共8页
事件共指关系识别旨在分析事件描述之间是否从不同的角度对同一件真实事件展开论述。但是,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的噪声情况,其会对共指关系识别模型造成干扰。为解决以上问题,该文... 事件共指关系识别旨在分析事件描述之间是否从不同的角度对同一件真实事件展开论述。但是,在同一篇新闻报道中往往存在不同事件句之间具有相似上下文但不具有共指关系的噪声情况,其会对共指关系识别模型造成干扰。为解决以上问题,该文提出了基于生成对抗网络的越南语新闻事件共指关系识别方法,采用触发词的上下文信息作为事件句的最小特征表示,在生成对抗网络的基础上构建噪声数据过滤机制进行信息实例与噪声实例的区分。在越南语事件数据集和公开数据集上的实验表明,该神经网络模型能有效进行噪声数据过滤,相对于传统的事件共指关系识别方法有明显的优势。 展开更多
关键词 越南语新闻 事件共指关系识别 生成对抗网络
下载PDF
融合音素的缅甸语语音识别文本纠错
14
作者 陈璐 董凌 +3 位作者 王文君 王剑 余正涛 高盛祥 《计算机工程与科学》 CSCD 北大核心 2024年第6期1121-1127,共7页
缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法... 缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法。通过参数共享策略对转录文本及其音素进行联合建模,利用音素信息辅助检测并纠正缅甸语同音和空格错误。实验结果表明,本文所提方法相比基线方法ConvSeq2Seq,在缅甸语语音识别纠错任务中的F1值提升了85.97%,达到了79.15%。 展开更多
关键词 缅甸语 语音识别文本纠错 音素 共享参数 BERT
下载PDF
基于多特征交互融合的老挝语无监督音素分割方法
15
作者 李新洁 王文君 +3 位作者 董凌 赖华 余正涛 高盛祥 《计算机工程与科学》 CSCD 北大核心 2024年第5期937-944,共8页
针对现有方法对老挝语声调变化以及音频多样性考虑不足导致音素分割不准确的问题,提出一种多特征交互融合的老挝语无监督音素分割方法。先对自监督特征、频谱特征以及音高特征进行独立编码,避免单一特征的不足;再基于注意力机制渐进融... 针对现有方法对老挝语声调变化以及音频多样性考虑不足导致音素分割不准确的问题,提出一种多特征交互融合的老挝语无监督音素分割方法。先对自监督特征、频谱特征以及音高特征进行独立编码,避免单一特征的不足;再基于注意力机制渐进融合多种独立特征,使模型更全面地捕捉老挝语的声调变化和音素边界的信息;最后采用可学习框架优化音素分割模型。实验结果表明,相比基线方法,在老挝语音素分割任务上所提方法的R-value值提升了27.88%。 展开更多
关键词 无监督学习 特征融合 老挝语 音素分割 语音表征
下载PDF
基于局部Transformer的泰语分词和词性标注联合模型
16
作者 朱叶芬 线岩团 +1 位作者 余正涛 相艳 《智能系统学报》 CSCD 北大核心 2024年第2期401-410,共10页
泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采... 泰语分词和词性标注任务二者之间存在高关联性,已有研究表明将分词和词性标注任务进行联合学习可以有效提升模型性能,为此,提出了一种针对泰语拼写和构词特点的分词和词性标注联合模型。针对泰语中字符构成音节,音节组成词语的特点,采用局部Transformer网络从音节序列中学习分词特征;考虑到词根和词缀等音节与词性的关联,将用于分词的音节特征融入词语序列特征,缓解未知词的词性标注特征缺失问题。在此基础上,模型采用线性分类层预测分词标签,采用线性条件随机场建模词性序列的依赖关系。在泰语数据集LST20上的试验结果表明,模型分词F1、词性标注微平均F1和宏平均F1分别达到96.33%、97.06%和85.98%,相较基线模型分别提升了0.33%、0.44%和0.12%。 展开更多
关键词 泰语分词 词性标注 联合学习 局部Transformer 构词特点 音节特征 线性条件随机场 联合模型
下载PDF
多特征融合的越英端到端语音翻译方法
17
作者 马候丽 董凌 +3 位作者 王剑 王文君 高盛祥 余正涛 《中文信息学报》 CSCD 北大核心 2024年第10期35-45,共11页
语音翻译的编码器需要同时编码语音中的声学信息和语义信息,单一的Fbank或Wav2vec2语音特征表征能力存在不足。通过分析人工的Fbank特征与自监督的Wav2vec2特征间的差异性,提出基于交叉注意力机制的声学特征融合方法,并探究了不同的自... 语音翻译的编码器需要同时编码语音中的声学信息和语义信息,单一的Fbank或Wav2vec2语音特征表征能力存在不足。通过分析人工的Fbank特征与自监督的Wav2vec2特征间的差异性,提出基于交叉注意力机制的声学特征融合方法,并探究了不同的自监督特征和融合方式,加强模型对语音中声学和语义信息的学习。结合越南语语音特点,以Fbank特征为主、Pitch特征为辅混合编码Fbank表征,构建多特征融合的越-英语音翻译模型。实验表明,使用多特征的语音翻译模型相比单特征翻译效果更优,与简单的特征拼接方法相比更有效,该文所提出的多特征融合方法在越-英语音翻译任务上提升了1.97个BLEU值。 展开更多
关键词 语音翻译 越南语 特征融合
下载PDF
基于多路信息聚合协同解码的单通道语音增强
18
作者 莫尚斌 王文君 +2 位作者 董凌 高盛祥 余正涛 《计算机应用》 CSCD 北大核心 2024年第8期2611-2617,共7页
为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复... 为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。 展开更多
关键词 声学特征 多路信息聚合 双路编码器 三路信息聚合解码器 通道-时频注意力机制
下载PDF
基于时空注意力机制的视频引导机器翻译方法
19
作者 姜舟 余正涛 +2 位作者 高盛祥 毛存礼 郭军军 《中文信息学报》 CSCD 北大核心 2024年第4期50-58,共9页
视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中存在大量与目标语言无关的信息。因此,在翻译过程中,视频中... 视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中存在大量与目标语言无关的信息。因此,在翻译过程中,视频中的时空结构没有得到充分利用,从而无法有效缓解机器翻译中细节缺失或翻译错误的问题。为了解决这一问题,该文提出了一种基于时空注意力(Spatial-Temporal Attention,STA)的模型来充分利用视频中的时空信息引导机器翻译。该文提出的注意力模型不但能够选择与目标语言最相关的时空片段,而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。该文的方法基于Vatex公共数据集和构建的汉-越低资源数据集进行实验,在Vatex与汉-越低资源数据集上BLEU4分别达到32.66和18.46,相比于时间注意力基线方法提高了3.54与0.89个BLEU值。 展开更多
关键词 时空注意力 视频引导机器翻译 细节缺失 时间注意力 空间注意力
下载PDF
融入文档图和事件图的新闻核心事件检测
20
作者 赵庆珏 余正涛 +2 位作者 王剑 黄于欣 朱恩昌 《中文信息学报》 CSCD 北大核心 2024年第5期99-106,共8页
新闻核心事件检测旨在从非结构化的新闻文本中检测出最能代表新闻核心内容的事件。新闻报道的多个事件之间存在着复杂的关联关系,且同一个事件的事件要素分布在不同的句子甚至不同的段落中,传统的方法对事件之间的关联关系以及事件的全... 新闻核心事件检测旨在从非结构化的新闻文本中检测出最能代表新闻核心内容的事件。新闻报道的多个事件之间存在着复杂的关联关系,且同一个事件的事件要素分布在不同的句子甚至不同的段落中,传统的方法对事件之间的关联关系以及事件的全局语义信息建模不充分。因此,该文提出了融入文档图和事件图的新闻核心事件检测方法。该方法首先通过构建文档图和事件图来建模新闻文本的全局语义特征和事件之间的关联特征。然后,通过图卷积神经网络捕获高阶邻域信息,获得文档表征和事件表征。最后,将得到的文档表征和事件表征使用交叉注意力进一步捕获事件全局语义信息。在纽约时报数据集上的实验结果验证了该文方法的有效性,NR@1较基线方法提升2.18%。 展开更多
关键词 核心事件检测 文档图 事件图 交叉注意力机制
下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部