期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于wav2vec预训练的样例关键词识别 被引量:5
1
作者 李昭奇 黎塔 《计算机科学》 CSCD 北大核心 2022年第1期59-64,共6页
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标... 样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。 展开更多
关键词 声学词嵌入 孤立词识别 wav2vec预训练 样例查询 语音片段查询
下载PDF
改进的预训练模型JWT及其在情感分析中的应用 被引量:2
2
作者 费宏慧 《中国工程机械学报》 北大核心 2021年第3期212-216,共5页
深层预训练模型能有效应用于"方面-目标"类型的方面级情感分析,但其结构复杂,计算代价昂贵,不能直接应用于"方面-主题"类型的方面级情感分析。基于此,本文提出了一种改进的浅层预训练模型(JWT),它能同时对中心词的... 深层预训练模型能有效应用于"方面-目标"类型的方面级情感分析,但其结构复杂,计算代价昂贵,不能直接应用于"方面-主题"类型的方面级情感分析。基于此,本文提出了一种改进的浅层预训练模型(JWT),它能同时对中心词的局部上下文和全局上下文建模。局部上下文建模沿用word2vec的思想,全局上下文建模利用vMF分布。JWT将全局上下文视为主题,并将其作为中心词局部上下文的产生条件,能适应"方面-主题"类型的方面级情感分析应用场景。在3个数据集上评估了JWT模型学得的词相似性,在4种不同的情感分类器上研究了JWT在评论数据集SemEval ABSA上的情感分类性能。结果表明:JWT模型在所有的实验任务上均优于标准的skip-gram,并取得了与现有的基准模型(cvMF)和Joint skip-gram相媲美的效果。 展开更多
关键词 训练模型 word2vec 词嵌入 全局上下文 情感分析
下载PDF
基于QAR2Vec模型的QAR数据特征提取 被引量:8
3
作者 段照斌 杜海龙 张鹏 《中国安全科学学报》 CAS CSCD 北大核心 2021年第1期145-152,共8页
针对传统特征提取方法难以从海量、高维的快速存取记录器(QAR)数据中提取有效特征,且QAR数据缺乏足够的标记等问题,提出一种以Transformer网络为核心的QAR2Vec模型,将QAR数据与位置信息、飞行阶段信息共同编码,作为QAR2Vec模型的输入;... 针对传统特征提取方法难以从海量、高维的快速存取记录器(QAR)数据中提取有效特征,且QAR数据缺乏足够的标记等问题,提出一种以Transformer网络为核心的QAR2Vec模型,将QAR数据与位置信息、飞行阶段信息共同编码,作为QAR2Vec模型的输入;通过构建自回归预测的预训练任务以自监督的方式来学习海量QAR数据中的深层特征;保存预训练好的QAR2Vec模型权重,并在飞行状态预测和着陆异常天气识别任务上,微调预训练模型,使模型适应不同的下游任务;将QAR2Vec模型与2种没有预训练步骤的深度学习算法CNN-LSTM、MTL-LSTM进行对比。结果表明:QAR2Vec模型能够更有效地从QAR数据中提取特征,在飞行状态预测和着陆异常天气识别任务上的预测误差更低、识别准确度更高。 展开更多
关键词 QAR2vec 特征提取 Transformer网络 自回归 训练 深度学习
下载PDF
基于知识图谱与BERT的安全领域汉字文本纠错模型
4
作者 王子斌 张全 +3 位作者 谢聪 余沛 余泓江 李沣庭 《计算机应用》 CSCD 北大核心 2023年第S01期75-80,共6页
针对安全领域所涉及的文本中存在大量人为混淆的文字的问题,提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型,表征汉字的读音、字形、语义三个维度的特征,构建纠错算法。首先,构建... 针对安全领域所涉及的文本中存在大量人为混淆的文字的问题,提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型,表征汉字的读音、字形、语义三个维度的特征,构建纠错算法。首先,构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系,并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量;其次,基于知识图谱中字形关系构建node2vec模型,得到node2vec字形向量,并结合卷积神经网络(CNN)方法训练字形向量,两者之和作为最终的字形向量;最后,基于BERT预训练模型,融合读音、字形、语义三维度的向量,并在不同维度间使用自注意力机制加权求和,发现错误字位置并选择正确的候选字。为验证所提模型的有效性,在安全领域诈骗短信数据集上,将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明,所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点,比SpellGCN分别提升了22.2、13.7个百分点,比Soft-Masked BERT分别提升了20.8、32.7个百分点。可见该纠错模型能够有效识别安全领域文本的错字,在网络诈骗文本分类、要素提取等下游任务中有较好的效果。 展开更多
关键词 自然语言处理 知识图谱 汉字文本纠错 图神经网络 node2vec BERT 训练模型
下载PDF
MPMFC:一种融合网络邻里结构特征和专利语义特征的中药专利分类模型
5
作者 邓娜 何昕洋 +1 位作者 陈伟杰 陈旭 《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第4期145-158,共14页
【目的】解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致的分类准确率不理想问题。【方法】提出中药专利多特征融合分类模型MPMFC:基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2... 【目的】解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致的分类准确率不理想问题。【方法】提出中药专利多特征融合分类模型MPMFC:基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2Vec算法从中药专利相似度网络的全局结构中捕获潜在专利间的邻里结构信息,使其映射为低维向量作为补充特征;使用注意力机制将经过RoBERTa-Tiny预训练的专利语义特征与其对应的补充特征进行特征融合,进而实现中药专利的自动化分类。【结果】在真实的7000条中药专利语料上,MPMFC模型的准确率、召回率和F1值分别达到0.8436、0.8017、0.8221,相较于基线分类模型分别提升1.58、2.59和2.11个百分点。【局限】构建中药专利相似度网络时分配权重具有一定的主观性,非中药科研人员在进行专利标注时会存在部分分类错误。【结论】MPMFC模型在中药专利分类过程中能从多角度获取并学习更丰富的特征表示,从而提高分类准确性。 展开更多
关键词 中药专利分类 专利相似度网络 特征融合 训练模型 Node2vec
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部