期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于wav2vec预训练的样例关键词识别
被引量:
5
1
作者
李昭奇
黎塔
《计算机科学》
CSCD
北大核心
2022年第1期59-64,共6页
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标...
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。
展开更多
关键词
声学词嵌入
孤立词识别
wav2vec预训练
样例查询
语音片段查询
下载PDF
职称材料
改进的预训练模型JWT及其在情感分析中的应用
被引量:
2
2
作者
费宏慧
《中国工程机械学报》
北大核心
2021年第3期212-216,共5页
深层预训练模型能有效应用于"方面-目标"类型的方面级情感分析,但其结构复杂,计算代价昂贵,不能直接应用于"方面-主题"类型的方面级情感分析。基于此,本文提出了一种改进的浅层预训练模型(JWT),它能同时对中心词的...
深层预训练模型能有效应用于"方面-目标"类型的方面级情感分析,但其结构复杂,计算代价昂贵,不能直接应用于"方面-主题"类型的方面级情感分析。基于此,本文提出了一种改进的浅层预训练模型(JWT),它能同时对中心词的局部上下文和全局上下文建模。局部上下文建模沿用word2vec的思想,全局上下文建模利用vMF分布。JWT将全局上下文视为主题,并将其作为中心词局部上下文的产生条件,能适应"方面-主题"类型的方面级情感分析应用场景。在3个数据集上评估了JWT模型学得的词相似性,在4种不同的情感分类器上研究了JWT在评论数据集SemEval ABSA上的情感分类性能。结果表明:JWT模型在所有的实验任务上均优于标准的skip-gram,并取得了与现有的基准模型(cvMF)和Joint skip-gram相媲美的效果。
展开更多
关键词
预
训练
模型
word
2
vec
词嵌入
全局上下文
情感分析
下载PDF
职称材料
基于QAR2Vec模型的QAR数据特征提取
被引量:
8
3
作者
段照斌
杜海龙
张鹏
《中国安全科学学报》
CAS
CSCD
北大核心
2021年第1期145-152,共8页
针对传统特征提取方法难以从海量、高维的快速存取记录器(QAR)数据中提取有效特征,且QAR数据缺乏足够的标记等问题,提出一种以Transformer网络为核心的QAR2Vec模型,将QAR数据与位置信息、飞行阶段信息共同编码,作为QAR2Vec模型的输入;...
针对传统特征提取方法难以从海量、高维的快速存取记录器(QAR)数据中提取有效特征,且QAR数据缺乏足够的标记等问题,提出一种以Transformer网络为核心的QAR2Vec模型,将QAR数据与位置信息、飞行阶段信息共同编码,作为QAR2Vec模型的输入;通过构建自回归预测的预训练任务以自监督的方式来学习海量QAR数据中的深层特征;保存预训练好的QAR2Vec模型权重,并在飞行状态预测和着陆异常天气识别任务上,微调预训练模型,使模型适应不同的下游任务;将QAR2Vec模型与2种没有预训练步骤的深度学习算法CNN-LSTM、MTL-LSTM进行对比。结果表明:QAR2Vec模型能够更有效地从QAR数据中提取特征,在飞行状态预测和着陆异常天气识别任务上的预测误差更低、识别准确度更高。
展开更多
关键词
QAR
2
vec
特征提取
Transformer网络
自回归
预
训练
深度学习
下载PDF
职称材料
基于知识图谱与BERT的安全领域汉字文本纠错模型
4
作者
王子斌
张全
+3 位作者
谢聪
余沛
余泓江
李沣庭
《计算机应用》
CSCD
北大核心
2023年第S01期75-80,共6页
针对安全领域所涉及的文本中存在大量人为混淆的文字的问题,提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型,表征汉字的读音、字形、语义三个维度的特征,构建纠错算法。首先,构建...
针对安全领域所涉及的文本中存在大量人为混淆的文字的问题,提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型,表征汉字的读音、字形、语义三个维度的特征,构建纠错算法。首先,构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系,并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量;其次,基于知识图谱中字形关系构建node2vec模型,得到node2vec字形向量,并结合卷积神经网络(CNN)方法训练字形向量,两者之和作为最终的字形向量;最后,基于BERT预训练模型,融合读音、字形、语义三维度的向量,并在不同维度间使用自注意力机制加权求和,发现错误字位置并选择正确的候选字。为验证所提模型的有效性,在安全领域诈骗短信数据集上,将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明,所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点,比SpellGCN分别提升了22.2、13.7个百分点,比Soft-Masked BERT分别提升了20.8、32.7个百分点。可见该纠错模型能够有效识别安全领域文本的错字,在网络诈骗文本分类、要素提取等下游任务中有较好的效果。
展开更多
关键词
自然语言处理
知识图谱
汉字文本纠错
图神经网络
node
2
vec
BERT
预
训练
模型
下载PDF
职称材料
MPMFC:一种融合网络邻里结构特征和专利语义特征的中药专利分类模型
5
作者
邓娜
何昕洋
+1 位作者
陈伟杰
陈旭
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2023年第4期145-158,共14页
【目的】解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致的分类准确率不理想问题。【方法】提出中药专利多特征融合分类模型MPMFC:基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2...
【目的】解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致的分类准确率不理想问题。【方法】提出中药专利多特征融合分类模型MPMFC:基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2Vec算法从中药专利相似度网络的全局结构中捕获潜在专利间的邻里结构信息,使其映射为低维向量作为补充特征;使用注意力机制将经过RoBERTa-Tiny预训练的专利语义特征与其对应的补充特征进行特征融合,进而实现中药专利的自动化分类。【结果】在真实的7000条中药专利语料上,MPMFC模型的准确率、召回率和F1值分别达到0.8436、0.8017、0.8221,相较于基线分类模型分别提升1.58、2.59和2.11个百分点。【局限】构建中药专利相似度网络时分配权重具有一定的主观性,非中药科研人员在进行专利标注时会存在部分分类错误。【结论】MPMFC模型在中药专利分类过程中能从多角度获取并学习更丰富的特征表示,从而提高分类准确性。
展开更多
关键词
中药专利分类
专利相似度网络
特征融合
预
训练
模型
Node
2
vec
原文传递
题名
基于wav2vec预训练的样例关键词识别
被引量:
5
1
作者
李昭奇
黎塔
机构
中国科学院声学研究所语言声学与内容理解重点实验室
中国科学院大学
出处
《计算机科学》
CSCD
北大核心
2022年第1期59-64,共6页
基金
国家重点研发计划(2020AAA0108002)。
文摘
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。
关键词
声学词嵌入
孤立词识别
wav2vec预训练
样例查询
语音片段查询
Keywords
Acoustic word embedding
Isolated word discrimination
wav
2
vec
pretraining
Query-by-example
Spoken term detection
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
改进的预训练模型JWT及其在情感分析中的应用
被引量:
2
2
作者
费宏慧
机构
上海电机学院电子信息学院
出处
《中国工程机械学报》
北大核心
2021年第3期212-216,共5页
基金
国家自然科学基金资助项目(61702320)
上海电机学院计算机科学与技术优势学科资助项目(16YSXK04)。
文摘
深层预训练模型能有效应用于"方面-目标"类型的方面级情感分析,但其结构复杂,计算代价昂贵,不能直接应用于"方面-主题"类型的方面级情感分析。基于此,本文提出了一种改进的浅层预训练模型(JWT),它能同时对中心词的局部上下文和全局上下文建模。局部上下文建模沿用word2vec的思想,全局上下文建模利用vMF分布。JWT将全局上下文视为主题,并将其作为中心词局部上下文的产生条件,能适应"方面-主题"类型的方面级情感分析应用场景。在3个数据集上评估了JWT模型学得的词相似性,在4种不同的情感分类器上研究了JWT在评论数据集SemEval ABSA上的情感分类性能。结果表明:JWT模型在所有的实验任务上均优于标准的skip-gram,并取得了与现有的基准模型(cvMF)和Joint skip-gram相媲美的效果。
关键词
预
训练
模型
word
2
vec
词嵌入
全局上下文
情感分析
Keywords
pre-trained model
word
2
vec
word embedding
global context
sentiment analysis
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于QAR2Vec模型的QAR数据特征提取
被引量:
8
3
作者
段照斌
杜海龙
张鹏
机构
中国民航大学工程技术训练中心
中国民航大学适航学院
出处
《中国安全科学学报》
CAS
CSCD
北大核心
2021年第1期145-152,共8页
基金
国家自然科学基金青年基金资助(61703406)
天津市教学成果奖重点培育项目(PYGJ-006)。
文摘
针对传统特征提取方法难以从海量、高维的快速存取记录器(QAR)数据中提取有效特征,且QAR数据缺乏足够的标记等问题,提出一种以Transformer网络为核心的QAR2Vec模型,将QAR数据与位置信息、飞行阶段信息共同编码,作为QAR2Vec模型的输入;通过构建自回归预测的预训练任务以自监督的方式来学习海量QAR数据中的深层特征;保存预训练好的QAR2Vec模型权重,并在飞行状态预测和着陆异常天气识别任务上,微调预训练模型,使模型适应不同的下游任务;将QAR2Vec模型与2种没有预训练步骤的深度学习算法CNN-LSTM、MTL-LSTM进行对比。结果表明:QAR2Vec模型能够更有效地从QAR数据中提取特征,在飞行状态预测和着陆异常天气识别任务上的预测误差更低、识别准确度更高。
关键词
QAR
2
vec
特征提取
Transformer网络
自回归
预
训练
深度学习
Keywords
QAR
2
vec
feature extraction
Transformer net
auto-regression
pre-training
deep learning
分类号
X949 [环境科学与工程—安全科学]
下载PDF
职称材料
题名
基于知识图谱与BERT的安全领域汉字文本纠错模型
4
作者
王子斌
张全
谢聪
余沛
余泓江
李沣庭
机构
南京中新赛克科技有限责任公司
重庆市公安局
出处
《计算机应用》
CSCD
北大核心
2023年第S01期75-80,共6页
文摘
针对安全领域所涉及的文本中存在大量人为混淆的文字的问题,提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型,表征汉字的读音、字形、语义三个维度的特征,构建纠错算法。首先,构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系,并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量;其次,基于知识图谱中字形关系构建node2vec模型,得到node2vec字形向量,并结合卷积神经网络(CNN)方法训练字形向量,两者之和作为最终的字形向量;最后,基于BERT预训练模型,融合读音、字形、语义三维度的向量,并在不同维度间使用自注意力机制加权求和,发现错误字位置并选择正确的候选字。为验证所提模型的有效性,在安全领域诈骗短信数据集上,将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明,所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点,比SpellGCN分别提升了22.2、13.7个百分点,比Soft-Masked BERT分别提升了20.8、32.7个百分点。可见该纠错模型能够有效识别安全领域文本的错字,在网络诈骗文本分类、要素提取等下游任务中有较好的效果。
关键词
自然语言处理
知识图谱
汉字文本纠错
图神经网络
node
2
vec
BERT
预
训练
模型
Keywords
Natural Language Processing(NLP)
Chinese knowledge graph
text error correction
Graph Neural Network(GNN)
node
2
vec
Bidirectional Encoder Representation from Transformers(BERT)
pre-training model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
MPMFC:一种融合网络邻里结构特征和专利语义特征的中药专利分类模型
5
作者
邓娜
何昕洋
陈伟杰
陈旭
机构
湖北工业大学计算机学院
中南财经政法大学信息与安全工程学院
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2023年第4期145-158,共14页
基金
国家自然科学基金项目(项目编号:61902116)的研究成果之一。
文摘
【目的】解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致的分类准确率不理想问题。【方法】提出中药专利多特征融合分类模型MPMFC:基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2Vec算法从中药专利相似度网络的全局结构中捕获潜在专利间的邻里结构信息,使其映射为低维向量作为补充特征;使用注意力机制将经过RoBERTa-Tiny预训练的专利语义特征与其对应的补充特征进行特征融合,进而实现中药专利的自动化分类。【结果】在真实的7000条中药专利语料上,MPMFC模型的准确率、召回率和F1值分别达到0.8436、0.8017、0.8221,相较于基线分类模型分别提升1.58、2.59和2.11个百分点。【局限】构建中药专利相似度网络时分配权重具有一定的主观性,非中药科研人员在进行专利标注时会存在部分分类错误。【结论】MPMFC模型在中药专利分类过程中能从多角度获取并学习更丰富的特征表示,从而提高分类准确性。
关键词
中药专利分类
专利相似度网络
特征融合
预
训练
模型
Node
2
vec
Keywords
TCM Patent Classification
Patent Similarity Network
Feature Fusion
Pre-Training Model
Node
2
vec
分类号
G35 [文化科学—情报学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于wav2vec预训练的样例关键词识别
李昭奇
黎塔
《计算机科学》
CSCD
北大核心
2022
5
下载PDF
职称材料
2
改进的预训练模型JWT及其在情感分析中的应用
费宏慧
《中国工程机械学报》
北大核心
2021
2
下载PDF
职称材料
3
基于QAR2Vec模型的QAR数据特征提取
段照斌
杜海龙
张鹏
《中国安全科学学报》
CAS
CSCD
北大核心
2021
8
下载PDF
职称材料
4
基于知识图谱与BERT的安全领域汉字文本纠错模型
王子斌
张全
谢聪
余沛
余泓江
李沣庭
《计算机应用》
CSCD
北大核心
2023
0
下载PDF
职称材料
5
MPMFC:一种融合网络邻里结构特征和专利语义特征的中药专利分类模型
邓娜
何昕洋
陈伟杰
陈旭
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2023
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部