期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于MacBERT和R-Drop的地质命名实体识别
1
作者 刘昕 徐洪珍 +1 位作者 刘爱华 邓德军 《郑州大学学报(工学版)》 CAS 北大核心 2024年第3期89-95,共7页
地质命名实体识别中常用的基于BERT预训练模型的深度学习方法是基于字的方法,没有利用词信息,且神经网络中的Dropout机制会导致训练阶段和推理阶段之间存在不一致性。针对该问题,提出了一种基于MacBERT和R-Drop的地质命名实体识别模型M... 地质命名实体识别中常用的基于BERT预训练模型的深度学习方法是基于字的方法,没有利用词信息,且神经网络中的Dropout机制会导致训练阶段和推理阶段之间存在不一致性。针对该问题,提出了一种基于MacBERT和R-Drop的地质命名实体识别模型MBCR。首先,通过MacBERT学习文本特征表示,充分利用字词信息;其次,运用BiGRU编码上下文特征,有效提取完整的语义信息;最后,采用CRF获取标签间的依赖关系,生成最优标签序列。此外,在训练过程中引入R-Drop,进一步提升模型的泛化能力。结果表明:与BiLSTM-CRF、BERTBiLSTM-CRF等模型相比,所提MBCR模型在NERdata数据集上的F1值提高了2.08百分点~4.62百分点,在Boson数据集上的F1值提高了1.26百分点~17.54百分点。 展开更多
关键词 命名实体识别 地质 macbert BiGRU R-Drop
下载PDF
融合MacBERT和Talking⁃Heads Attention实体关系联合抽取模型
2
作者 王春亮 姚洁仪 李昭 《现代电子技术》 北大核心 2024年第5期127-131,共5页
针对现有的医学文本关系抽取任务模型在训练过程中存在语义理解能力不足,可能导致关系抽取的效果不尽人意的问题,文中提出一种融合MacBERT和Talking⁃Heads Attention的实体关系联合抽取模型。该模型首先利用MacBERT语言模型来获取动态... 针对现有的医学文本关系抽取任务模型在训练过程中存在语义理解能力不足,可能导致关系抽取的效果不尽人意的问题,文中提出一种融合MacBERT和Talking⁃Heads Attention的实体关系联合抽取模型。该模型首先利用MacBERT语言模型来获取动态字向量表达,MacBERT作为改进的BERT模型,能够减少预训练和微调阶段之间的差异,从而提高模型的泛化能力;然后,将这些动态字向量表达输入到双向门控循环单元(BiGRU)中,以便提取文本的上下文特征。BiGRU是一种改进的循环神经网络(RNN),具有更好的长期依赖捕获能力。在获取文本上下文特征之后,使用Talking⁃Heads Attention来获取全局特征。Talking⁃Heads Attention是一种自注意力机制,可以捕获文本中不同位置之间的关系,从而提高关系抽取的准确性。实验结果表明,与实体关系联合抽取模型GRTE相比,该模型F1值提升1%,precision值提升0.4%,recall值提升1.5%。 展开更多
关键词 macbert BiGRU 关系抽取 医学文本 Talking⁃Heads Attention 深度学习 全局特征 神经网络
下载PDF
基于MacBERT与对抗训练的机器阅读理解模型
3
作者 周昭辰 方清茂 +2 位作者 吴晓红 胡平 何小海 《计算机工程》 CAS CSCD 北大核心 2024年第5期41-50,共10页
机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测... 机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测结果。为了提高模型的泛化能力和鲁棒性,提出一种基于掩码校正的来自Transformer的双向编码器表示(Mac BERT)与对抗训练(AT)的机器阅读理解模型。首先利用Mac BERT对输入的问题和文本进行词嵌入转化为向量表示;然后根据原始样本反向传播的梯度变化在原始词向量上添加微小扰动生成对抗样本;最后将原始样本和对抗样本输入双向长短期记忆(Bi LSTM)网络进一步提取文本的上下文特征,输出预测答案。实验结果表明,该模型在简体中文数据集CMRC2018上的F1值和精准匹配(EM)值分别较基线模型提高了1.39和3.85个百分点,在繁体中文数据集DRCD上的F1值和EM值分别较基线模型提高了1.22和1.71个百分点,在英文数据集SQu ADv1.1上的F1值和EM值分别较基线模型提高了2.86和1.85个百分点,优于已有的大部分机器阅读理解模型,并且在真实问答结果上与基线模型进行对比,结果验证了该模型具有更强的鲁棒性和泛化能力,在输入的问题存在噪声的情况下性能更好。 展开更多
关键词 机器阅读理解 对抗训练 预训练模型 掩码校正的来自Transformer的双向编码器表示 双向长短期记忆网络
下载PDF
结合MacBERT与多层次特征协同网络的音乐社交评论情感分析模型
4
作者 兰庆炜 樊宁 《电子设计工程》 2023年第7期36-41,共6页
为更好地解决传统模型特征捕捉能力不足,词向量语义表示不准确等问题,提出了结合MacBERT与多层次特征协同网络的音乐社交评论情感分析模型MacBERT-MFCN(MacBERT and Multi-level Feature Collaborative Network)。采用MacBERT模型提取... 为更好地解决传统模型特征捕捉能力不足,词向量语义表示不准确等问题,提出了结合MacBERT与多层次特征协同网络的音乐社交评论情感分析模型MacBERT-MFCN(MacBERT and Multi-level Feature Collaborative Network)。采用MacBERT模型提取评论文本特征向量,解决静态词向量无法表示多义词的问题;多层次特征协同网络结合双向内置注意力简单循环单元(Bidirectional Built in Attention Simple Recurrent Unit,BiBASRU)和多层次卷积神经网络(Multilevel Convolutional Neural Network,MCNN)模块,全面捕捉局部和上下文语义特征;软注意力用来衡量分类特征贡献的大小,赋予关键特征更高权重。基于网易云评论文本数据集进行实验,结果表明,MacBERTMFCN模型F1值高达95.56%,能有效地提升文本情感分类准确率。 展开更多
关键词 情感分析 macbert 多层次特征协同网络 SRU 软注意力
下载PDF
基于MacBERT和对抗训练的城市内涝信息识别方法 被引量:1
5
作者 方美丽 郑莹莹 +3 位作者 陶坤旺 赵习枝 仇阿根 陆文 《集成技术》 2023年第1期56-67,共12页
BERT与神经网络模型相结合等方法,已逐渐应用于获取灾害信息,但此类方法存在参数量繁多、数据集和微调数据集不一致、局部不稳定等问题。针对上述问题,该文提出一种基于MacBERT和对抗训练的信息识别模型,该模型利用MacBERT预训练模型获... BERT与神经网络模型相结合等方法,已逐渐应用于获取灾害信息,但此类方法存在参数量繁多、数据集和微调数据集不一致、局部不稳定等问题。针对上述问题,该文提出一种基于MacBERT和对抗训练的信息识别模型,该模型利用MacBERT预训练模型获得初始向量表示,再加入些许扰动生成对抗样本,然后依次输入双向长短期记忆网络和条件随机场。该模型不仅减少了预训练次数和微调阶段差异,还提高了模型的鲁棒性。实验结果表明,在微博数据集和1998年人民日报数据集上,基于MacBERT和对抗训练的信息识别模型的精确率和F_(1)值均有所提升,性能较其他模型更优,将该模型用于城市内涝信息识别具有一定的可行性。 展开更多
关键词 城市内涝 信息识别 macbert 对抗训练
下载PDF
基于MacBERT和对抗训练的审计文本命名实体识别
6
作者 钱泰羽 陈一飞 庞博文 《计算机科学》 CSCD 北大核心 2023年第S02期81-86,共6页
为了从审计文本中自动识别有效的实体信息,提高政策跟踪审计的效率,提出一种基于MacBERT(MLM as correction BERT)和对抗训练的审计文本命名实体识别(Named Entity Recognition,NER)模型(Audit-MBCA)。目前深度学习在NER任务上应用成熟... 为了从审计文本中自动识别有效的实体信息,提高政策跟踪审计的效率,提出一种基于MacBERT(MLM as correction BERT)和对抗训练的审计文本命名实体识别(Named Entity Recognition,NER)模型(Audit-MBCA)。目前深度学习在NER任务上应用成熟且成果显著,但审计文本存在语料库缺乏、实体边界识别不清晰等问题。针对这些问题,文中构建了审计文本数据集并将其命名为Audit 2022,使用MacBERT中文预训练语言模型获得其向量表示,同时引入对抗训练,利用中文分词(Chinese Word Segmentation,CWS)任务与NER任务的共享词边界信息帮助进行实体边界识别。实验结果表明,Audit-MBCA模型在Audit 2022数据集上的F 1值为91.05%,较主流模型提升了4.53%;在SIGHAN 2006数据集上的F 1值为93.70%,较其他模型提升了0.33%~3.25%,验证了所提模型的有效性和泛化能力。 展开更多
关键词 审计文本 命名实体识别 macbert 对抗训练
下载PDF
基于MacBERT⁃BiLSTM和注意力机制的短文本分类研究
7
作者 王道康 张吴波 《现代电子技术》 2023年第21期123-128,共6页
针对中文短文本上下文依赖性强,特征信息难以提取的问题,提出一种融合MacBERT、双向长短期记忆神经网络(BiLSTM)、注意力(Attention)机制的短文本分类模型方法。利用预训练模型MacBERT得到动态词向量,输入BiLSTM模型中提取上下文关系特... 针对中文短文本上下文依赖性强,特征信息难以提取的问题,提出一种融合MacBERT、双向长短期记忆神经网络(BiLSTM)、注意力(Attention)机制的短文本分类模型方法。利用预训练模型MacBERT得到动态词向量,输入BiLSTM模型中提取上下文关系特征。结合注意力机制分配不同的权重值,最后使用Softmax分类器得到分类结果。研究表明,该模型在THUCNews数据集上F1值达到了95.63%,相较于基准模型BERT提高了2.18%,验证了其在短文本分类任务中的可行性和有效性。 展开更多
关键词 短文本 文本分类 macbert BiLSTM ATTENTION 纠错掩码 特征加权 语义向量
下载PDF
结合MacBERT的在线课程评论情感分析模型
8
作者 高杭 《电子设计工程》 2023年第10期39-43,共5页
针对静态词向量语义表征能力弱、传统模块特征抽取不全面等问题,提出了结合MacBERT和多尺度融合网络的在线课程评论情感分析模型。MacBERT模型根据词的具体上下文进行动态编码,提升词的语义表征能力。多尺度融合网络用于捕捉评论文本多... 针对静态词向量语义表征能力弱、传统模块特征抽取不全面等问题,提出了结合MacBERT和多尺度融合网络的在线课程评论情感分析模型。MacBERT模型根据词的具体上下文进行动态编码,提升词的语义表征能力。多尺度融合网络用于捕捉评论文本多层次局部情感特征和全局上下文特征,软注意力机制用于计算每个特征的重要程度,由输出层得到情感分类结果。在真实在线课程评论文本数据集进行实验,结果表明,结合MacBERT和多尺度融合网络模型的F1分数达到了95.27%,高于实验对比模型,证明了模型的有效性。 展开更多
关键词 情感分析 macbert 多尺度融合网络 软注意力机制
下载PDF
基于MacBERT文本嵌入和LightGBM的静脉血栓栓塞症预测模型研究
9
作者 邵强翰 刘宏德 +1 位作者 黄文娟 蓝淳愉 《信息与电脑》 2023年第5期173-176,共4页
静脉血栓栓塞症(Venous thromboembolism,VTE)是一种致死率较高的血管类疾病,但出具影像学和问卷检查结果的时间往往晚后于栓塞发生时间。本研究利用电子病历信息,提出了一种基于文本嵌入和机器学习相结合的VTE诊断模型。在2796个患者... 静脉血栓栓塞症(Venous thromboembolism,VTE)是一种致死率较高的血管类疾病,但出具影像学和问卷检查结果的时间往往晚后于栓塞发生时间。本研究利用电子病历信息,提出了一种基于文本嵌入和机器学习相结合的VTE诊断模型。在2796个患者构成测试集上模型的接受者操作特性曲线下面积(Area Under Receiver Operating Characteristic Curve,AUC)达到了0.8133,F1值为51.55%,F2值为60.23%,高于以往单一模型在本数据集上的结果。结果表明,MacBERT文本嵌入方法不仅能有效提取电子病历中的特征信息,还能提高VTE预测模型的性能。综上,所提出的模型可以更好地利用电子病历辅助诊断VTE的发生。 展开更多
关键词 静脉血栓栓塞症(VTE) macbert LightGBM算法 辅助诊断
下载PDF
基于MacBERT的徽派古建筑修缮文本实体识别方法研究
10
作者 夏青 石明钧 《电脑知识与技术》 2023年第31期44-47,共4页
伴随着中国几十年的城市化进程,越来越多的传统建筑消失在历史的长河中。具有鲜明中国特色的徽派古建筑也难以幸免。当前的徽派古建筑修缮知识常以纸质书籍、电子书、数据库等形式存储,并且专业名词多,传统搜索引擎很难满足用户精准检... 伴随着中国几十年的城市化进程,越来越多的传统建筑消失在历史的长河中。具有鲜明中国特色的徽派古建筑也难以幸免。当前的徽派古建筑修缮知识常以纸质书籍、电子书、数据库等形式存储,并且专业名词多,传统搜索引擎很难满足用户精准检索知识的需求。文章提出基于MacBERT的命名实体识别方法,对徽派建筑修缮内容进行知识抽取,解决修缮实体界限不明显、种类复杂的问题;基于Neo4j图数据库构建徽派建筑修缮知识图谱,将知识体系化管理,提出用户自然语言问句查询知识图谱方法,实现知识效用最大化。 展开更多
关键词 知识图谱 徽派古建筑 macbert Neo4j 实体识别
下载PDF
结合MacBERT和多尺度融合网络的档案数据分类研究
11
作者 刘舸舸 《电子设计工程》 2022年第19期65-68,73,共5页
针对传统深度学习模型特征提取能力不强,静态词向量语义表征能力弱等问题,提出了结合MacBERT和多尺度融合网络的档案数据分类模型。预训练模型MacBERT通过结合词的上下文语境,学习到动态词向量表示,解决一词多义问题;利用多尺度融合网... 针对传统深度学习模型特征提取能力不强,静态词向量语义表征能力弱等问题,提出了结合MacBERT和多尺度融合网络的档案数据分类模型。预训练模型MacBERT通过结合词的上下文语境,学习到动态词向量表示,解决一词多义问题;利用多尺度融合网络充分提取档案文本局部特征和上下文语义关联;根据软注意力机制计算每个特征对分类结果的影响权重,由分类层输出结果。在真实档案数据集进行实验,结果表明,结合MacBERT和多尺度融合网络的模型准确率达到90.5%,高于实验对比模型,具有一定的应用价值。 展开更多
关键词 档案文本分类 macbert 多尺度融合网络 软注意力
下载PDF
融合MacBERT和Kenlm的中文纠错方法
12
作者 王梦贤 何春辉 《现代计算机》 2022年第23期70-73,85,共5页
中文纠错属于自然语言处理的基础任务,考虑到现有方法纠错性能偏低,无法满足实际的纠错需求,提出了一种融合MacBERT和Kenlm的中文纠错方法。在公开数据集上的实验结果表明,该方法的精确率、召回率和F1值分别达到了78.2%、72.7%、75.3%... 中文纠错属于自然语言处理的基础任务,考虑到现有方法纠错性能偏低,无法满足实际的纠错需求,提出了一种融合MacBERT和Kenlm的中文纠错方法。在公开数据集上的实验结果表明,该方法的精确率、召回率和F1值分别达到了78.2%、72.7%、75.3%。尤其是F1值比基线方法提升了3.6个百分点,充分证明了所提方法的有效性。 展开更多
关键词 中文纠错 Kenlm 迁移学习 macbert
下载PDF
基于MacBERT和标签平滑的新冠疫情公众情感分析研究
13
作者 王坤朋 禹龙 +2 位作者 王博 周铁军 田生伟 《东北师大学报(自然科学版)》 CAS 2024年第2期83-90,共8页
针对BERT预训练与下游任务微调阶段存在不匹配差异,以及人工对文本数据进行情感倾向性标注可能存在误差的问题,提出一种基于MacBERT和标签平滑的网络模型(MacLMC).首先,在BERT的基础上引入MLM as correction策略,利用近义词替换被掩码词... 针对BERT预训练与下游任务微调阶段存在不匹配差异,以及人工对文本数据进行情感倾向性标注可能存在误差的问题,提出一种基于MacBERT和标签平滑的网络模型(MacLMC).首先,在BERT的基础上引入MLM as correction策略,利用近义词替换被掩码词,通过MacBERT预训练模型获取词向量;其次,经过双层LSTM学习长距离依赖;再次,采用双通道多卷积核的卷积操作,分别提取信息的最大特征和均值特征;最后,利用标签平滑策略降低模型预测类别的概率,提升模型对于标签的容错能力,提高模型泛化性.实验结果表明:与现有主流模型相比,本文模型在多种数据集上性能表现更佳,能够更好地用于新冠疫情公众情感分析任务. 展开更多
关键词 新冠疫情 macbert 标签平滑 情感分析
下载PDF
语音转录后文本的中文拼写纠错模型
14
作者 邢月晗 郑岩 《电子测量技术》 北大核心 2023年第6期57-61,共5页
针对目前语音转录文本错误率较高的问题,本文提出一种基于MacBERT的文本先检错后纠错模型,对语音转录后文本进行校正。检错阶段使用MacBERT-BiLSTM-CRF模型检查文本是否有错及出错位置。纠错阶段从置信度和字音相似度两个维度出发,划定... 针对目前语音转录文本错误率较高的问题,本文提出一种基于MacBERT的文本先检错后纠错模型,对语音转录后文本进行校正。检错阶段使用MacBERT-BiLSTM-CRF模型检查文本是否有错及出错位置。纠错阶段从置信度和字音相似度两个维度出发,划定“置信度-字音相似度”曲线判断候选字是否进行纠错。候选字的置信度使用MacBERT语言模型计算,并提出一种基于拼音码的字音相似度计算方法。在语音公开数据集Thchs-30上通过调用百度语音识别API进行实验,相比现有方法,在检错阶段和纠错阶段的精确率、召回率、F1值都得到了提高,其中纠错阶段精确率达到83.32%,提高了转录文本的正确性。 展开更多
关键词 语音 文本纠错 macbert 拼音码 Thchs-30
下载PDF
基于深度学习的在线教师课程评论情感分析模型 被引量:1
15
作者 肖海艳 《电子设计工程》 2023年第6期39-42,47,共5页
针对传统静态词向量存在语义表征弱以及循环序列模型训练效率低等问题,提出了基于MacBERT-BiSRU-AT的在线教师课程评论情感分析模型。通过预训练模型MacBERT获取评论文本符合上下文语义的动态向量表示,解决了静态词向量存在的一词多义问... 针对传统静态词向量存在语义表征弱以及循环序列模型训练效率低等问题,提出了基于MacBERT-BiSRU-AT的在线教师课程评论情感分析模型。通过预训练模型MacBERT获取评论文本符合上下文语义的动态向量表示,解决了静态词向量存在的一词多义问题,提升词向量语义表示质量。BiSRU模块用于提取评论文本高维情感特征,软注意力用于计算每个词对分类结果的影响程度大小,由分类层输出文本情感极性。在真实在线课程MOOC评论数据集进行实验,结果表明,MacBERT-BiSRU-AT模型分类F1值达到了91.33%,高于实验对比的其他模型,证明了模型的有效性。 展开更多
关键词 情感分析 macbert BiSRU 软注意力
下载PDF
基于动态权重的多模型集成水产动物疾病防治事件抽取方法
16
作者 沙明洋 张思佳 +4 位作者 傅庆财 于红 李枳錡 喻文甫 刘珈宁 《华中农业大学学报》 CAS CSCD 北大核心 2023年第3期80-87,共8页
为提高水产动物疾病防治事件抽取的准确性,有效解决抽取过程中出现的专有名词边界模糊和事件实体过长等问题,本研究将动态权重思想引入多模型集成的事件抽取方法中。改进后的方法利用百度自然语言理解开放平台(enhanced representation ... 为提高水产动物疾病防治事件抽取的准确性,有效解决抽取过程中出现的专有名词边界模糊和事件实体过长等问题,本研究将动态权重思想引入多模型集成的事件抽取方法中。改进后的方法利用百度自然语言理解开放平台(enhanced representation through knowledge integration,ERNIE)和澎湃BERT(MLM as correction BERT,MacBERT)2个预训练模型来学习文本语义信息;采用动态权重的gate模块融合特征;将学习到的语义信息传入双向长短时记忆网络(bi-directional long shortterm memory,BiLSTM)中,并通过条件随机场(conditional random field,CRF)对输出标签序列进行约束。选取ERNIE⊕MacBERT-CRF模型和ERNIE⊕MacBERT-BiLSTM-CRF模型(⊕代表简单相加求平均的融合方法)作为对照模型对提出的方法进行融合性能对比试验验证,结果显示,该方法 F1值达74.15%,比经典模型BiLSTM-CRF提高了20.02个百分点。结果表明,该方法用于水产动物疾病防治事件抽取具有更好的效果。 展开更多
关键词 水产动物疾病 事件抽取 ERNIE macbert 动态权重 健康养殖
下载PDF
融入词性的医疗命名实体识别研究
17
作者 本妍妍 庞雪芹 《数据分析与知识发现》 CSCD 北大核心 2023年第5期123-132,共10页
【目的】针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断。【方法】基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置“软”嵌入,利用说话者角色嵌入引入对话文本信息。同时,... 【目的】针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断。【方法】基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置“软”嵌入,利用说话者角色嵌入引入对话文本信息。同时,引入加权多分类交叉熵解决实体类别不均衡问题。【结果】在春雨医生互联网在线问诊记录上开展实证研究,本文模型在命名实体识别任务上的F_(1)值为74.35%,相比直接利用MacBERT模型提高近2个百分点。【局限】未设计专门对中文分词的模型。【结论】与直接利用MacBERT模型建模相比,融入词信息等更多维度特征能有效提升模型的识别能力。 展开更多
关键词 中文命名实体识别 在线医疗问诊 词信息融入 macbert 加权交叉熵
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部