期刊文献+
共找到234,057篇文章
< 1 2 250 >
每页显示 20 50 100
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:1
1
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 Roberta模型 图注意力机制 Transformer机制
下载PDF
基于BERT模型的医疗安全事件智能分类研究与实践
2
作者 赵从朴 袁达 +3 位作者 朱溥珏 周炯 陈政 彭华 《医学信息学杂志》 CAS 2024年第1期27-32,38,共7页
目的/意义改进医疗安全事件分类评估模式,提升工作效率和时效性。方法/过程选取既往医疗安全事件数据进行预处理,利用BERT模型进行训练、测试、迭代优化,构建医疗安全事件智能分类预测模型。结果/结论利用该模型对2022年1-11月临床科室... 目的/意义改进医疗安全事件分类评估模式,提升工作效率和时效性。方法/过程选取既往医疗安全事件数据进行预处理,利用BERT模型进行训练、测试、迭代优化,构建医疗安全事件智能分类预测模型。结果/结论利用该模型对2022年1-11月临床科室上报的466例医疗安全事件进行分类,F1值达0.66。将BERT模型应用于医疗安全事件分类评估辅助,可提升工作效率和时效性,有助于及时干预医疗安全风险隐患。 展开更多
关键词 医疗安全事件 bert 深度学习 智能分类
下载PDF
基于BERT和CNN的药物不良反应个例报道文献分类方法
3
作者 孟祥福 任全莹 +3 位作者 杨东燊 李可千 姚克宇 朱彦 《计算机科学》 CSCD 北大核心 2024年第S01期1104-1109,共6页
在临床上,药物不良反应导致的死亡和用药不当造成的住院及门诊费急剧升高,成为临床安全合理用药面临的主要问题之一。目前对药物不良反应的回顾性分析和文献分析多以公开发表的文献资料为依据。学术文献作为重要的数据来源之一,如何自... 在临床上,药物不良反应导致的死亡和用药不当造成的住院及门诊费急剧升高,成为临床安全合理用药面临的主要问题之一。目前对药物不良反应的回顾性分析和文献分析多以公开发表的文献资料为依据。学术文献作为重要的数据来源之一,如何自动批量地对其进行数据处理尤为重要。针对医药文本独特的表述方式,基于BERT及其组合模型进行文本分类技术比对实验,建立对药物不良反应个例报道文献数据进行高效快速分类的方法,进而分辨出药物不良反应的类型,有效预警药害事件。实验结果表明,使用BERT模型的分类准确率达到99.75%,其可以准确高效地对药物不良反应个例报道文献进行分类,在辅助医疗、构建医学文本结构化数据等方面均具有重要的价值和意义,进而能够更好地维护公众健康。 展开更多
关键词 药物不良反应 个例文献报道 医学文本分类 深度学习 bert
下载PDF
基于BERT与生成对抗的民航陆空通话意图挖掘
4
作者 马兰 孟诗君 吴志军 《系统工程与电子技术》 EI CSCD 北大核心 2024年第2期740-750,共11页
针对民航陆空通话领域语料难以获取、实体分布不均,以及意图信息提取中实体规范不足且准确率有待提升等问题,为了更好地提取陆空通话意图信息,提出一种融合本体的基于双向转换编码器(bidirectional encoder representations from transf... 针对民航陆空通话领域语料难以获取、实体分布不均,以及意图信息提取中实体规范不足且准确率有待提升等问题,为了更好地提取陆空通话意图信息,提出一种融合本体的基于双向转换编码器(bidirectional encoder representations from transformers,BERT)与生成对抗网络(generative adversarial network,GAN)的陆空通话意图信息挖掘方法,并引入航班池信息对提取的部分信息进行校验修正,形成空中交通管制(air traffic control,ATC)系统可理解的结构化信息。首先,使用改进的GAN模型进行陆空通话智能文本生成,可有效进行数据增强,平衡各类实体信息分布并扩充数据集;然后,根据欧洲单一天空空中交通管理项目定义的本体规则进行意图的分类与标注;之后,通过BERT预训练模型生成字向量并解决一词多义问题,利用双向长短时记忆(bidirectional long short-term memory,BiLSTM)网络双向编码提取上下句语义特征,同时将该语义特征送入条件随机场(conditional random field,CRF)模型进行推理预测,学习标签的依赖关系并加以约束,以获取全局最优结果;最后,根据编辑距离(edit distance,ED)算法进行意图信息合理性校验与修正。对比实验结果表明,所提方法的宏平均F_(1)值达到了98.75%,在民航陆空通话数据集上的意图挖掘性能优于其他主流模型,为其加入数字化进程奠定了基础。 展开更多
关键词 民航陆空通话 信息提取 生成对抗网络 本体 双向转换编码器
下载PDF
基于LDA-BERT相似性测度模型的文本主题演化研究 被引量:1
5
作者 海骏林峰 严素梅 +1 位作者 陈荣 李建霞 《图书馆工作与研究》 北大核心 2024年第1期72-79,共8页
文章针对LDA主题模型在提取文本主题时忽略文本语义关联的问题,提出基于LDA-BERT的相似性测度模型:首先,结合利用TF-IDF和TextRank方法提取文本特征词,利用LDA主题模型挖掘文本主题;其次,通过嵌入BERT模型,结合LDA主题模型构建的主题-... 文章针对LDA主题模型在提取文本主题时忽略文本语义关联的问题,提出基于LDA-BERT的相似性测度模型:首先,结合利用TF-IDF和TextRank方法提取文本特征词,利用LDA主题模型挖掘文本主题;其次,通过嵌入BERT模型,结合LDA主题模型构建的主题-主题词概率分布,从词粒度层面表示主题向量;最后,利用余弦相似度算法计算主题之间的相似度。在相似性测度模型基础上构建向量相似度指标分析文献研究主题之间的关联,并绘制主题演化知识图谱。通过智慧图书馆领域的实证研究发现,使用LDA-BERT模型计算出的主题相似度结果相较于LDA主题模型的计算结果更加准确,与实际情况更相符。 展开更多
关键词 相似性测度 LDA-bert模型 LDA模型 bert模型 主题演化
下载PDF
基于知识蒸馏改进双路BERT的经济类文本情感分析
6
作者 汪珶 《山西师范大学学报(自然科学版)》 2024年第1期39-44,共6页
在互联网时代,越来越多的财务公司选择在财经新闻平台上发表自己的见解,这些评论文本作为舆情的载体,可以充分反映财务公司的情绪,影响公众的投资决策和市场走势.情感分析为分析海量的经济类文本情感类型提供了有效的研究手段.但是,由... 在互联网时代,越来越多的财务公司选择在财经新闻平台上发表自己的见解,这些评论文本作为舆情的载体,可以充分反映财务公司的情绪,影响公众的投资决策和市场走势.情感分析为分析海量的经济类文本情感类型提供了有效的研究手段.但是,由于特定领域文本的专业性和大标签数据集的不适用性,经济类文本情感分析给传统的情感分析模型带来了巨大的挑战.当将一般情感分析模型应用于经济等特定领域时,模型在准确率与召回率上表现较差.为了克服这些挑战,文章针对财经新闻平台上的经济类文本的情感分析任务,从词表示模型出发,提出了基于知识蒸馏方法的双路BERT(Two-way BERT based on knowledge distillation method)情感分析模型,与文本卷积神经网络(Text-CNN)、卷积递归神经网络(CRNN)、双向长时和短时记忆网络(Bi-LSTM)等算法进行对比实验,结果得出该改进方法相较于其他算法在准确率、召回率和F1值均提升了1%~3%,具有较好的泛化性能. 展开更多
关键词 知识蒸馏 双路bert 经济文本情感分析
下载PDF
基于BERT+CNN_BiLSTM的列控车载设备故障诊断
7
作者 陈永刚 贾水兰 +2 位作者 朱键 韩思成 熊文祥 《Journal of Measurement Science and Instrumentation》 CAS CSCD 2024年第1期120-127,共8页
列控车载设备作为列车运行控制系统核心设备,在高速列车运行过程中发挥着重要作用。目前,其故障诊断仅依赖于现场作业人员经验,诊断效率相对较低。为了实现列控车载设备故障自动诊断并提高诊断效率,提出了BERT+CNN_BiLSTM故障诊断模型... 列控车载设备作为列车运行控制系统核心设备,在高速列车运行过程中发挥着重要作用。目前,其故障诊断仅依赖于现场作业人员经验,诊断效率相对较低。为了实现列控车载设备故障自动诊断并提高诊断效率,提出了BERT+CNN_BiLSTM故障诊断模型。首先,使用来自变换器的双向编码器表征量(Bidirectional encoder representations from transformers,BERT)模型将应用事件日志(Application event log,AElog)转换为计算机能够识别的可以挖掘语义信息的文本向量表示。其次,分别利用卷积神经网络(Convolutional neural network,CNN)和双向长短时记忆网络(Bidirectional long short-term memory,BiLSTM)提取故障特征并进行组合,从而增强空间和时序能力。最后,利用Softmax实现列控车载设备的故障分类与诊断。实验中,选取一列实际运行的列车为研究对象,以运行过程中产生的AElog日志作为实验数据来验证BERT+CNN_BiLSTM模型的性能。与传统机器学习算法、BERT+BiLSTM模型和BERT+CNN模型相比,BERT+CNN_BiLSTM模型的准确率、召回率和F1分别为92.27%、91.03%和91.64%,表明该模型在高速列车控制系统故障诊断中性能优良。 展开更多
关键词 车载设备 故障诊断 来自变换器的双向编码器表征量 应用事件日志 双向长短时记忆网络 卷积神经网络
下载PDF
ALBERT预训练模型在医疗文书命名实体识别中的应用研究
8
作者 庞秋奔 李银 《信息与电脑》 2024年第6期152-156,共5页
中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transform... 中文电子病历命名实体识别主要是研究电子病历病程记录文书数据集,文章提出对医疗手术麻醉文书数据集进行命名实体识别的研究。利用轻量级来自Transformer的双向编码器表示(A Lite Bidirectional Encoder Representation from Transformers,ALBERT)预训练模型微调数据集和Tranfomers中的trainer训练器训练模型的方法,实现在医疗手术麻醉文书上识别手术麻醉事件命名实体与获取复杂麻醉医疗质量控制指标值。文章为医疗手术麻醉文书命名实体识别提供了可借鉴的思路,并且为计算复杂麻醉医疗质量控制指标值提供了一种新的解决方案。 展开更多
关键词 命名实体识别 轻量级来自Transformer的双向编码器表示(ALbert)模型 transformers 麻醉医疗质量控制指标 医疗手术麻醉文书
下载PDF
基于BERT和TextCNN的智能制造成熟度评估方法 被引量:1
9
作者 张淦 袁堂晓 +1 位作者 汪惠芬 柳林燕 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期852-863,共12页
随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,... 随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,设计了一种新的评估流程,采用文本处理算法对整个评估过程进行了重构,通过利用国标文件中智能制造成熟度评估标准,将其作为训练集,采用基于预训练语言模型与文本神经网络(BERT+TextCNN)相结合的智能评估算法代替人工评估。在真实的企业智能制造数据集上的验证表明,当BERT+TextCNN评估模型在卷积核为[2,3,4]、迭代次数为6次、学习率为3e-5时,对智能制造成熟度进行评估,准确率达到85.32%。这表明所设计的评估方法能够较准确地帮助企业完成智能制造成熟度自评估,有助于企业了解自身智能制造能力水平,制定正确的发展方向。 展开更多
关键词 智能制造成熟度模型 bert预训练语言模型 文本卷积神经网络 评估过程重构
下载PDF
基于BERT的电子病历命名实体识别 被引量:2
10
作者 郑立瑞 肖晓霞 +2 位作者 邹北骥 刘彬 周展 《计算机与现代化》 2024年第1期87-91,共5页
电子病历是保存、管理、传输病人医疗记录的重要资源,是医生诊治疾病的重要文本记录。通过电子病历命名实体识别(NER)技术能够高效、智能地从电子病历中抽取症状、疾病、药名等诊疗信息,有利于结构化电子病历,使之能够使用机器学习等技... 电子病历是保存、管理、传输病人医疗记录的重要资源,是医生诊治疾病的重要文本记录。通过电子病历命名实体识别(NER)技术能够高效、智能地从电子病历中抽取症状、疾病、药名等诊疗信息,有利于结构化电子病历,使之能够使用机器学习等技术进行诊疗规律挖掘。为了高效识别电子病历中的命名实体,提出一种融合对抗训练(FGM)的基于BERT与双向长短期记忆网络(BILSTM)的命名实体识别方法(BERT-BILSTM-CRF-FGM,BBCF),对2017全国知识图谱与语义计算大会(CCKS2017)提供的中文电子病历语料做修正等预处理后,采用BBCF模型识别该语料中5种实体的平均F1值为92.84%,比基于膨胀卷积网络的BERT模型(BERT-IDCNN-CRF)和基于BILSTM的条件随机场模型(BILSTM-CRF)有更高的F1值和更快的收敛速度,能够更加高效地结构化电子病历文本。 展开更多
关键词 电子病历 命名实体识别 bert FGM 双向长短期记忆网络 条件随机场
下载PDF
基于BERT特征融合与膨胀卷积的汉语副词框架语义角色标注
11
作者 王超 吕国英 +2 位作者 李茹 柴清华 李晋荣 《中文信息学报》 CSCD 北大核心 2024年第2期25-35,共11页
汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度... 汉语框架语义角色标注对汉语框架语义分析具有重要作用。目前汉语框架语义角色标注任务主要针对动词框架,但是汉语没有丰富的形态变化,很多语法意义都是通过虚词来表现的,其中副词研究是现代汉语虚词研究的重要部分,因此该文从副词角度出发构建了汉语副词框架及数据集,且对框架下的词元按照语义强弱进行了等级划分。目前的语义角色标注模型大多基于BiLSTM网络模型,该模型虽然可以很好地获取全局信息,但容易忽略句子局部特征,且无法并行训练。针对上述问题,该文提出了基于BERT特征融合与膨胀卷积的语义角色标注模型,该模型包括四层:BERT层用于表达句子的丰富语义信息,Attention层对BERT获取的每一层信息进行动态权重融合,膨胀卷积(IDCNN)层进行特征提取,CRF层修正预测标签。该模型在三个副词框架数据集上表现良好,F1值均达到了82%以上。此外,将该模型应用于CFN数据集上,F1值达到88.29%,较基线模型提升了4%以上。 展开更多
关键词 汉语框架语义角色标注 副词 bert 膨胀卷积 CRF
下载PDF
基于BERT与细粒度特征提取的数据法学问答系统
12
作者 宋文豪 汪洋 +2 位作者 朱苏磊 张倩 吴晓燕 《上海师范大学学报(自然科学版中英文)》 2024年第2期211-216,共6页
首先利用bidirectional encoder representations from transformers(BERT)模型的强大的语境理解能力来提取数据法律文本的深层语义特征,然后引入细粒度特征提取层,依照注意力机制,重点关注文本中与数据法律问答相关的关键部分,最后对... 首先利用bidirectional encoder representations from transformers(BERT)模型的强大的语境理解能力来提取数据法律文本的深层语义特征,然后引入细粒度特征提取层,依照注意力机制,重点关注文本中与数据法律问答相关的关键部分,最后对所采集的法律问答数据集进行训练和评估.结果显示:与传统的多个单一模型相比,所提出的模型在准确度、精确度、召回率、F1分数等关键性能指标上均有提升,表明该系统能够更有效地理解和回应复杂的数据法学问题,为研究数据法学的专业人士和公众用户提供更高质量的问答服务. 展开更多
关键词 bidirectional encoder representations from transformers(bert)模型 细粒度特征提取 注意力机制 自然语言处理(NLP)
下载PDF
基于掩码语言模型的中文BERT攻击方法
13
作者 张云婷 叶麟 +2 位作者 唐浩林 张宏莉 李尚 《软件学报》 EI CSCD 北大核心 2024年第7期3392-3409,共18页
对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本,敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本.研究对抗文本生成方法,能对深度神经网络的鲁棒性进行评价,并助力于模型后续的鲁棒性提升... 对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本,敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本.研究对抗文本生成方法,能对深度神经网络的鲁棒性进行评价,并助力于模型后续的鲁棒性提升工作.当前针对中文文本设计的对抗文本生成方法中,很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击.面向中文文本分类任务,提出一种针对中文BERT的攻击方法Chinese BERT Tricker.该方法使用一种汉字级词语重要性打分方法——重要汉字定位法;同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换.实验表明,针对文本分类任务,所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下,且其多种攻击性能明显强于其他基线方法. 展开更多
关键词 深度神经网络 对抗样本 文本对抗攻击 中文bert 掩码语言模型
下载PDF
基于分数阶高斯噪声的BERT情感文本分类研究
14
作者 龙雨欣 蒲亦非 张卫华 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期121-126,共6页
由于BERT模型庞大的参数量和在预训练阶段的过拟合问题,本文针对性地提出了基于分数阶高斯噪声(fGn)的即插即用模块FGnTune.该模块利用fGn引入随机性,用于提高BERT预训练模型在情感文本分类任务中的性能. fGn是具有长程依赖和非平稳性... 由于BERT模型庞大的参数量和在预训练阶段的过拟合问题,本文针对性地提出了基于分数阶高斯噪声(fGn)的即插即用模块FGnTune.该模块利用fGn引入随机性,用于提高BERT预训练模型在情感文本分类任务中的性能. fGn是具有长程依赖和非平稳性的随机信号,通过在BERT微调阶段为参数融入fGn噪声,进一步增强模型的鲁棒性,降低过拟合的可能性.通过对不同网络模型及多种数据集进行实验分析,在不需增加模型的额外参数或增加其结构复杂度的前提下,引入FGnTune模块可以使模型的准确率在原有基础上提升约0.3%~0.9%. 展开更多
关键词 文本分类 bert 情感文本 深度学习
下载PDF
基于BERT模型的源代码漏洞检测技术研究
15
作者 罗乐琦 张艳硕 +2 位作者 王志强 文津 薛培阳 《信息安全研究》 CSCD 北大核心 2024年第4期294-301,共8页
源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representat... 源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representations from transformers)模型的源代码漏洞检测模型.该模型将需要检测的源代码分割为多个小样本,将每个小样本转换成近似自然语言的形式,通过BERT模型实现源代码中漏洞特征的自动提取,然后训练具有良好性能的漏洞分类器,实现Python语言多种类型漏洞的检测.该模型在不同类型的漏洞中实现了平均99.2%的准确率、97.2%的精确率、96.2%的召回率和96.7%的F1分数的检测水平,对比现有的漏洞检测方法有2%~14%的性能提升.实验结果表明,该模型是一种通用的、轻量级的、可扩展的漏洞检测方法. 展开更多
关键词 漏洞检测 深度学习 PYTHON语言 bert模型 自然语言处理
下载PDF
一种针对BERT模型的多教师蒸馏方案
16
作者 石佳来 郭卫斌 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期293-300,共8页
在传统的知识蒸馏中,若教师、学生模型的参数规模差距过大,则会出现学生模型无法学习较大教师模型的负面结果。为了获得在不同任务上均拥有较好表现的学生模型,深入研究了现有的模型蒸馏方法、不同教师模型的优缺点,提出了一种新型的来... 在传统的知识蒸馏中,若教师、学生模型的参数规模差距过大,则会出现学生模型无法学习较大教师模型的负面结果。为了获得在不同任务上均拥有较好表现的学生模型,深入研究了现有的模型蒸馏方法、不同教师模型的优缺点,提出了一种新型的来自Transformers的双向编码器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教师蒸馏方案,即使用BERT、鲁棒优化的BERT方法(Robustly optimized BERT approach,RoBERTa)、语言理解的广义自回归预训练模型(XLNET)等多个拥有BERT结构的教师模型对其进行蒸馏,同时修改了对教师模型中间层知识表征的蒸馏方案,加入了对Transformer层的蒸馏。该蒸馏方案在通用语言理解评估(General Language Understanding Evaluation,GLUE)中的多个数据集上的实验结果表明,最终蒸馏实验的结果较为理想,可以保留教师模型95.1%的准确率。 展开更多
关键词 bert 知识蒸馏 多教师蒸馏 Transformer蒸馏 自然语言理解
下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法
17
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 bert模型
下载PDF
基于BERT和集成学习的抗菌肽预测
18
作者 高皖陵 赵俊 岳振宇 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第4期635-640,共6页
利用计算方法准确识别抗菌肽是近年来生物信息学领域研究的重点问题。传统的机器学习方法需要自主从序列信息中提取和选择特征,导致抗菌肽识别准确率低。为此提出基于BERT的深度学习预测方法,从预训练策略、词向量嵌入、预测性能等方面... 利用计算方法准确识别抗菌肽是近年来生物信息学领域研究的重点问题。传统的机器学习方法需要自主从序列信息中提取和选择特征,导致抗菌肽识别准确率低。为此提出基于BERT的深度学习预测方法,从预训练策略、词向量嵌入、预测性能等方面比较了4种现有基于BERT的抗菌肽预测模型,并基于集成学习思想提出了一个新的抗菌肽预测工具。实验结果表明,该模型在多个性能评价指标上都有所提升。 展开更多
关键词 抗菌肽 评估 bert 集成学习 预训练模型
下载PDF
融合BERT模型与词汇增强的中医命名实体识别模型
19
作者 李旻哲 殷继彬 《计算机科学》 CSCD 北大核心 2024年第S01期122-127,共6页
现有的中医命名实体识别相关研究较少,基本都是基于中文病例做相关研究,在传统中医编写的病例文本中表现不佳。针对中医案例中命名实体密集且边界模糊难以划分的特点,提出了一种融合词汇增强和预训练模型的中医命名实体识别方法LEBERT-B... 现有的中医命名实体识别相关研究较少,基本都是基于中文病例做相关研究,在传统中医编写的病例文本中表现不佳。针对中医案例中命名实体密集且边界模糊难以划分的特点,提出了一种融合词汇增强和预训练模型的中医命名实体识别方法LEBERT-BILSTM-CRF。该方法从词汇增强和预训练模型融合的角度进行优化,将词汇信息输入到BERT模型中进行特征学习,达到划分词类边界和区分词类属性的目的,提高中医医案命名实体识别的精度。实验结果表明,在文中构建的中医病例数据集上针对10个实体进行命名实体识别时,提出的基于LEBERT-BILSTM-CRF的中医案例命名实体识别模型综合准确率、召回率、F1分别为88.69%,87.4%,88.1%,高于BERT-CRF,LEBERT-CRF等常用命名实体识别模型。 展开更多
关键词 自然语言处理 中医案例 词汇增强 bert BLSTM-CRF
下载PDF
基于BERT-BiLSTM-CRF模型的油气领域命名实体识别 被引量:2
20
作者 高国忠 李宇 +1 位作者 华远鹏 吴文旷 《长江大学学报(自然科学版)》 2024年第1期57-65,共9页
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from... 针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。 展开更多
关键词 油气领域 命名实体识别 bert 双向长短期记忆网络 条件随机场 bert-BiLSTM-CRF模型
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部