期刊文献+
共找到436篇文章
< 1 2 22 >
每页显示 20 50 100
基于BERT古文预训练模型的实体关系联合抽取
1
作者 李智杰 杨盛杰 +3 位作者 李昌华 张颉 董玮 介军 《计算机系统应用》 2024年第8期187-195,共9页
古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模... 古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模型(entity relation joint extraction model based on BERT-ancient-Chinese pretrained model,JEBAC).首先,通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型(BERT-ancientChinese pre-trained model integrated BiLSTM neural network and attention mechanism,BACBA),识别出句中所有的subject实体和object实体,为关系和object实体联合抽取提供依据.接下来,将subject实体的归一化编码向量与整个句子的嵌入向量相加,以更好地理解句中subject实体的语义特征;最后,结合带有subject实体特征的句子向量和object实体的提示信息,通过BACBA实现句中关系和object实体的联合抽取,从而得到句中所有的三元组信息(subject实体,关系,object实体).在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取CCLUE小样本数据集上,与现有的方法进行了性能比较.实验结果表明,该方法在抽取性能上更加有效,F1值分别可达79.2%和55.5%. 展开更多
关键词 古汉语文本 实体关系抽取 bert古文预训练模型 BiLSTM 注意力 三元组信息
下载PDF
基于BERT模型的空管危险源文本数据挖掘
2
作者 杨昌其 姜美岑 林灵 《航空计算技术》 2024年第4期89-93,共5页
由于危险源与安全隐患在民航安全管理工作中容易出现概念混淆和记录混乱的情况,根据双重预防机制管理规定,需要将两者区分开来。通过在ASIS系统上采集得到空管危险源控制清单作为研究对象,并对其进行相应的文本数据挖掘工作。根据危险... 由于危险源与安全隐患在民航安全管理工作中容易出现概念混淆和记录混乱的情况,根据双重预防机制管理规定,需要将两者区分开来。通过在ASIS系统上采集得到空管危险源控制清单作为研究对象,并对其进行相应的文本数据挖掘工作。根据危险源与安全隐患特点构建相应的文本分类模型:首先通过文本清洗、去停用词、Jieba分词等对空管危险源控制清单进行预处理,然后基于BERT模型生成词向量,采用BERT-Base-Chinese预训练模型进行预训练,并对模型进行微调超参数,最后结合Softmax分类器得到分类结果。 展开更多
关键词 文本分类 数据挖掘 bert模型 危险源 安全隐患
下载PDF
BTM-BERT模型在民航机务维修安全隐患自动分类中的应用
3
作者 陈芳 张亚博 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4366-4373,共8页
为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行... 为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行监管”等12类安全隐患。最后,根据BTM主题模型标注的数据集对算法进行微调,构建了基于变换器的双向编码(Bidirectional Encoder Representations from Transformers,BERT)算法的机务维修安全隐患记录自动分类模型,并与传统的分类算法进行对比。结果表明:所构建的模型可以实现民航机务维修安全隐患自动分类,其效果远高于传统机器学习支持向量机算法的效果,构建的分类模型的精确率、召回率和F 1较文本卷积神经网络算法分别提升了0.12、0.14和0.14,总体准确率达到了93%。 展开更多
关键词 安全工程 机务维修 词对主题模型(BTM) 基于变换器的双向编码(bert) 安全隐患 文本分类
下载PDF
基于LDA-BERT相似性测度模型的文本主题演化研究 被引量:3
4
作者 海骏林峰 严素梅 +1 位作者 陈荣 李建霞 《图书馆工作与研究》 CSSCI 北大核心 2024年第1期72-79,共8页
文章针对LDA主题模型在提取文本主题时忽略文本语义关联的问题,提出基于LDA-BERT的相似性测度模型:首先,结合利用TF-IDF和TextRank方法提取文本特征词,利用LDA主题模型挖掘文本主题;其次,通过嵌入BERT模型,结合LDA主题模型构建的主题-... 文章针对LDA主题模型在提取文本主题时忽略文本语义关联的问题,提出基于LDA-BERT的相似性测度模型:首先,结合利用TF-IDF和TextRank方法提取文本特征词,利用LDA主题模型挖掘文本主题;其次,通过嵌入BERT模型,结合LDA主题模型构建的主题-主题词概率分布,从词粒度层面表示主题向量;最后,利用余弦相似度算法计算主题之间的相似度。在相似性测度模型基础上构建向量相似度指标分析文献研究主题之间的关联,并绘制主题演化知识图谱。通过智慧图书馆领域的实证研究发现,使用LDA-BERT模型计算出的主题相似度结果相较于LDA主题模型的计算结果更加准确,与实际情况更相符。 展开更多
关键词 相似性测度 LDA-bert模型 LDA模型 bert模型 主题演化
下载PDF
基于掩码语言模型的中文BERT攻击方法 被引量:1
5
作者 张云婷 叶麟 +2 位作者 唐浩林 张宏莉 李尚 《软件学报》 EI CSCD 北大核心 2024年第7期3392-3409,共18页
对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本,敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本.研究对抗文本生成方法,能对深度神经网络的鲁棒性进行评价,并助力于模型后续的鲁棒性提升... 对抗文本是一种能够使深度学习分类器作出错误判断的恶意样本,敌手通过向原始文本中加入人类难以察觉的微小扰动制作出能欺骗目标模型的对抗文本.研究对抗文本生成方法,能对深度神经网络的鲁棒性进行评价,并助力于模型后续的鲁棒性提升工作.当前针对中文文本设计的对抗文本生成方法中,很少有方法将鲁棒性较强的中文BERT模型作为目标模型进行攻击.面向中文文本分类任务,提出一种针对中文BERT的攻击方法Chinese BERT Tricker.该方法使用一种汉字级词语重要性打分方法——重要汉字定位法;同时基于掩码语言模型设计一种包含两类策略的适用于中文的词语级扰动方法实现对重要词语的替换.实验表明,针对文本分类任务,所提方法在两个真实数据集上均能使中文BERT模型的分类准确率大幅下降至40%以下,且其多种攻击性能明显强于其他基线方法. 展开更多
关键词 深度神经网络 对抗样本 文本对抗攻击 中文bert 掩码语言模型
下载PDF
基于BERT和标签混淆的文本分类模型 被引量:1
6
作者 韩博 成卫青 《南京邮电大学学报(自然科学版)》 北大核心 2024年第3期100-108,共9页
目前,文本分类的研究主要集中在通过优化文本分类器来增强分类性能。然而,标签和文本之间的联系并没有得到很好的利用。尽管BERT对文本特征的处理表现出了非常好的效果,但对文本和标签的特征提取还有一定的提升空间。文中通过结合标签... 目前,文本分类的研究主要集中在通过优化文本分类器来增强分类性能。然而,标签和文本之间的联系并没有得到很好的利用。尽管BERT对文本特征的处理表现出了非常好的效果,但对文本和标签的特征提取还有一定的提升空间。文中通过结合标签混淆模型(Label Confusion Model,LCM),提出一种基于BERT和LCM的文本分类模型(Model Based on BERT and Label Confusion,BLC),对文本和标签的特征进一步做了处理。充分利用BERT每一层的句向量和最后一层的词向量,结合双向长短时记忆网络(Bi-LSTM)得到文本表示,来替代BERT原始的文本特征表示。标签在进入LCM之前,使用自注意力网络和Bi-LSTM提高标签之间相互依赖关系,从而提高最终的分类性能。在4个文本分类基准数据集上的实验结果证明了所提模型的有效性。 展开更多
关键词 文本分类 bert 标签混淆模型 双向长短时记忆网络 自注意力网络
下载PDF
基于BERT模型的源代码漏洞检测技术研究
7
作者 罗乐琦 张艳硕 +2 位作者 王志强 文津 薛培阳 《信息安全研究》 CSCD 北大核心 2024年第4期294-301,共8页
源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representat... 源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representations from transformers)模型的源代码漏洞检测模型.该模型将需要检测的源代码分割为多个小样本,将每个小样本转换成近似自然语言的形式,通过BERT模型实现源代码中漏洞特征的自动提取,然后训练具有良好性能的漏洞分类器,实现Python语言多种类型漏洞的检测.该模型在不同类型的漏洞中实现了平均99.2%的准确率、97.2%的精确率、96.2%的召回率和96.7%的F1分数的检测水平,对比现有的漏洞检测方法有2%~14%的性能提升.实验结果表明,该模型是一种通用的、轻量级的、可扩展的漏洞检测方法. 展开更多
关键词 漏洞检测 深度学习 PYTHON语言 bert模型 自然语言处理
下载PDF
问答式林业预训练语言模型ForestBERT
8
作者 谭晶维 张怀清 +2 位作者 刘洋 杨杰 郑东萍 《林业科学》 EI CAS CSCD 北大核心 2024年第9期99-110,共12页
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策... 【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,再通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。然后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题共2280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT 6个通用领域的中文预训练语言模型以及本研究构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题数据集对所有模型进行微调。将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现较差的法律法规也达到82.32%。在文献抽取式问答任务中,ForestBERT相比BERT可提供更准确、全面的答案。【结论】采用继续预训练的方式增强通用领域预训练语言模型的林业专业知识,可有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供一种新思路。 展开更多
关键词 林业文本 bert 预训练语言模型 特定领域预训练 抽取式问答任务 自然语言处理
下载PDF
基于BERT-BiLSTM-CRF模型的油气领域命名实体识别 被引量:6
9
作者 高国忠 李宇 +1 位作者 华远鹏 吴文旷 《长江大学学报(自然科学版)》 2024年第1期57-65,共9页
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from... 针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields,CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F_(1)值分别达到91.3%、94.5%和92.9%,实体识别效果优于其他2种模型。 展开更多
关键词 油气领域 命名实体识别 bert 双向长短期记忆网络 条件随机场 bert-BiLSTM-CRF模型
下载PDF
基于改进BERT模型的连续血压的预测方法研究
10
作者 郭子玉 周亚晶 《黑龙江大学自然科学学报》 CAS 2024年第2期157-162,共6页
目前高血压已成为严重危害全球公共健康的重大问题。区别于传统的侵入式和袖带法的血压测量方式,为实时监测血压并助力早期诊断,本文专注于研究脉搏波波形与血压之间的内在关系,并提出了一种使用脉搏波的基于改进BERT(Bidirectional enc... 目前高血压已成为严重危害全球公共健康的重大问题。区别于传统的侵入式和袖带法的血压测量方式,为实时监测血压并助力早期诊断,本文专注于研究脉搏波波形与血压之间的内在关系,并提出了一种使用脉搏波的基于改进BERT(Bidirectional encoder representationns from transformers)模型的血压预测方法。方法首先应用巴特沃斯滤波器对原始脉搏波信号进行滤波预处理并周期性划分,然后结合深度学习技术,采用改进后的BERT模型,对划分后的脉搏波周期数据进行特征提取和分析。为验证本方法预测的有效性和准确性,采用MIMIC-Ⅲ数据库的数据进行实验。实验结果表明,本方法可以有效预测血压值,完全满足英国高血压学会的A类标准。通过深入研究脉搏波与血压的关系,本文改进BERT模型为高血压的预测与诊断提供了新的技术手段。 展开更多
关键词 血压预测 脉搏波 巴特沃斯滤波 改进bert模型
下载PDF
面向自然语言理解的多教师BERT模型蒸馏研究
11
作者 石佳来 郭卫斌 《大数据》 2024年第3期119-132,共14页
知识蒸馏是一种常用于解决BERT等深度预训练模型规模大、推断慢等问题的模型压缩方案。采用“多教师蒸馏”的方法,可以进一步提高学生模型的表现,而传统的对教师模型中间层采用的“一对一”强制指定的策略会导致大部分的中间特征被舍弃... 知识蒸馏是一种常用于解决BERT等深度预训练模型规模大、推断慢等问题的模型压缩方案。采用“多教师蒸馏”的方法,可以进一步提高学生模型的表现,而传统的对教师模型中间层采用的“一对一”强制指定的策略会导致大部分的中间特征被舍弃。提出了一种“单层对多层”的映射方式,解决了知识蒸馏时中间层无法对齐的问题,帮助学生模型掌握教师模型中间层中的语法、指代等知识。在GLUE中的若干数据集的实验表明,学生模型在保留了教师模型平均推断准确率的93.9%的同时,只占用了教师模型平均参数规模的41.5%。 展开更多
关键词 深度预训练模型 bert 多教师蒸馏 自然语言理解
下载PDF
基于BERT的青少年心理健康预警模型
12
作者 查佳凌 金薇 +3 位作者 徐呈宙 李玫 宛艳俊 许金超 《中国数字医学》 2024年第10期101-106,共6页
目的:设计并训练一个青少年心理健康预警模型,通过对青少年心理健康调查问卷或心理日记等文本数据进行分析,及时发现并预警青少年存在的心理问题。方法:基于BERT预训练模型,构建基于青少年身心健康的预警模型,利用青少年心理健康调查问... 目的:设计并训练一个青少年心理健康预警模型,通过对青少年心理健康调查问卷或心理日记等文本数据进行分析,及时发现并预警青少年存在的心理问题。方法:基于BERT预训练模型,构建基于青少年身心健康的预警模型,利用青少年心理健康调查问卷数据和心理论坛上抓取的资料,对模型进行增强训练和微调,从而实现对心理健康相关信息的文本分析和预警,有效和迅速地发现青少年群体中的心理问题。结果:实验结果表明,基于BERT的青少年心理健康预警模型在分类任务中展现出优异的性能。经过增强训练后的BERT模型分类准确率达到了88.21%,与传统的MLP、SVM、LSTM模型相比,在准确率和召回率等关键指标上有显著提升。结论:本研究提出的预警模型为心理健康评估提供了科学而便捷的方法,能有效提升对青少年心理状态评估的准确性,适用于医院、学校和家庭等多种场景。未来将进一步优化模型,以应对更加复杂和多样化的数据挑战。 展开更多
关键词 心理健康 青少年 自然语言处理 bert预训练模型
下载PDF
基于BERT模型的航空评论数据情感分析研究 被引量:1
13
作者 韩光 高明 钟佳晨 《微型电脑应用》 2024年第6期250-252,共3页
在航空服务的选择过程中,用户通常通过查看海量评论信息进行判断。然而,随着评论数据剧增和数据采集手段的提升,如何快速从评论中提取有效用户情感信息的难度也不断上升。基于BERT模型设计出一种针对航空评论数据的情感分析方法。在真... 在航空服务的选择过程中,用户通常通过查看海量评论信息进行判断。然而,随着评论数据剧增和数据采集手段的提升,如何快速从评论中提取有效用户情感信息的难度也不断上升。基于BERT模型设计出一种针对航空评论数据的情感分析方法。在真实的航空评论数据集上,该方法准确率能够达到0.8141,可在一定程度上降低购票风险,提升航空公司服务质量。 展开更多
关键词 航空评论数据 情感分析 bert模型
下载PDF
基于BERT模型的生成式自动文本摘要
14
作者 周圆 张琨 +2 位作者 陈智源 江浩俊 方自正 《计算机与数字工程》 2024年第10期3052-3058,共7页
随着深度学习的不断发展,预训练语言模型在自然语言处理领域已经取得了良好的效果。当然,自动文本摘要作为自然语言处理领域的重要研究方向之一也得益于大规模预训练语言模型。尤其在生成式文本摘要方面,利用大规模预训练语言模型,生成... 随着深度学习的不断发展,预训练语言模型在自然语言处理领域已经取得了良好的效果。当然,自动文本摘要作为自然语言处理领域的重要研究方向之一也得益于大规模预训练语言模型。尤其在生成式文本摘要方面,利用大规模预训练语言模型,生成一段能较为准确地反映原文主旨信息的摘要。但是目前的研究还存在一些问题,比如对原文档的语义信息了解不够充分,无法对多义词进行有效表征,生成的摘要存在重复内容,且逻辑性不强等。为了缓解上述问题,论文基于BERT预训练语言模型提出一种新的生成式文本摘要模型TextRank-BERT-PGN-Coverage(TBPC)。该模型利用经典的Encoder-Decoder框架,预训练权重并生成摘要。该实验采用CNN/Daily Mail数据集作为实验所用数据集,实验结果表明,与该领域目前已有的研究结果相比,论文提出的模型取得了较好的实验效果。 展开更多
关键词 生成式文本摘要 TextRank算法 bert模型 指针生成网络 覆盖机制
下载PDF
基于BERT-LDA模型的消费者在线评论研究
15
作者 李智 陈郁 《电子商务评论》 2024年第3期6385-6392,共8页
本研究旨在通过文本挖掘方法研究消费者的需求和偏好。通过收集和预处理天猫商城的服装商品的在线评论数据,应用BERT-LDA模型进行分析,发现消费者在购物体验、服装特性和服装品质方面呈现出多样化的关注度和情感积极率。研究结果表明,... 本研究旨在通过文本挖掘方法研究消费者的需求和偏好。通过收集和预处理天猫商城的服装商品的在线评论数据,应用BERT-LDA模型进行分析,发现消费者在购物体验、服装特性和服装品质方面呈现出多样化的关注度和情感积极率。研究结果表明,虚拟试穿等新型产品体验方式将深刻影响消费者的购买决策。消费者提高了对服装的可持续性的关注程度,倾向于选择实用性强、易于回收利用,且能“一衣多穿”的服装。基于该研究结果,本文为服装电商行业的市场营销提供了有益的参考和指导。The purpose of this study is to study consumers’ needs and preferences through text mining methods. By collecting and preprocessing online review data of clothing products on Tmall and applying BERT-LDA model for analysis, it is found that consumers show diversified attention and positive emotional rate in terms of shopping experience, clothing characteristics and clothing quality. The results show that new product experience methods such as virtual trying on will profoundly affect consumers’ purchasing decisions. Consumers are paying more attention to the sustainability of clothing, and tend to choose clothes that are practical, easy to recycle, and can be worn more than once. Based on the research results, this paper provides useful reference and guidance for the marketing of apparel e-commerce industry. 展开更多
关键词 服装 在线评论 文本挖掘 消费需求 LDA模型 bert模型
下载PDF
融合BERT与对比学习的文本情感多分类模型研究
16
作者 高若军 艾丹祥 梁渊雅 《现代计算机》 2024年第23期64-67,72,共5页
为了更精准地识别大众的情感,对多分类的文本情感分析问题进行研究,同时为了解决多分类文本情感因数据分布不均衡而产生的长尾问题,提高情感分类效果,提出了一种融合BERT与对比学习的文本情感多分类模型,先使用BERT模型生成文本嵌入表... 为了更精准地识别大众的情感,对多分类的文本情感分析问题进行研究,同时为了解决多分类文本情感因数据分布不均衡而产生的长尾问题,提高情感分类效果,提出了一种融合BERT与对比学习的文本情感多分类模型,先使用BERT模型生成文本嵌入表示向量,再输入到投影层,进一步捕捉重要特征和降维,通过将同一类别的情感文本当作正样本,不同类别的情感文本当作负样本,模型进行正负样本间对比学习,最后模型能学习到有关长尾情感类别更深层的特征表示。在SMP2020微博情感分类公开数据集上进行性能测试,实验结果表明,该模型在两个数据集上的准确率分别达到85%和86.4%,与一些传统模型相比具有更好的分类性能。 展开更多
关键词 文本情感分类 bert模型 对比学习
下载PDF
基于ETW⁃BERT模型的网购商品虚假评论识别
17
作者 陈润萌 宋益善 +1 位作者 王胤哲 梁靖韵 《现代计算机》 2024年第3期83-89,共7页
针对网购商品虚假评论识别问题,提出基于BERT双向预训练微调模型的假评识别方法。分析评论的文本、情感和时间特征,提出人工标注评论数据的12条规则,人工标注从京东网购平台爬取部分电子类产品的中文评论,获得5190条标注数据。对BERT的... 针对网购商品虚假评论识别问题,提出基于BERT双向预训练微调模型的假评识别方法。分析评论的文本、情感和时间特征,提出人工标注评论数据的12条规则,人工标注从京东网购平台爬取部分电子类产品的中文评论,获得5190条标注数据。对BERT的微调过程加入权重协方差对齐算法得到模型W⁃BERT,嵌入情感估值和时间特征得到模型ET⁃BERT,融合两者得到模型ETW⁃BERT。对上述标注数据集的实验表明,三个改进模型都取得了比BERT基础模型更好的效果。 展开更多
关键词 虚假评论 bert 预训练大模型 情感估值 时间特征
下载PDF
BERT人工智能模型能识别管理层语调中的机会主义吗?——基于上市公司年报的文本分析
18
作者 洪康隆 《证券市场导报》 CSSCI 北大核心 2024年第10期27-37,68,共12页
以往研究发现,上市公司管理层存在通过操纵年报语调积极程度掩盖不利信息,误导投资者作出投资决策的“机会主义”现象。本文以2007—2022年我国A股上市公司年度报告“管理层讨论与分析”(MD&A)章节为样本,探讨BERT人工智能模型对管... 以往研究发现,上市公司管理层存在通过操纵年报语调积极程度掩盖不利信息,误导投资者作出投资决策的“机会主义”现象。本文以2007—2022年我国A股上市公司年度报告“管理层讨论与分析”(MD&A)章节为样本,探讨BERT人工智能模型对管理层语调中机会主义倾向的识别效果。研究发现,BERT模型度量下的管理层语调积极程度能识别管理层的机会主义倾向,并预测下一年管理层的机会主义行为,且其识别效果比传统的词袋法更好。年报文本语气可操纵程度越高,前述识别效果的差异越显著。进一步研究发现,BERT模型能更准确地预测企业未来业绩表现和股价崩盘风险。本文将BERT模型纳入财经文本情感分析领域,为MD&A语调的度量方法提供了新思路。本文的研究结论进一步完善了信号传递理论,不仅有助于报表使用者对上市公司年度报告这类复杂文本进行情感分析,减少管理层操纵文本带来的错误定价,也为监管部门通过年报文本语调识别管理层的机会主义倾向以及使用人工智能大模型助力数字化、智能化监管提供了证据。 展开更多
关键词 管理层语调 bert模型 机会主义 词袋法
下载PDF
基于BERT模型的网络文本地理信息命名实体识别
19
作者 王立 严霞 +2 位作者 王斌 杨杰 汪玉翔 《制造业自动化》 2024年第5期145-150,共6页
随着互联网的快速发展,网络文本蕴含的地理信息日益丰富。由于网络文本具有数量庞大、动态性强的特点,地理实体的种类和数量也在激增。然而,现有的地理信息命名实体识别研究能够识别的实体类型极其有限。针对此问题,将BERT-BiGRU-CRF模... 随着互联网的快速发展,网络文本蕴含的地理信息日益丰富。由于网络文本具有数量庞大、动态性强的特点,地理实体的种类和数量也在激增。然而,现有的地理信息命名实体识别研究能够识别的实体类型极其有限。针对此问题,将BERT-BiGRU-CRF模型作为命名实体识别模型,以地理信息领域学术论文作为知识库来源,对行政区划实体、林地实体、交通实体及水域实体进行识别。实验结果表明,该模型在上述四种实体识别任务中取得的F1值均超过了90%,其中行政区划实体识别的效果最佳。模型整体F1值达到92.26%,优于传统的命名实体识别模型BiGRU、CRF及BiGRU-CRF模型。 展开更多
关键词 bert模型 命名实体识别 地理信息 BiGRU-CRF模型
下载PDF
基于BERT的农作物命名实体识别模型研究
20
作者 沈子雷 杜永强 《计算机应用与软件》 北大核心 2024年第6期223-229,共7页
随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出... 随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。 展开更多
关键词 命名实体识别 bert预训练语言模型 双向LSTM 农作物
下载PDF
上一页 1 2 22 下一页 到第
使用帮助 返回顶部