本研究针对云计算环境中文本处理的需求,提出了一种基于双向编码器表示转换器(bidirectional encoder representation from transformers,BERT)的并行化方法。首先,介绍了BERT模型的基本原理以及编码器组成的Transformer结构,并对文本...本研究针对云计算环境中文本处理的需求,提出了一种基于双向编码器表示转换器(bidirectional encoder representation from transformers,BERT)的并行化方法。首先,介绍了BERT模型的基本原理以及编码器组成的Transformer结构,并对文本进行标记化和上下文建模的机制;其次,本研究关注文本在云计算环境下的处理效率,提出了一种并行化的BERT模型优化策略,并通过对文本进行预处理、分割和标记化,实现了对BERT模型的并行计算,以提高在大规模文本数据上的计算效率;最后,为验证所提出方法的有效性,本文选用了CoNLL2003数据集进行实验。实验结果表明,相较于串行模型,并行BERT模型在准确率、召回率和F1值上均有显著提升,其优于串行模型的原因包括计算效率提升、全局上下文建模、资源利用率提高和更强泛化能力等方面。展开更多
Web 2.0时代,消费者对产品或服务的在线评论逐渐受到商家的重视,许多商家也开始通过制造虚假评论的方式主动影响消费者购买意愿。在这个背景下,从天猫商城收集到大量美妆产品和数码产品的评论数据,引入BERT模型对评论进行分类,识别出真...Web 2.0时代,消费者对产品或服务的在线评论逐渐受到商家的重视,许多商家也开始通过制造虚假评论的方式主动影响消费者购买意愿。在这个背景下,从天猫商城收集到大量美妆产品和数码产品的评论数据,引入BERT模型对评论进行分类,识别出真实评论及虚假评论,进而讨论虚假评论对于消费者购买意愿的影响。研究发现:消费者在选购体验品时,虚假评论会对消费者的购买决策产生显著影响。在消费者选购搜索品时,虚假评论则不会产生显著影响。归纳了虚假评论的主要特点,为消费者识别虚假评论提供了方法,同时实证研究结果也表明,许多电商卖家操纵评论的行为是无意义的,并不能正面影响其效益。展开更多
文摘源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representations from transformers)模型的源代码漏洞检测模型.该模型将需要检测的源代码分割为多个小样本,将每个小样本转换成近似自然语言的形式,通过BERT模型实现源代码中漏洞特征的自动提取,然后训练具有良好性能的漏洞分类器,实现Python语言多种类型漏洞的检测.该模型在不同类型的漏洞中实现了平均99.2%的准确率、97.2%的精确率、96.2%的召回率和96.7%的F1分数的检测水平,对比现有的漏洞检测方法有2%~14%的性能提升.实验结果表明,该模型是一种通用的、轻量级的、可扩展的漏洞检测方法.
文摘目前高血压已成为严重危害全球公共健康的重大问题。区别于传统的侵入式和袖带法的血压测量方式,为实时监测血压并助力早期诊断,本文专注于研究脉搏波波形与血压之间的内在关系,并提出了一种使用脉搏波的基于改进BERT(Bidirectional encoder representationns from transformers)模型的血压预测方法。方法首先应用巴特沃斯滤波器对原始脉搏波信号进行滤波预处理并周期性划分,然后结合深度学习技术,采用改进后的BERT模型,对划分后的脉搏波周期数据进行特征提取和分析。为验证本方法预测的有效性和准确性,采用MIMIC-Ⅲ数据库的数据进行实验。实验结果表明,本方法可以有效预测血压值,完全满足英国高血压学会的A类标准。通过深入研究脉搏波与血压的关系,本文改进BERT模型为高血压的预测与诊断提供了新的技术手段。
文摘本研究针对云计算环境中文本处理的需求,提出了一种基于双向编码器表示转换器(bidirectional encoder representation from transformers,BERT)的并行化方法。首先,介绍了BERT模型的基本原理以及编码器组成的Transformer结构,并对文本进行标记化和上下文建模的机制;其次,本研究关注文本在云计算环境下的处理效率,提出了一种并行化的BERT模型优化策略,并通过对文本进行预处理、分割和标记化,实现了对BERT模型的并行计算,以提高在大规模文本数据上的计算效率;最后,为验证所提出方法的有效性,本文选用了CoNLL2003数据集进行实验。实验结果表明,相较于串行模型,并行BERT模型在准确率、召回率和F1值上均有显著提升,其优于串行模型的原因包括计算效率提升、全局上下文建模、资源利用率提高和更强泛化能力等方面。