期刊文献+
共找到1,454篇文章
< 1 2 73 >
每页显示 20 50 100
问答式林业预训练语言模型ForestBERT
1
作者 谭晶维 张怀清 +2 位作者 刘洋 杨杰 郑东萍 《林业科学》 EI CAS CSCD 北大核心 2024年第9期99-110,共12页
【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策... 【目的】针对林业文本利用率低、通用领域预训练语言模型对林业知识理解不足以及手动标注数据耗时费力等问题,基于大量林业文本,提出一种融合林业领域知识的预训练语言模型,并通过自动标注训练数据,高效实现林业抽取式问答,为林业决策管理提供智能化信息服务。【方法】首先,基于网络爬虫技术构建包含术语、法律法规和文献3个主题的林业语料库,使用该语料库对通用领域预训练语言模型BERT进行继续预训练,再通过掩码语言模型和下一句预测这2个任务进行自监督学习,使BERT能够有效地学习林业语义信息,得到具有林业文本通用特征的预训练语言模型ForestBERT。然后,对预训练语言模型mT5进行微调,实现样本的自动标注,通过人工校正后,构建包含3个主题共2280个样本的林业抽取式问答数据集。基于该数据集对BERT、RoBERTa、MacBERT、PERT、ELECTRA、LERT 6个通用领域的中文预训练语言模型以及本研究构建的ForestBERT进行训练和验证,以明确ForestBERT的优势。为探究不同主题对模型性能的影响,分别基于林业术语、林业法律法规、林业文献3个主题数据集对所有模型进行微调。将ForestBERT与BERT在林业文献中的问答结果进行可视化比较,以更直观展现ForestBERT的优势。【结果】ForestBERT在林业领域的抽取式问答任务中整体表现优于其他6个对比模型,与基础模型BERT相比,精确匹配(EM)分数和F1分数分别提升1.6%和1.72%,在另外5个模型的平均性能上也均提升0.96%。在各个模型最优划分比例下,ForestBERT在EM上分别优于BERT和其他5个模型2.12%和1.2%,在F1上分别优于1.88%和1.26%。此外,ForestBERT在3个林业主题上也均表现优异,术语、法律法规、文献任务的评估分数分别比其他6个模型平均提升3.06%、1.73%、2.76%。在所有模型中,术语任务表现最佳,F1的平均值达到87.63%,表现较差的法律法规也达到82.32%。在文献抽取式问答任务中,ForestBERT相比BERT可提供更准确、全面的答案。【结论】采用继续预训练的方式增强通用领域预训练语言模型的林业专业知识,可有效提升模型在林业抽取式问答任务中的表现,为林业文本和其他领域的文本处理和应用提供一种新思路。 展开更多
关键词 林业文本 BERT 预训练语言模型 特定领域预训练 抽取式问答任务 自然语言处理
下载PDF
面向多源异质遥感影像地物分类的自监督预训练方法
2
作者 薛志祥 余旭初 +5 位作者 刘景正 杨国鹏 刘冰 余岸竹 周嘉男 金上鸿 《测绘学报》 EI CSCD 北大核心 2024年第3期512-525,共14页
近年来,深度学习改变了遥感图像处理的方法。由于标注高质量样本费时费力,标签样本数量不足的现实问题会严重影响深层神经网络模型的性能。为解决这一突出矛盾,本文提出了用于多源异质遥感影像地物分类的自监督预训练和微调分类方案,旨... 近年来,深度学习改变了遥感图像处理的方法。由于标注高质量样本费时费力,标签样本数量不足的现实问题会严重影响深层神经网络模型的性能。为解决这一突出矛盾,本文提出了用于多源异质遥感影像地物分类的自监督预训练和微调分类方案,旨在缓解模型对于标签样本的严重依赖。具体来讲,生成式自监督学习模型由非对称的编码器-解码器结构组成,其中深度编码器从多源遥感数据中学习高阶关键特征,任务特定的解码器用于重建原始遥感影像。为提升特性表示能力,交叉注意力机制模型用于融合异源特征中的信息,进而从多源异质遥感影像中学习更多的互补信息。在微调分类阶段,预训练好的编码器作为无监督特征提取器,基于Transformer结构的轻量级分类器将学习到的特征与光谱信息结合并用于地物分类。这种自监督预训练方案能够从多源异质遥感影像中学习到刻画原始数据的高级关键特征,并且此过程不需要任何人工标注信息,从而缓解了对标签样本的依赖。与现有的分类范式相比,本文提出的自监督预训练和微调方案在多源遥感影像地物分类中能够取得更优的分类结果。 展开更多
关键词 遥感 多源异质数据 预训练 自监督学习 土地覆盖分类
下载PDF
基于预训练模型与BiLSTM-CNN的多标签代码坏味检测方法
3
作者 刘海洋 张杨 +1 位作者 田泉泉 王晓红 《河北工业科技》 CAS 2024年第5期330-335,共6页
为了提高多标签代码坏味检测的准确率,提出一种基于预训练模型与BiLSTM-CNN的多标签代码坏味检测方法DMSmell(deep multi-smell)。首先,利用静态分析工具获取源代码中的文本信息和结构度量信息,并采用2种检测规则对代码坏味实例进行标记... 为了提高多标签代码坏味检测的准确率,提出一种基于预训练模型与BiLSTM-CNN的多标签代码坏味检测方法DMSmell(deep multi-smell)。首先,利用静态分析工具获取源代码中的文本信息和结构度量信息,并采用2种检测规则对代码坏味实例进行标记;其次,利用CodeBERT预训练模型生成文本信息对应的词向量,并分别采用BiLSTM和CNN对词向量和结构度量信息进行深度特征提取;最后,结合注意力机制和多层感知机,完成多标签代码坏味的检测,并对DMSmell方法进行了性能评估。结果表明:DMSmell方法在一定程度上提高了多标签代码坏味检测的准确率,与基于分类器链的方法相比,精确匹配率提高了1.36个百分点,微查全率提高了2.45个百分点,微F1提高了1.1个百分点。这表明,将文本信息与结构度量信息相结合,并利用深度学习技术进行特征提取和分类,可以有效提高代码坏味检测的准确性,为多标签代码坏味检测的研究和应用提供重要的参考。 展开更多
关键词 软件工程 代码坏味 预训练模型 多标签分类 深度学习
下载PDF
基于BERT古文预训练模型的实体关系联合抽取
4
作者 李智杰 杨盛杰 +3 位作者 李昌华 张颉 董玮 介军 《计算机系统应用》 2024年第8期187-195,共9页
古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模... 古汉语文本承载着丰富的历史和文化信息,对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用.针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题,提出了一种基于BERT古文预训练模型的实体关系联合抽取模型(entity relation joint extraction model based on BERT-ancient-Chinese pretrained model,JEBAC).首先,通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型(BERT-ancientChinese pre-trained model integrated BiLSTM neural network and attention mechanism,BACBA),识别出句中所有的subject实体和object实体,为关系和object实体联合抽取提供依据.接下来,将subject实体的归一化编码向量与整个句子的嵌入向量相加,以更好地理解句中subject实体的语义特征;最后,结合带有subject实体特征的句子向量和object实体的提示信息,通过BACBA实现句中关系和object实体的联合抽取,从而得到句中所有的三元组信息(subject实体,关系,object实体).在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取CCLUE小样本数据集上,与现有的方法进行了性能比较.实验结果表明,该方法在抽取性能上更加有效,F1值分别可达79.2%和55.5%. 展开更多
关键词 古汉语文本 实体关系抽取 BERT古文预训练模型 BiLSTM 注意力 三元组信息
下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述
5
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
下载PDF
生成式预训练模型机器人及其潜力与挑战
6
作者 张帆 谭跃刚 《中国机械工程》 EI CAS CSCD 北大核心 2024年第7期1241-1252,共12页
机器人与ChatGPT的融合可形成具有人类智慧特征的“硅智能体”,定义为“生成式预训练模型机器人”。以ChatGPT和机器人的智能融合为对象,阐述了GPT-R的特点、技术趋势及在工业和人类生活中的应用。分析了GPT-R在体力、智力及与人类共融... 机器人与ChatGPT的融合可形成具有人类智慧特征的“硅智能体”,定义为“生成式预训练模型机器人”。以ChatGPT和机器人的智能融合为对象,阐述了GPT-R的特点、技术趋势及在工业和人类生活中的应用。分析了GPT-R在体力、智力及与人类共融发展中存在的问题,从GPT-R的本体与智能、法律与安全、社会规则三方面给出相应对策。结合了ChatGPT和机器人技术的GPT-R将拥有越来越广泛的应用场景和越来越大的市场潜力,成为未来人工智能和机器人共融发展的重要方向之一。 展开更多
关键词 生成式预训练模型机器人 人工智能 硅智能体 共融发展
下载PDF
预训练大语言模型发展对中国数字创意产业的启示
7
作者 魏晓 陈茂清 +1 位作者 曹小琴 许芳婷 《科技管理研究》 2024年第12期123-129,共7页
预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言... 预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言模型在数字创意产业的运用主要侧重于文本识别生成和语音生成等领域。为此,通过阐述预训练大语言模型以及中国数字创意产业的发展现状,梳理预训练大语言模型在数字创意产业的应用范畴和商业布局,综合分析作为新质生产力引擎的预训练大语言模型在中国数字创意产业发展中的机遇与挑战,并为中国数字创意产业的发展提出建议。研究发现:融合发展是中国数字创意产业的重要趋势,网络文学、动漫游戏、短视频等细分产业开始发展出完整的产业链条;预训练大语言模型可提升数字创意产业的内容生成效率、丰富艺术创意、拓展数字娱乐形式,也可以加强社交媒体分析监测、提高跨语言应用的效率、辅助科研教育,带来提升数字创意产业的智能化水平、增强用户黏性、数字创意生产者身份多元化等机遇,但同时也面临数据成本、隐私安全、知识产权等问题。提出未来在预训练大语言模型应用于数字创意产业的发展中,重视构建相关监管评估框架和知识产权保护体系,提升多模态技术水平,强化智能算力体系建设,以推动数字创意产业的智能化发展。 展开更多
关键词 大语言模型 预训练模型 数字创意产业 自然语言处理技术 文本生成 人工智能 产业智能化 融合发展
下载PDF
语义增强图像-文本预训练模型的零样本三维模型分类
8
作者 丁博 张立宝 +1 位作者 秦健 何勇军 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3314-3323,共10页
目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法... 目前,基于对比学习的图像-文本预训练模型(CLIP)在零样本3维模型分类任务上表现出了巨大潜力,然而3维模型和文本之间存在巨大的模态鸿沟,影响了分类准确率的进一步提高。针对以上问题,该文提出一种语义增强CLIP的零样本3维模型分类方法。该方法首先将3维模型表示成多视图;然后为了增强零样本学习对未知类别的识别能力,通过视觉语言生成模型获得每张视图及其类别的语义描述性文本,并将其作为视图和类别提示文本之间的语义桥梁,语义描述性文本采用图像字幕和视觉问答两种方式获取;最后微调语义编码器将语义描述性文本具化为类别的语义描述,其拥有丰富的语义信息和较好的可解释性,有效减小了视图和类别提示文本的语义鸿沟。实验表明,该文方法在ModelNet10和ModelNet40数据集上的分类性能优于现有的零样本分类方法。 展开更多
关键词 3维模型分类 零样本 基于对比学习的图像-文本预训练模型 语义描述性文本
下载PDF
基于预训练固定参数和深度特征调制的红外与可见光图像融合网络
9
作者 徐少平 周常飞 +2 位作者 肖建 陶武勇 戴田宇 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3305-3313,共9页
为了更好地利用红外与可见光图像中互补的图像信息,得到符合人眼感知特性的融合图像,该文采用两阶段训练策略提出一种基于预训练固定参数和深度特征调制的红外与可见光图像融合网络(PDNet)。具体地,在自监督预训练阶段,以大量清晰的自... 为了更好地利用红外与可见光图像中互补的图像信息,得到符合人眼感知特性的融合图像,该文采用两阶段训练策略提出一种基于预训练固定参数和深度特征调制的红外与可见光图像融合网络(PDNet)。具体地,在自监督预训练阶段,以大量清晰的自然图像分别作为U型网络结构(UNet)的输入和输出,采用自编码器技术完成预训练。所获得编码器模块能有效提取输入图像的多尺度深度特征功能,而解码器模块则能将其重构为与输入图像差异极小的输出图像;在无监督融合训练阶段,将预训练编码器和解码器模块的网络参数保持固定不变,而在两者之间新增包含Transformer结构的融合模块。其中,Transformer结构中的多头自注意力机制能对编码器分别从红外和可见光图像提取到的深度特征权重进行合理分配,从而在多个尺度上将两者融合调制到自然图像深度特征的流型空间上来,进而保证融合特征经解码器重构后所获得融合图像的视觉感知效果。大量实验表明:与当前主流的融合模型(算法)相比,所提PDNet模型在多个客观评价指标方面具有显著优势,而在主观视觉评价上,也更符合人眼视觉感知特点。 展开更多
关键词 红外与可见光图像 图像融合 自监督预训练 无监督融合训练 固定参数 深度特征调制
下载PDF
基于多模态预训练模型的水稻病虫害图像描述生成研究 被引量:1
10
作者 薛悦平 胡彦蓉 +2 位作者 刘洪久 童莉珍 葛万钊 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期782-791,共10页
[目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟... [目的]针对水稻病虫害图像分类技术缺少对病症描述的问题,本文提出一种轻量化的水稻病虫害图像描述模型,对水稻病虫害图像进行更为具体的描述。[方法]以白叶枯病、细菌性条斑病、恶苗病、三化螟虫、稻瘟病、稻曲病、纹枯病、飞虱、稻蓟马、胡麻斑病这十类常见的水稻病虫害开展研究,构建了水稻病虫害图像中文描述数据集。首先采用多模态预训练模型CLIP生成图像向量,其中包含基本的图像信息以及丰富的语义信息,采用映射网络将图像向量映射到文本空间里生成文本提示向量,语言模型GPT-2根据文本提示向量生成图像描述。[结果]在水稻病虫害图像描述数据集上,本文模型的指标总体明显优于其他模型,本文算法的BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE、METEOR指标较传统的CNN_LSTM模型分别提升0.26、0.27、0.24、0.22、0.22、0.14。生成的图像描述具有准确、详细、语义丰富等优点。另外使用实际稻田图片对模型进行测试,实际田间的场景更为复杂多样,生成的图像描述指标与数据集指标对比总体仅有轻微下降,仍高于其他对比模型。本文模型对水稻病虫害的总体识别准确率达97.28%。[结论]基于多模态预训练模型的水稻病虫害图像描述方法能够准确识别水稻病虫害病症并形成相应的病症描述,为水稻病虫害检测提供一种新思路。 展开更多
关键词 多模态预训练模型 水稻病虫害 图像描述生成 诊断
下载PDF
发展基于“语义检测”的低参数量、多模态预训练电池通用人工智能模型 被引量:3
11
作者 吴思远 李泓 《储能科学与技术》 CAS CSCD 北大核心 2024年第4期1216-1224,共9页
ChatGPT的出现意味着一种以“预训练+微调”为主的新科研范式诞生,以OpenAI为代表的企业正朝着训练通用人工智能(AGI)模型的路线前进,AGI意味着人工智能具备超越人类智力并解决通用性问题的能力,其是为了解决通用问题并具有强大的自学... ChatGPT的出现意味着一种以“预训练+微调”为主的新科研范式诞生,以OpenAI为代表的企业正朝着训练通用人工智能(AGI)模型的路线前进,AGI意味着人工智能具备超越人类智力并解决通用性问题的能力,其是为了解决通用问题并具有强大的自学能力来促进人类社会发展。然而OpenAI等模型仍然是以文本为主结合图像等作为输入,对于电池体系来说,文本信息是少数的,更多的是温度、电压-电流曲线等的多模态数据,其所关注的结果包括电池荷电态、电池健康度、剩余寿命和是否出现电池性能跳水的拐点,甚至包括无数据情况下电池二次(梯度)利用的健康度评估。这意味着ChatGPT的路线虽然也可能解决电池体系的问题,但是以文本为主的样式或许有些“杀鸡用牛刀”,即使未来OpenAI的AGI可能解决当前电池存在的问题,但是在模型参数和输入方面与电池本质不符会使得模型参数量巨大而不适合电池离线端评估。对于电池体系的AGI,应该有自己独特的“文本语言”即理解电池运行过程中所发生的一切物理、化学过程以及其之间的关联,从而实现通用性并为后续全固态电池量产上车做铺垫。本文展望了在电池体系发展AGI过程中应该重新设计模型架构,特别在特征表示、数据结构设计、预训练方法、预训练过程设计和实际任务微调等需要重新设计。此外,相较于运行在服务器端的大模型,发展低参数量特别是离线的模型对于实时预测和基于我国国情及国际形势发展是十分必要的。本文主要讨论了发展基于“语义检测”的低参数量、多模态预训练电池通用人工智能模型所需要经历的几个阶段、可能面临的困难和评价指标,同时给出中国科学院物理研究所(以下简称物理所)在电池大模型在预训练、微调和测评三个方面“三步走”计划中的规划和可能线路。 展开更多
关键词 多模态 通用人工智能 电池状态 语义检测 预训练
下载PDF
Uni-LSDPM:基于预训练的统一在线学习会话退出预测模型 被引量:1
12
作者 陈芮 王占全 《计算机研究与发展》 EI CSCD 北大核心 2024年第2期441-459,共19页
为了辅助学习者维持在线学习的连贯性以引导最优学习路径的执行,智能辅导系统(intelligent tutoring system,ITS)需要及时发现学习者退出学习的倾向,在合适的时间采取相应的干预措施,因此,在线学习会话退出预测研究十分必要.然而,与传... 为了辅助学习者维持在线学习的连贯性以引导最优学习路径的执行,智能辅导系统(intelligent tutoring system,ITS)需要及时发现学习者退出学习的倾向,在合适的时间采取相应的干预措施,因此,在线学习会话退出预测研究十分必要.然而,与传统的课程辍学相比,会话退出发生的频率更高,单次学习时长更短,故需要在有限的行为数据中对学习会话退出状态进行准确预测.因此,学习行为的碎片性和预测结果的即时性、准确性是学习会话退出预测任务的挑战和难点.针对会话退出预测任务,提出了一种基于预训练-微调的统一在线学习会话退出预测模型(unified online learning session dropout prediction model,Uni-LSDPM).该模型采用多层Transformer结构,分为预训练阶段和微调阶段.在预训练阶段,使用双向注意机制对学习者连续行为交互特征序列的特征表示进行学习.在微调阶段,应用序列到序列(sequenceto-sequence,Seq2Seq)的注意力机制对学习者连续行为交互特征序列与退出状态联合序列进行学习.基于EdNet公共数据集对模型进行预训练和微调,通过消融实验以获得最佳预测效果,并基于多个数据集进行了对比测试实验.实验结果表明,Uni-LSDPM在AUC和ACC方面优于现有的模型,并证明该模型具有一定的鲁棒性和扩展性. 展开更多
关键词 注意力机制 学习会话 退出 智能辅导系统 预训练
下载PDF
基于预训练语言模型的机器翻译最新进展 被引量:1
13
作者 杨滨瑕 罗旭东 孙凯丽 《计算机科学》 CSCD 北大核心 2024年第S01期38-45,共8页
自然语言处理涉及许多重要主题,其中之一是机器翻译。预训练语言模型,如BERT和GPT,是用于处理包括机器翻译在内的各种自然语言处理任务的先进方法。因此,许多研究人员使用预训练语言模型来解决机器翻译问题。为推动研究向前发展,首先概... 自然语言处理涉及许多重要主题,其中之一是机器翻译。预训练语言模型,如BERT和GPT,是用于处理包括机器翻译在内的各种自然语言处理任务的先进方法。因此,许多研究人员使用预训练语言模型来解决机器翻译问题。为推动研究向前发展,首先概述了这一领域的最新进展,包括主要的研究问题和基于各种预训练语言模型的解决方案;其次比较了这些解决方案的动机、共性、差异和局限性;然后总结了训练这类机器翻译模型常用的数据集,以及评估这些模型的指标;最后讨论了进一步的研究方向。 展开更多
关键词 自然语言处理 机器翻译 预训练语言模型 BERT GPT
下载PDF
聊天生成预训练转换器在慢性病护理中的应用及方法 被引量:1
14
作者 殷冰清 刘思远 +3 位作者 王弘睿 胡庆元 刘兰惠 胡德华 《军事护理》 CSCD 北大核心 2024年第2期83-85,共3页
ChatGPT中文名为聊天生成预训练转换器(chat generative pre-trained transformer,ChatGPT),是由OpenAI公司开发的人工智能产品,是一种基于深度学习技术的自然语言处理(nature language processing,NLP)智能工具。自2022年12月上线以来,... ChatGPT中文名为聊天生成预训练转换器(chat generative pre-trained transformer,ChatGPT),是由OpenAI公司开发的人工智能产品,是一种基于深度学习技术的自然语言处理(nature language processing,NLP)智能工具。自2022年12月上线以来,2个月活跃用户数已达1个亿,成为历史上增长最快的消费者应用程序。 展开更多
关键词 聊天生成预训练转换器 ChatGPT 慢性病 护理
下载PDF
基于预训练GoogleNet模型和迁移学习的齿轮箱故障检测方法 被引量:1
15
作者 杨魏华 阮爱国 黄国勇 《机电工程》 CAS 北大核心 2024年第2期262-270,共9页
针对以往齿轮箱故障诊断中特征处理算法繁琐、人为因素影响较大等问题,提出了一种基于预训练GoogleNet模型和迁移学习(TL)的故障诊断方法。首先,利用连续小波变换(CWT)将离散时间序列转变为二维小波尺度图,构建了样本集;然后,对预训练... 针对以往齿轮箱故障诊断中特征处理算法繁琐、人为因素影响较大等问题,提出了一种基于预训练GoogleNet模型和迁移学习(TL)的故障诊断方法。首先,利用连续小波变换(CWT)将离散时间序列转变为二维小波尺度图,构建了样本集;然后,对预训练模型进行了结构微调及参数微调使其符合任务需求,利用处理得到的训练样本对微调后的模型进行了微训练,使其达到理想精度,然后保存模型,再将其应用于故障分类任务;最后,为了对上述模型的可行性进行验证,利用昆明理工大学控制与优化重点实验室的平行齿轮箱数据以及东南大学的行星齿轮箱数据对微调模型进行了验证。研究结果表明:相比于传统卷积神经网络(CNN)以及未经预训练的GoogleNet模型,基于预训练GoogleNet模型和迁移学习的故障诊断方法在训练样本较少的情况下,其分类准确率均值仍然高达97.40%,且模型的收敛速度更快,对计算机算力的依赖程度更低。微调模型高层的方法能根据任务分类情况个性化设置模型输出,因此该模型能够适用于不同的场景。 展开更多
关键词 变速器 预训练网络 迁移学习 连续小波变换 尺度图 卷积神经网络
下载PDF
基于增强优化预训练语言模型的电力数据实体识别方法 被引量:1
16
作者 田雪涵 董坤 +1 位作者 赵剑锋 郭希瑞 《智慧电力》 北大核心 2024年第6期100-107,共8页
知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原... 知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原始数据集,采用增强优化预训练语言模型(RoBERTa)进行动态语义编码,利用双向长短期记忆网络(BiLSTM)和条件随机场(CRF)提取特征并优化标签。实验结果表明,该实体识别方法比传统基于深度学习的实体识别方法的平均数指标F1分数高2.17%,证实其对构建电力数据知识图谱的识别效果。 展开更多
关键词 知识图谱 实体识别 数据增强 预训练语言模型 双向长短期记忆网络 条件随机场
下载PDF
融合TF-IDF算法和预训练模型的文本数据增强 被引量:1
17
作者 胡荣笙 车文刚 +1 位作者 张龙 戴庞达 《计算机仿真》 2024年第5期495-500,共6页
针对自然语言处理领域的数据增强问题,首次提出了一种基于TF-IDF算法和预训练语言模型BERT融合的文本数据增强方法。首先,改进传统的基于随机策略的词元选择方法,避免对语义起到关键作用的词元进行改写,利用TF-IDF算法提取样本的非核心... 针对自然语言处理领域的数据增强问题,首次提出了一种基于TF-IDF算法和预训练语言模型BERT融合的文本数据增强方法。首先,改进传统的基于随机策略的词元选择方法,避免对语义起到关键作用的词元进行改写,利用TF-IDF算法提取样本的非核心词,得到替换的目标词元;之后针对现有算法在生成新数据时,依赖输入样本而导致的增强样本多样化受限问题,融合BERT模型预测目标替换词元,并使用预测的结果替换目标词元。实验结果表明,基于TF-IDF和BERT预训练模型融合的文本数据增强算法有效提升深度学习模型的性能达5.8%,优于现有的文本数据增强算法。 展开更多
关键词 自然语言处理 深度学习 文本数据增强 预训练语言模型
下载PDF
基于多模态对比学习的代码表征增强预训练方法
18
作者 杨宏宇 马建辉 +2 位作者 侯旻 沈双宏 陈恩红 《软件学报》 EI CSCD 北大核心 2024年第4期1601-1617,共17页
代码表征旨在融合源代码的特征,以获取其语义向量,在基于深度学习的代码智能中扮演着重要角色.传统基于手工的代码表征依赖领域专家的标注,繁重耗时,且无法灵活地复用于特定下游任务,这与绿色低碳的发展理念极不相符.因此,近年来,许多... 代码表征旨在融合源代码的特征,以获取其语义向量,在基于深度学习的代码智能中扮演着重要角色.传统基于手工的代码表征依赖领域专家的标注,繁重耗时,且无法灵活地复用于特定下游任务,这与绿色低碳的发展理念极不相符.因此,近年来,许多自监督学习的编程语言大规模预训练模型(如CodeBERT)应运而生,为获取通用代码表征提供了有效途径.这些模型通过预训练获得通用的代码表征,然后在具体任务上进行微调,取得了显著成果.但是,要准确表示代码的语义信息,需要融合所有抽象层次的特征(文本级、语义级、功能级和结构级).然而,现有模型将编程语言仅视为类似于自然语言的普通文本序列,忽略了它的功能级和结构级特征.因此,旨在进一步提高代码表征的准确性,提出了基于多模态对比学习的代码表征增强的预训练模型(representation enhanced contrastive multimodal pretraining,REcomp).REcomp设计了新的语义级-结构级特征融合算法,将它用于序列化抽象语法树,并通过多模态对比学习的方法将该复合特征与编程语言的文本级和功能级特征相融合,以实现更精准的语义建模.最后,在3个真实的公开数据集上进行了实验,验证了REcomp在提高代码表征准确性方面的有效性. 展开更多
关键词 代码表征 预训练模型 多模态 对比学习
下载PDF
基于RoFormer预训练模型的指针网络农业病害命名实体识别
19
作者 王彤 王春山 +3 位作者 李久熙 朱华吉 缪祎晟 吴华瑞 《智慧农业(中英文)》 CSCD 2024年第2期85-94,共10页
[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。... [目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。[结果和讨论]自建农业病害数据集,数据集中包含2867条标注语料,共10282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。 展开更多
关键词 农业病害 命名实体识别 实体嵌套 RoFormer预训练模型 指针网络
下载PDF
融入时间信息的预训练序列推荐方法
20
作者 陈稳中 陈红梅 +1 位作者 周丽华 方圆 《计算机科学》 CSCD 北大核心 2024年第5期45-53,共9页
序列推荐旨在根据用户与项目的历史交互序列,学习用户动态偏好,为用户推荐后续可能感兴趣的项目。基于预训练模型在适应下游任务方面具有优势,预训练机制在序列推荐中备受关注。现有序列推荐预训练方法忽略了现实中时间对用户交互行为... 序列推荐旨在根据用户与项目的历史交互序列,学习用户动态偏好,为用户推荐后续可能感兴趣的项目。基于预训练模型在适应下游任务方面具有优势,预训练机制在序列推荐中备受关注。现有序列推荐预训练方法忽略了现实中时间对用户交互行为的影响,为了更好地捕获用户与项目交互的时间语义,提出了融入时间信息的预训练序列推荐模型TPTS-Rec(Time-aware Pre-Training method for Sequence Recommendation)。首先,在嵌入层引入时间嵌入矩阵以获取用户交互项目与时间的关联信息。然后,在自注意力层采用同一时间点采样的方法以学习项目间的时间关联信息。最后,在微调阶段从时间维度扩增用户交互序列长度以缓解数据稀疏性问题。在真实数据集上的对比实验结果表明,与基线模型相比,所提模型TPTS-Rec的推荐效果有显著提升。 展开更多
关键词 序列推荐 预训练 自监督学习 互信息最大化 时间属性
下载PDF
上一页 1 2 73 下一页 到第
使用帮助 返回顶部