期刊文献+
共找到155篇文章
< 1 2 8 >
每页显示 20 50 100
大语言模型“数据为王”:训练数据的价值、迷思与数字传播的未来挑战 被引量:6
1
作者 胡泳 刘纯懿 《西北师大学报(社会科学版)》 CSSCI 北大核心 2024年第3期43-54,共12页
伴随着ChatGPT的问世和流行,关于生成式人工智能的意涵和影响迅速成为学界和业界的关注焦点。在这场由大语言模型引领的非监督性深度学习浪潮中,一个核心议题就是训练数据。对训练数据的规模和质量的追求,演绎了“万模大战”形势下的“... 伴随着ChatGPT的问世和流行,关于生成式人工智能的意涵和影响迅速成为学界和业界的关注焦点。在这场由大语言模型引领的非监督性深度学习浪潮中,一个核心议题就是训练数据。对训练数据的规模和质量的追求,演绎了“万模大战”形势下的“数据为王”法则。而在训练数据的价值、功能和误读的背后,是对数据概念的改写、对数据可供性的迷信和对数据所有权的争夺。训练数据的具体架构和内部机制引发了智能传播生态的重建和信息生产秩序的重构,在这一变革之中也蕴藏着大语言模型时代的数字危机,其具体体现为蒸馏式传播的偏见再生产、过滤式传播的信息保守化和随机性传播的意义之消散。大语言模型及其训练数据急需破除规模迷思,着重思考如何让数据切实成为社会技术系统的一部分。 展开更多
关键词 语言模型 训练数据 生成式AI ChatGPT 智能传播
下载PDF
基于增强优化预训练语言模型的电力数据实体识别方法 被引量:2
2
作者 田雪涵 董坤 +1 位作者 赵剑锋 郭希瑞 《智慧电力》 北大核心 2024年第6期100-107,共8页
知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原... 知识图谱可有效整合电力系统中的多源数据,提升电网的知识管理水平。针对电力文本数据集稀缺、实体类型多样、专业性强的特点,提出1种基于增强优化预训练语言模型的电力数据实体识别方法。该方法使用实体词袋替换的数据增强技术扩大原始数据集,采用增强优化预训练语言模型(RoBERTa)进行动态语义编码,利用双向长短期记忆网络(BiLSTM)和条件随机场(CRF)提取特征并优化标签。实验结果表明,该实体识别方法比传统基于深度学习的实体识别方法的平均数指标F1分数高2.17%,证实其对构建电力数据知识图谱的识别效果。 展开更多
关键词 知识图谱 实体识别 数据增强 训练语言模型 双向长短期记忆网络 条件随机场
下载PDF
基于生成式预训练语言模型的学者画像构建研究
3
作者 柳涛 丁陈君 +2 位作者 姜恩波 许睿 陈方 《数字图书馆论坛》 CSSCI 2024年第3期1-11,共11页
大数据时代,互联网中以多源异构、非结构化形式存在的学者信息在实体抽取时伴有属性混淆、长实体等问题,严重影响学者画像构建的精准度。与此同时,学者属性实体抽取模型作为学者画像构建过程中的关键模型,在实际应用方面还存在较高的技... 大数据时代,互联网中以多源异构、非结构化形式存在的学者信息在实体抽取时伴有属性混淆、长实体等问题,严重影响学者画像构建的精准度。与此同时,学者属性实体抽取模型作为学者画像构建过程中的关键模型,在实际应用方面还存在较高的技术门槛,这对学者画像的应用推广造成一定阻碍。为此,在开放资源的基础上,通过引导句建模、自回归生成方式、训练语料微调等构建一种基于生成式预训练语言模型的属性实体抽取框架,并从模型整体效果、实体类别抽取效果、主要影响因素实例分析、样例微调影响分析4个方面对该方法进行验证分析。与对比模型相比,所提出的方法在12类学者属性实体上均达到最优效果,其综合F1值为99.34%,不仅能够较好地识别区分相互混淆的属性实体,对“研究方向”这一典型长属性实体的抽取准确率还提升了6.11%,为学者画像的工程化应用提供了更快捷、有效的方法支撑。 展开更多
关键词 生成式预训练语言模型 样例微调 学者画像 GPT-3
下载PDF
面向真实世界的知识挖掘与知识图谱补全研究(四):真实世界数据标注平台搭建及基于预训练语言模型的自动化抽取方法探索
4
作者 阎思宇 谭杰骏 +8 位作者 朱海锋 黄桥 王诗淳 马文昊 石涵予 王永博 任相颖 胡文斌 靳英辉 《医学新知》 CAS 2024年第11期1276-1283,共8页
目的探索搭建真实世界数据标注平台,并比较检索增强生成式技术(retrieval augmented generation,RAG)结合大语言模型,及预训练语言模型的预训练-微调方法的真实世界数据提取效果。方法以真实世界电子病历数据中的膀胱癌病理记录为例,搭... 目的探索搭建真实世界数据标注平台,并比较检索增强生成式技术(retrieval augmented generation,RAG)结合大语言模型,及预训练语言模型的预训练-微调方法的真实世界数据提取效果。方法以真实世界电子病历数据中的膀胱癌病理记录为例,搭建真实世界数据标注平台,并基于平台标注数据比较RAG结合GPT-3.5,及基于BERT、RoBERTa模型的预训练-微调方法自动化抽取膀胱癌癌症分型、分期的效果。结果全训练集微调的预训练-微调模型抽取效果优于RAG结合大模型的方法与小样本微调的预训练-微调模型,RoBERTa模型效果总体优于BRET模型,但这些方法的抽取效果均有待提升。在测试集中,使用全训练集微调的RoBERTa模型抽取膀胱癌分型、T分期、N分期的F1值分别为71.06%、50.18%,73.65%。结论预训练语言模型在处理临床非结构化数据方面具有应用潜力,但现有方法在信息抽取效果上仍有提升空间。未来工作需进一步优化模型或训练策略,以加速数据赋能。 展开更多
关键词 真实世界数据 电子病历 标注平台 训练语言模型 检索增强生成 语言模型 病理记录 膀胱癌
下载PDF
基于预训练语言模型的歌词生成方法
5
作者 范菁 张珣 刘祥根 《西南民族大学学报(自然科学版)》 CAS 2024年第3期321-327,共7页
根据旋律生成合适的歌词要求模型能够发现并学习歌词与旋律之间的对应关系,以及歌词内部的发音规律、语义关系和逻辑结构,一直是人工智能和音乐领域的挑战性研究课题.不幸的是,具有旋律⁃歌词对齐的配对数据集非常有限,阻碍了歌词自动生... 根据旋律生成合适的歌词要求模型能够发现并学习歌词与旋律之间的对应关系,以及歌词内部的发音规律、语义关系和逻辑结构,一直是人工智能和音乐领域的挑战性研究课题.不幸的是,具有旋律⁃歌词对齐的配对数据集非常有限,阻碍了歌词自动生成方法的进一步研究,特别是相关的以中文歌曲为核心的歌词生成研究.为了解决这个问题,利用多层注意力网络(Transformer)来学习歌词与旋律的对应关系,并利用预训练语言模型来缓解歌词数据稀缺的问题.首先,将歌词生成问题建模为一个条件文本生成任务.模型首先将给定音乐旋律的音高和时值进行整合和编码,然后将其输入到语言模型中.最后,通过将旋律与歌词按对应的形式对齐后,对语言模型的参数进行微调,从而达到对歌词数据进行高效学习的目的.实验结果表明,我们提出的从旋律到歌词生成模型在语言流畅性、语义完整性、押韵程度、旋律⁃情感契合度和标题歌词语义一致性等5个指标上,较基线模型取得了显著提升. 展开更多
关键词 歌词生成 深度学习 训练语言模型
下载PDF
结合数据增强方法的藏文预训练语言模型
6
作者 色差甲 班马宝 +1 位作者 才让加 柔特 《中文信息学报》 CSCD 北大核心 2024年第9期66-72,共7页
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符... 最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。 展开更多
关键词 藏文预训练语言模型 文本数据增强方法 UniLM模型
下载PDF
生成式大模型训练数据的法律规制——以比例原则为分析视角
7
作者 钟海燕 黄运康 《信息安全与通信保密》 2024年第7期99-108,共10页
依赖大量数据训练的生成式人工智能大模型正处于蓬勃发展时期,但其在训练数据收集、处理和输出过程中,存在的潜在的数据合规、数据偏见、数据泄露等风险不仅会威胁技术本身的发展,还会对社会相关利益群体产生一定的威胁,需要通过法律对... 依赖大量数据训练的生成式人工智能大模型正处于蓬勃发展时期,但其在训练数据收集、处理和输出过程中,存在的潜在的数据合规、数据偏见、数据泄露等风险不仅会威胁技术本身的发展,还会对社会相关利益群体产生一定的威胁,需要通过法律对其进行规制。首先,基于平衡人工智能发展与保障人类权益的目的,对生成式大模型训练数据过程中的风险进行分析,根据比例原则基本原理构建风险治理的框架,即对数据获取的来源与目的加以限制,充分平衡各方权利人的利益;其次,对数据内容与算法技术进行正当性管控,以使对各方的损害达到最小范围;最后,从执行数据收集最小化原则、增强合规数据使用和明确相关主体责任义务3个途径降低数据泄露风险。 展开更多
关键词 生成式大模型 训练数据 数据风险治理 比例原则
下载PDF
基于电力设备大数据的预训练语言模型构建和文本语义分析
8
作者 孙振东 梁誉锵 +2 位作者 曹仲南 石和熹 王怡 《中国科技期刊数据库 工业A》 2024年第12期141-144,共4页
电力设备在电网运行中具有非常重要的作用,直接关系到电网运行的安全性和稳定性。随着计算机技术、云计算技术以及信息技术等在电力系统调度中的广泛应用,构建电力设备文本语义模型来进行电力设备故障和缺陷的诊断分析,提升电力设备故... 电力设备在电网运行中具有非常重要的作用,直接关系到电网运行的安全性和稳定性。随着计算机技术、云计算技术以及信息技术等在电力系统调度中的广泛应用,构建电力设备文本语义模型来进行电力设备故障和缺陷的诊断分析,提升电力设备故障诊断的效率和精准性成为电力系统智能化非常重要的内容。本文采基于电力设备大数据方式来进行电力设备文本语义分析模型(PowerBERT)的构建,并采用了超大规模训练方式来进行模型的训练,来进行电力设备信息的分析。结果表明采用该模型能够准确进行电力设备信息的分析,实现对电力设备故障进行准确判断,进一步保证了电力系统设备运行的稳定性,提升电网运行的完全性。 展开更多
关键词 电力设备 大数据 超大规模预训练 语言模型 文本语义分析
下载PDF
预训练大语言模型发展对中国数字创意产业的启示
9
作者 魏晓 陈茂清 +1 位作者 曹小琴 许芳婷 《科技管理研究》 CSSCI 2024年第12期123-129,共7页
预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言... 预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言模型在数字创意产业的运用主要侧重于文本识别生成和语音生成等领域。为此,通过阐述预训练大语言模型以及中国数字创意产业的发展现状,梳理预训练大语言模型在数字创意产业的应用范畴和商业布局,综合分析作为新质生产力引擎的预训练大语言模型在中国数字创意产业发展中的机遇与挑战,并为中国数字创意产业的发展提出建议。研究发现:融合发展是中国数字创意产业的重要趋势,网络文学、动漫游戏、短视频等细分产业开始发展出完整的产业链条;预训练大语言模型可提升数字创意产业的内容生成效率、丰富艺术创意、拓展数字娱乐形式,也可以加强社交媒体分析监测、提高跨语言应用的效率、辅助科研教育,带来提升数字创意产业的智能化水平、增强用户黏性、数字创意生产者身份多元化等机遇,但同时也面临数据成本、隐私安全、知识产权等问题。提出未来在预训练大语言模型应用于数字创意产业的发展中,重视构建相关监管评估框架和知识产权保护体系,提升多模态技术水平,强化智能算力体系建设,以推动数字创意产业的智能化发展。 展开更多
关键词 语言模型 训练模型 数字创意产业 自然语言处理技术 文本生成 人工智能 产业智能化 融合发展
下载PDF
Lacmia:抗混淆的多民族语言生成式摘要模型
10
作者 翁彧 罗皓予 +3 位作者 刘征 超木日力格 刘轩 董俊 《中文信息学报》 CSCD 北大核心 2024年第10期80-94,共15页
该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不... 该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不同民族语言的摘要生成任务。此外,为了解决以往模型在多民族低资源语言处理上的性能不足问题,该模型在框架中加入了语言信息嵌入模块。该文通过在损失函数中引入目标语言偏好性正则化项,有效减轻了多语言摘要中出现的语言混淆现象,从而提升摘要生成准确性和流畅度。广泛的实验表明,Lacmia在包括藏语和维吾尔语在内的多民族低资源语言摘要任务中,取得了卓越成绩。除了在ROUGE评价标准上实现了显著性能提升外,Lacmia在该文新提出的CINOScore和NLCR两项指标上均达到了最佳效果,验证了模型的有效性和先进性。 展开更多
关键词 生成式摘要 语言训练模型 低资源语言信息处理 多目标学习
下载PDF
融合TF-IDF算法和预训练模型的文本数据增强 被引量:1
11
作者 胡荣笙 车文刚 +1 位作者 张龙 戴庞达 《计算机仿真》 2024年第5期495-500,共6页
针对自然语言处理领域的数据增强问题,首次提出了一种基于TF-IDF算法和预训练语言模型BERT融合的文本数据增强方法。首先,改进传统的基于随机策略的词元选择方法,避免对语义起到关键作用的词元进行改写,利用TF-IDF算法提取样本的非核心... 针对自然语言处理领域的数据增强问题,首次提出了一种基于TF-IDF算法和预训练语言模型BERT融合的文本数据增强方法。首先,改进传统的基于随机策略的词元选择方法,避免对语义起到关键作用的词元进行改写,利用TF-IDF算法提取样本的非核心词,得到替换的目标词元;之后针对现有算法在生成新数据时,依赖输入样本而导致的增强样本多样化受限问题,融合BERT模型预测目标替换词元,并使用预测的结果替换目标词元。实验结果表明,基于TF-IDF和BERT预训练模型融合的文本数据增强算法有效提升深度学习模型的性能达5.8%,优于现有的文本数据增强算法。 展开更多
关键词 自然语言处理 深度学习 文本数据增强 训练语言模型
下载PDF
基于序列到序列预训练语言模型的楹联自动生成算法 被引量:1
12
作者 乔露 《微型电脑应用》 2022年第12期42-44,共3页
为了降低楹联文化的学习门槛,激发年轻人对楹联文化的兴趣,提出了一种基于序列到序列预训练神经网络语言模型的楹联自动生成算法。该算法将楹联应对任务建模为一个序列到序列的生成问题,将楹联的上联作为输入,并自递归地(auto-regressiv... 为了降低楹联文化的学习门槛,激发年轻人对楹联文化的兴趣,提出了一种基于序列到序列预训练神经网络语言模型的楹联自动生成算法。该算法将楹联应对任务建模为一个序列到序列的生成问题,将楹联的上联作为输入,并自递归地(auto-regressively)生成出符合楹联标准要求的下联。与现有神经网络方法不同,该算法模型在楹联生成任务上的训练前,在大规模无监督语料上进行预训练(pre-train),在楹联监督数据上进行微调(fine-tune)。在公开数据集上的实验证明,该算法在测试集上的BLEU值与人工评估指标相对基线模型均有明显提升,证明了该算法的有效性。 展开更多
关键词 楹联生成 训练语言模型 文本生成 自然语言处理
下载PDF
基于预训练模型的受控文本生成研究综述 被引量:1
13
作者 周强伟 施水才 王洪俊 《软件导刊》 2024年第4期199-207,共9页
自然语言生成(NLG)作为人工智能的一个分支,近年来随着预训练语言模型(PLMs)的发展取得了显著进展。NLG旨在根据多种输入源(如文本、图像、表格和知识库)生成连贯、有意义的文本。研究者通过架构扩展、微调和提示学习等方法提升了PLMs... 自然语言生成(NLG)作为人工智能的一个分支,近年来随着预训练语言模型(PLMs)的发展取得了显著进展。NLG旨在根据多种输入源(如文本、图像、表格和知识库)生成连贯、有意义的文本。研究者通过架构扩展、微调和提示学习等方法提升了PLMs的性能。然而,NLG在处理非结构化输入和低资源语言生成方面仍面临挑战,尤其是在缺乏足够训练数据的环境中。为探讨NLG的最新发展、应用前景以及所面临的挑战,通过文献分析,提出PLMs性能改进策略,并展望未来研究方向。研究表明,尽管存在诸多限制,但NLG在内容创作、自动新闻报导、对话系统等领域已展现出潜力。随着技术的不断进步,NLG在自然语言处理和人工智能领域将扮演更重要的角色。 展开更多
关键词 人工智能 自然语言生成 受控文本生成 训练语言模型 提示学习
下载PDF
大语言模型数据隐私保护的难点与探索 被引量:2
14
作者 施敏 杨海军 《大数据》 2024年第5期168-176,共9页
基于海量数据训练的大语言模型在带来通用人工智能可能性的同时,也给数据隐私保护带来了新的风险与挑战。在分析大语言模型全环节中涉及的数据隐私保护风险的基础上,对隐私保护中知情同意原则、数据收集“正当、必要”原则所面临的新伦... 基于海量数据训练的大语言模型在带来通用人工智能可能性的同时,也给数据隐私保护带来了新的风险与挑战。在分析大语言模型全环节中涉及的数据隐私保护风险的基础上,对隐私保护中知情同意原则、数据收集“正当、必要”原则所面临的新伦理难点展开分析论证,并探索可能的解决框架和路径,以及实操中仍可能存在的伦理难点。 展开更多
关键词 语言模型 生成式人工智能 数据隐私 知情同意 数据责任
下载PDF
基于多模态大语言模型的攻击性模因解释生成方法 被引量:1
15
作者 林萌 戴程威 郭涛 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1206-1217,共12页
随着5G的发展,攻击性言论逐渐以多模态的方式在社交网络上广泛传播.因此,攻击性模因的检测与解释生成对于提高内容审核效果、维护和谐健康的舆论场环境有着重要的作用.现有的攻击性模因解释生成研究只关注于攻击对象和攻击内容,忽略了... 随着5G的发展,攻击性言论逐渐以多模态的方式在社交网络上广泛传播.因此,攻击性模因的检测与解释生成对于提高内容审核效果、维护和谐健康的舆论场环境有着重要的作用.现有的攻击性模因解释生成研究只关注于攻击对象和攻击内容,忽略了模因包含的社会背景知识和隐喻表达手法,无法全面、准确地解释攻击性模因的含义,大大限制了解释的应用范围.为了应对这一挑战,提出一种基于多模态大模型的攻击性模因解释生成方法,通过增强攻击目标、攻击内容和隐喻识别等多种指令数据,利用其微调多模态大模型,以提升大模型对攻击性模因的解释生成能力.实验结果证实,该方法生成的解释具有3点优势:一是相比基线模型在BERTScore评估指标上提高了19%;二是解释中包含了攻击性隐喻表达的相关背景知识;三是在处理未见的模因数据时也表现出良好的泛化性能. 展开更多
关键词 攻击性模因 解释生成 多模态大语言模型 数据增强 指令微调
下载PDF
以ChatGPT为代表的自然语言AI在数据库内容检索与生成中的应用——以全国报刊索引为例 被引量:1
16
作者 戴梦菲 《情报探索》 2024年第5期103-108,共6页
[目的/意义]旨在探讨以ChatGPT为代表的自然语言模型在图书馆馆藏资源数据库中的应用,为人工智能时代图书馆数据库的发展方向提供借鉴。[方法/过程]采用案例分析法,以上海图书馆的全国报刊索引数据库为研究对象,分析ChatGPT的基本工作原... [目的/意义]旨在探讨以ChatGPT为代表的自然语言模型在图书馆馆藏资源数据库中的应用,为人工智能时代图书馆数据库的发展方向提供借鉴。[方法/过程]采用案例分析法,以上海图书馆的全国报刊索引数据库为研究对象,分析ChatGPT的基本工作原理,并从自然语言问答、信息整合、大纲生成等方面,评估人工智能对于传统的数据库内容检索与生成方式的优势,及可能产生的问题。[结果/结论]该技术在处理自然语言查询方面表现出色,能够有效提高数据库的检索效率,并为读者提供创造性的内容生成。但其应用也面临技术整合、内容真实性与专业性等方面的问题和挑战,需要进一步研究并制定规范。 展开更多
关键词 图书馆服务 人工智能 生成语言模型 数据库检索
下载PDF
基于对抗训练策略的语言模型数据增强技术 被引量:19
17
作者 张一珂 张鹏远 颜永红 《自动化学报》 EI CSCD 北大核心 2018年第5期891-900,共10页
基于最大似然估计(Maximum likelihood estimation,MLE)的语言模型(Language model,LM)数据增强方法由于存在暴露偏差问题而无法生成具有长时语义信息的采样数据.本文提出了一种基于对抗训练策略的语言模型数据增强的方法,通过一个辅助... 基于最大似然估计(Maximum likelihood estimation,MLE)的语言模型(Language model,LM)数据增强方法由于存在暴露偏差问题而无法生成具有长时语义信息的采样数据.本文提出了一种基于对抗训练策略的语言模型数据增强的方法,通过一个辅助的卷积神经网络判别模型判断生成数据的真伪,从而引导递归神经网络生成模型学习真实数据的分布.语言模型的数据增强问题实质上是离散序列的生成问题.当生成模型的输出为离散值时,来自判别模型的误差无法通过反向传播算法回传到生成模型.为了解决此问题,本文将离散序列生成问题表示为强化学习问题,利用判别模型的输出作为奖励对生成模型进行优化,此外,由于判别模型只能对完整的生成序列进行评价,本文采用蒙特卡洛搜索算法对生成序列的中间状态进行评价.语音识别多候选重估实验表明,在有限文本数据条件下,随着训练数据量的增加,本文提出的方法可以进一步降低识别字错误率(Character error rate,CER),且始终优于基于MLE的数据增强方法.当训练数据达到6 M词规模时,本文提出的方法使THCHS 30数据集的CER相对基线系统下降5.0%,AISHELL数据集的CER相对下降7.1%. 展开更多
关键词 数据增强 语言模型 生成对抗网络 强化学习 语音识别
下载PDF
预训练语言模型在科学类QA方向的探索研究——基于ARC数据集
18
作者 夏秀坤 张曼琳 《河北软件职业技术学院学报》 2022年第3期1-5,共5页
随着自然语言处理(Natural Language Processing,NLP)技术取得的巨大进步,业界出现了各种更加复杂的自然语言处理数据集和具有更高难度的任务。AI2逻辑挑战(AI2 Reasoning Challenge,ARC)数据集是目前最具挑战性的问题回答(Question Ans... 随着自然语言处理(Natural Language Processing,NLP)技术取得的巨大进步,业界出现了各种更加复杂的自然语言处理数据集和具有更高难度的任务。AI2逻辑挑战(AI2 Reasoning Challenge,ARC)数据集是目前最具挑战性的问题回答(Question Answering,QA)数据集之一,该数据集由7787道小学科学试题组成,分为挑战集和简单集。聚焦于解决ARC数据集对NLP带来的挑战,使用RoBERTa、BERT和T5等预训练语言模型,对ARC数据集带来的问题进行探索研究。 展开更多
关键词 自然语言处理 训练语言模型 ARC数据
下载PDF
一种基于预训练模型掩码Aspect术语的数据增强方法
19
作者 石晓瑞 《信息技术与信息化》 2024年第2期103-108,共6页
数据增强是解决低资源场景下数据稀缺问题的有效方案。然而,当应用于诸如方面术语提取(ATE)之类的词级别任务时,数据增强方法通常会遭受词标签不对齐的问题,从而导致效果不理想。对此提出了掩码方面语言建模(MALM)作为ATE的新型数据增... 数据增强是解决低资源场景下数据稀缺问题的有效方案。然而,当应用于诸如方面术语提取(ATE)之类的词级别任务时,数据增强方法通常会遭受词标签不对齐的问题,从而导致效果不理想。对此提出了掩码方面语言建模(MALM)作为ATE的新型数据增强框架。为了缓解标记、标签错位问题,将ATE标签显式注入到句子上下文中,由此经过微调的MALM能够显式地调整标签信息来预测掩码的方面标记。因此,MALM可帮助生成具有新方面的高质量增强数据,提供丰富的层面方面知识。此外,提出了一个两阶段的训练策略来整合这些合成数据。通过实验,证明了MALM在两个ATE数据集上的有效性,相比基线方法,所提出的MALM有显著的性能改进。 展开更多
关键词 数据增强 Aspect术语提取 训练模型 掩码方面语言建模 MALM方法
下载PDF
基于预训练语言模型和标签指导的文本复述生成方法
20
作者 梁佳音 谢志鹏 《计算机科学》 CSCD 北大核心 2023年第8期150-156,共7页
文本复述生成是自然语言处理中一项重要且具有挑战性的任务。最近很多工作将句子不同粒度的句法结构信息用于指导复述生成过程,取得了一定的效果,然而这些方法大多比较复杂,迁移使用困难。另外,预训练语言模型因学习到大量语言知识而在... 文本复述生成是自然语言处理中一项重要且具有挑战性的任务。最近很多工作将句子不同粒度的句法结构信息用于指导复述生成过程,取得了一定的效果,然而这些方法大多比较复杂,迁移使用困难。另外,预训练语言模型因学习到大量语言知识而在各项自然语言处理任务中表现出了较好的性能,然而将其用在复述生成任务中的工作较少。针对这些问题,文中提出了基于预训练语言模型和标签指导的复述生成方法。该方法在复述任务上微调预训练语言模型以提升效果,同时用简单的标签插入方式为复述生成模型提供句法结构指导。实验结果表明,这种标签插入结合预训练语言模型的方法在ParaNMT和Quora数据集上的性能优于传统Seq2Seq方法,并且用该方法做数据增强能为下游任务带来效果提升。 展开更多
关键词 文本复述生成 训练语言模型 数据增强
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部