期刊文献+
共找到65,119篇文章
< 1 2 250 >
每页显示 20 50 100
以对比学习与时序递推提升摘要泛化性的方法
1
作者 汤文亮 陈帝佑 +2 位作者 桂玉杰 刘杰明 徐军亮 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第2期170-180,共11页
为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的... 为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的方式生成候选集,以候选摘要的评估分数选取正负样本,在输出的候选集中以“argmax-贪心搜索概率值”和“标签概率值”构建2组对比损失函数;另一方面,设计作用于候选集句内的时序递推函数引导模型在输出每个单独的候选摘要时确保时序准确性,并缓解曝光偏差问题。实验表明,所提方法在CNN/DailyMail和Xsum公共数据集上的泛化性得到提升,Rouge与BertScore在CNN/DailyMail上达到47.54和88.51,在Xsum上达到了48.75和92.61。 展开更多
关键词 自然语言处理 文本摘要 对比学习 模型微调
下载PDF
CINOSUM:面向多民族低资源语言的抽取式摘要模型
2
作者 翁彧 罗皓予 +3 位作者 超木日力格 刘轩 董俊 刘征 《计算机科学》 CSCD 北大核心 2024年第7期296-302,共7页
针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效... 针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效果不佳的问题,构建了一个框架,采用统一的句子抽取器,以进行不同民族语言的抽取式摘要生成。此外,提出采用多语言数据集的联合训练方法,旨在弥补知识获取上的不足,进而扩展在低资源语言上的应用,显著增强模型的适应性与灵活性。最终,在MESUM数据集上开展了广泛的实验研究,实验结果表明CINOSUM模型在包括藏语和维吾尔语在内的多民族低资源语言环境中表现卓越,并且在ROUGE评价体系下取得了显著的性能提升。 展开更多
关键词 抽取式摘要 多语言预训练模型 低资源语言信息处理 知识迁移
下载PDF
医学期刊中结构式英文摘要的撰写
3
作者 马汉祥 《宁夏医学杂志》 CAS 2024年第1期88-90,共3页
1 概述随着医学科学的快速发展,我国同国际间的学术交流也日益频繁。为了实现国际医学科研成果的共享,联合国教科文组织规定:公开发表的科技论文必须附有英文摘要。1986年我国发布了GB 6447-86《文摘编写规则》,提出生物医学论著必须附... 1 概述随着医学科学的快速发展,我国同国际间的学术交流也日益频繁。为了实现国际医学科研成果的共享,联合国教科文组织规定:公开发表的科技论文必须附有英文摘要。1986年我国发布了GB 6447-86《文摘编写规则》,提出生物医学论著必须附有英文摘要[1]。国际医学期刊编辑委员会推荐采用结构式摘要,国内中华医学系列期刊以及国外多数著名医学期刊都明确要求写结构式摘要。本文通过举例来说明结构式英文摘要撰写的基本要求。 展开更多
关键词 医学论文 英文摘要 书写要求
下载PDF
基于实体复制和双粒度指导的抽象摘要
4
作者 周子力 高士亮 +1 位作者 安润鲁 包新月 《计算机系统应用》 2024年第5期210-217,共8页
抽象神经网络在文本摘要领域取得了长足进步,展示了令人瞩目的成就.然而,由于抽象摘要的灵活性,它很容易造成生成的摘要忠实性差的问题,甚至偏离源文档的语义主旨.针对这一问题,本文提出了两种方法来提高摘要的保真度.(1)由于实体在摘... 抽象神经网络在文本摘要领域取得了长足进步,展示了令人瞩目的成就.然而,由于抽象摘要的灵活性,它很容易造成生成的摘要忠实性差的问题,甚至偏离源文档的语义主旨.针对这一问题,本文提出了两种方法来提高摘要的保真度.(1)由于实体在摘要中起着重要作用,而且通常来自于原始文档,因此本文提出允许模型从源文档中复制实体,确保生成的实体与源文档中的实体相匹配,这有助于防止生成不一致的实体.(2)为了更好地防止生成的摘要与原文产生语义偏离,本文在摘要生成过程中使用关键实体和关键token作为两种不同粒度的指导信息以指导摘要的生成.本文使用ROUGE指标在两个广泛使用的文本摘要数据集CNNDM和XSum上评估了本文方法的性能,实验结果表明,这两种方法在提高模型性能方面都取得了显著的效果.此外,实验还证明了实体复制机制可以在一定程度上借助指导信息以纠正引入的语义噪声. 展开更多
关键词 抽象摘要 实体复制 双粒度指导 深度学习 预训练模型
下载PDF
基于语料库的中英医学类期刊摘要语步中词块特征的对比研究
5
作者 周欣 《辽宁工业大学学报(社会科学版)》 2024年第3期61-63,共3页
本文基于自建的小型语料库,以中英医学期刊摘要各语步上出现的三词词块作为研究对象,分析对比中英医学期刊英语摘要的高频词块,以及中英医学期刊摘要四个语步上的高频词块和词块的结构特征。结果表明:中国作者和英语本族语作者在高频词... 本文基于自建的小型语料库,以中英医学期刊摘要各语步上出现的三词词块作为研究对象,分析对比中英医学期刊英语摘要的高频词块,以及中英医学期刊摘要四个语步上的高频词块和词块的结构特征。结果表明:中国作者和英语本族语作者在高频词块的使用类别和频数上既有相似性又有差异性;各语步上词块结构的分布存在一些差异。 展开更多
关键词 医学期刊 英文摘要 词块 语步
下载PDF
基于多特征融合过滤的对话文本摘要生成研究
6
作者 金彦亮 臧庆福 +2 位作者 高塬 冯湫燕 高至锋 《工业控制计算机》 2024年第3期36-38,共3页
原始对话中存在的较多无用信息会干扰模型对重要信息的关注。为此,提出一种基于多特征融合过滤的对话摘要模型,通过自适应地融合多种语义特征来过滤无用信息,实现更加准确的摘要生成。在对话摘要数据集CSDS上的实验结果表明,与先进的BAR... 原始对话中存在的较多无用信息会干扰模型对重要信息的关注。为此,提出一种基于多特征融合过滤的对话摘要模型,通过自适应地融合多种语义特征来过滤无用信息,实现更加准确的摘要生成。在对话摘要数据集CSDS上的实验结果表明,与先进的BART、MV-BART和BART(DALL)等模型相比,该方法在ROUGE分数上最高可提升2.89%。 展开更多
关键词 对话摘要 文本摘要 多特征融合 BART
下载PDF
基于关键词和Transformer的文本摘要生成研究
7
作者 金彦亮 臧庆福 +2 位作者 高塬 冯湫燕 高至锋 《工业控制计算机》 2024年第4期89-91,共3页
生成技术在生成摘要时忽略了关键词的作用,导致生成的摘要难以聚焦关键信息。为此,提出一种以Transformer模型为基础结构,融合关键词和卷积神经网络的文本摘要生成方法,实现以关键词为引导的摘要生成。实验在CSDS数据集上进行,结果表明... 生成技术在生成摘要时忽略了关键词的作用,导致生成的摘要难以聚焦关键信息。为此,提出一种以Transformer模型为基础结构,融合关键词和卷积神经网络的文本摘要生成方法,实现以关键词为引导的摘要生成。实验在CSDS数据集上进行,结果表明该方法在ROUGE指标上均有提升,验证了其有效性。 展开更多
关键词 文本摘要 关键词提取 卷积神经网络 TRANSFORMER
下载PDF
中外学者农科类英语学术论文摘要元话语对比研究
8
作者 李永红 《海外英语》 2024年第3期46-48,共3页
摘要是学术观点的载体,也是论文被检索和收录的重要依据。目前对科技论文的中英文摘要研究众多,但是涉及范围过大,缺乏针对性。本研究随机选取SCI近10年来收录的中外学者农科类学术论文英文摘要各30篇建成语料库,对摘要中的元话语展开... 摘要是学术观点的载体,也是论文被检索和收录的重要依据。目前对科技论文的中英文摘要研究众多,但是涉及范围过大,缺乏针对性。本研究随机选取SCI近10年来收录的中外学者农科类学术论文英文摘要各30篇建成语料库,对摘要中的元话语展开对比分析,探讨中外学者使用元话语的异同。研究发现,中外学者学术论文摘要中元话语的运用既有共性也存在差异性,共性大于差异性。其可能的原因是英语学术论文摘要的国际规约以及中国学术国际化的推动。元话语研究不仅有助于更好地进行学术论文摘要的阅读和撰写,也为语言教学实践提供有益启示。 展开更多
关键词 英语学术论文摘要 元话语 对比研究
下载PDF
基于无监督学习和监督学习的抽取式文本摘要综述 被引量:1
9
作者 夏吾吉 黄鹤鸣 +1 位作者 更藏措毛 范玉涛 《计算机应用》 CSCD 北大核心 2024年第4期1035-1048,共14页
相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的... 相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的相关文献,对无监督学习和监督学习的抽取式文本摘要技术进行多维度、全方位的分析。首先,回顾文本摘要技术的发展,分析不同的抽取式文本摘要方法,主要包括基于规则、词频-逆文件概率(TFIDF)、中心性方法、潜在语义、深度学习、图排序、特征工程和预训练学习等,并对比不同方法的差异;其次,详细介绍不同语种文本摘要生成的常用数据集和主流的评价指标,通过不同的实验指标对相同数据集上的方法进行比较;最后,指出当前抽取式文本摘要研究中存在的主要问题和挑战,并提出具体的解决思路和未来发展趋势。 展开更多
关键词 抽取式摘要 无监督学习 监督学习 数据集 评价指标
下载PDF
基于深度学习文本摘要的科技名词释义生成方法 被引量:1
10
作者 杜振雷 陈若愚 姜雨杉 《中国科技术语》 2024年第2期29-36,共8页
科技名词是科学技术形成、积累、交流和传播的前提和基础。为科技名词生成百科性释义,对于普通民众和中文学习者掌握科技名词内涵、正确使用术语具有很强的现实意义。文章提出了一种基于深度学习的科技名词百科释义生成方法。通过网络... 科技名词是科学技术形成、积累、交流和传播的前提和基础。为科技名词生成百科性释义,对于普通民众和中文学习者掌握科技名词内涵、正确使用术语具有很强的现实意义。文章提出了一种基于深度学习的科技名词百科释义生成方法。通过网络采集百科文本和专家撰写的术语释义文章,构建了科技名词百科释义数据集。基于T5 PEGASUS预训练模型并对模型进行微调,构建了生成式文本摘要模型和建立了科技名词释义生成系统。实验结果显示,本项研究所提出的模型在生成质量、语义连贯性和通用性等方面具有较高的性能。 展开更多
关键词 深度学习 文本摘要 科技名词 术语释义 释义生成 数据集
下载PDF
基于关键实体和文本摘要多特征融合的话题匹配算法
11
作者 纪科 张秀 +3 位作者 马坤 孙润元 陈贞翔 邬俊 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期51-59,共9页
随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实... 随着网络的快速普及,互联网新闻的数量剧增,在这种情况下,如何有效地找到更加符合特定主题的相关报道成为一个迫切需要解决的问题。针对这一问题,提出了基于关键实体和文本摘要多特征融合的话题匹配算法。首先,使用W2NER模型进行命名实体识别,通过词频、TF-IDF、词的合群性、词词相似度和词句相似度特征,提取关键的实体。其次,使用Pegasus模型进行文本摘要,通过BiLSTM融合关键实体特征与文本摘要特征,得到新闻文本的深层次语义特征。再次,使用交叉注意力机制对待匹配新闻进行特征交互,增进彼此的联系。最后,融合新闻文本的深层次语义特征和文本交互特征,共同参与文本话题匹配的判断。在来自于搜狐的真实数据上进行了不同算法的对比实验,结果表明:所提算法准确率和精确率均与其他算法效果相近,召回率和F1值均有所提升。 展开更多
关键词 话题匹配 关键实体 文本摘要 文本匹配 信息检索
下载PDF
融合多模态信息的产品摘要抽取模型
12
作者 赵强 王中卿 王红玲 《计算机应用》 CSCD 北大核心 2024年第1期73-78,共6页
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具... 在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。 展开更多
关键词 产品摘要 多模态摘要 抽取式摘要 多模态融合 自动文摘
下载PDF
基于分层表示和上下文增强的类摘要生成技术
13
作者 陈豪伶 虞慧群 +2 位作者 范贵生 李明辰 黄子杰 《计算机研究与发展》 EI CSCD 北大核心 2024年第2期307-323,共17页
代码摘要是源代码的自然语言解释,高质量的代码摘要有助于提高开发人员程序理解效率.近年来,代码自动摘要的研究集中在为方法粒度的代码片段生成摘要.然而,对于面向对象的语言,例如Java,类才是项目的基本组成单元.基于上述问题,提出一... 代码摘要是源代码的自然语言解释,高质量的代码摘要有助于提高开发人员程序理解效率.近年来,代码自动摘要的研究集中在为方法粒度的代码片段生成摘要.然而,对于面向对象的语言,例如Java,类才是项目的基本组成单元.基于上述问题,提出一种基于分层表示和上下文增强的类摘要生成方法HRCE(hierarchical representation and context enhancement),并构建了一个包含358 992个?Java类,上下文,摘要?数据对的类摘要数据集.HRCE使用代码精简策略去除类的非关键代码,从而缩短代码长度.然后,对类的层次结构,包括类签名、属性和方法分别进行建模,获得类的语义信息和层次结构信息.此外,从项目中抽取父类的签名及摘要来刻画类在项目中依赖的上下文.实验表明,基于分层表示和上下文增强的生成模型能够表征代码的语义和层次结构,并可以从目标类的内部和外部获取信息. HRCE在BLEU,METEOR,ROUGE-L等评估指标上超过了所有基准模型. 展开更多
关键词 代码自动摘要 分层表示 上下文增强 深度学习 摘要
下载PDF
融合卷积收缩门控的生成式文本摘要方法
14
作者 甘陈敏 唐宏 +2 位作者 杨浩澜 刘小洁 刘杰 《计算机工程》 CAS CSCD 北大核心 2024年第2期98-104,共7页
在深度学习技术的推动下,基于编码器-解码器架构并结合注意力机制的序列到序列模型成为文本摘要研究中应用最广泛的模型之一,尤其在生成式文本摘要任务中取得显著效果。然而,现有的采用循环神经网络的模型存在并行能力不足和时效低下的... 在深度学习技术的推动下,基于编码器-解码器架构并结合注意力机制的序列到序列模型成为文本摘要研究中应用最广泛的模型之一,尤其在生成式文本摘要任务中取得显著效果。然而,现有的采用循环神经网络的模型存在并行能力不足和时效低下的局限性,无法充分概括有用信息,忽视单词与句子间的联系,易产生冗余重复或语义不相关的摘要。为此,提出一种基于Transformer和卷积收缩门控的文本摘要方法。利用BERT作为编码器,提取不同层次的文本表征得到上下文编码,采用卷积收缩门控单元调整编码权重,强化全局相关性,去除无用信息的干扰,过滤后得到最终的编码输出,并通过设计基础Transformer解码模块、共享编码器的解码模块和采用生成式预训练Transformer(GPT)的解码模块3种不同的解码器,加强编码器与解码器的关联,以此探索能生成高质量摘要的模型结构。在LCSTS和CNNDM数据集上的实验结果表明,相比主流基准模型,设计的TCSG、ES-TCSG和GPT-TCSG模型的评价分数增量均不低于1.0,验证了该方法的有效性和可行性。 展开更多
关键词 生成式文本摘要 序列到序列模型 Transformer模型 BERT编码器 卷积收缩门控单元 解码器
下载PDF
人工智能大模型对学术期刊编辑工作的影响探究——基于英文摘要翻译的实证研究 被引量:1
15
作者 陈星潼 赵爱清 《新闻研究导刊》 2024年第3期1-4,共4页
以ChatGPT为代表的新一代人工智能技术对中文期刊编辑出版产生了巨大冲击,英文摘要生产环节作为翻译与文字处理的代表,首当其冲。文章通过实证研究,利用ChatGPT分别翻译、生成随机抽取的某中文核心期刊文章摘要,以资深编辑精读与海外专... 以ChatGPT为代表的新一代人工智能技术对中文期刊编辑出版产生了巨大冲击,英文摘要生产环节作为翻译与文字处理的代表,首当其冲。文章通过实证研究,利用ChatGPT分别翻译、生成随机抽取的某中文核心期刊文章摘要,以资深编辑精读与海外专家评审两种模式评估其质量,并探究人工智能大模型对中文期刊编辑出版的潜在影响及存在的风险。结果显示,由ChatGPT翻译的摘要总体上与现有模式水平相当,在专有名词和中国特色词汇选择方面优于现有模式;由ChatGPT生成的摘要通顺明确,更符合国际惯例。但当前,基于人工智能大模型生成的摘要也存在直译误译、意识形态把握难、时效性不足等问题,还无法完全替代编辑人工审校。文章提出,人工智能大模型已成为编辑出版的重要辅助工具,中文期刊一要重新审视英文摘要的生产方式及规范要求,推出明确翔实且适用于国际推广的英文摘要范本;二要牢牢把握人的主导权,以批判性思维和创造性眼光面对新工具;三要用好人工智能大模型,以人机协同模式提升英文摘要质量、扩展传播方式、提升工作效率;四要积极参与共建高质量中文语料库、行业语料库工作,为传播好中国声音贡献力量。 展开更多
关键词 人工智能大模型 学术期刊 英文摘要 编辑 翻译
下载PDF
基于预训练的两段式自动文本摘要研究
16
作者 李智强 朱明 +1 位作者 徐劲松 郭世杰 《湖北大学学报(自然科学版)》 CAS 2024年第4期540-549,共10页
主要通过从源文中抽取重要语句组成摘要,该方式会存在词语冗余、可读性差的不足;生成式摘要则尝试通过创造新的词语来构建摘要,可能会引发语义不连贯和逻辑性差的挑战。针对以上两种方式存在的问题,提出一种基于预训练的两阶段式的自动... 主要通过从源文中抽取重要语句组成摘要,该方式会存在词语冗余、可读性差的不足;生成式摘要则尝试通过创造新的词语来构建摘要,可能会引发语义不连贯和逻辑性差的挑战。针对以上两种方式存在的问题,提出一种基于预训练的两阶段式的自动文本摘要模型。该模型融合抽取式和生成式的方法,首先,模型通过预训练模型BERT获取文本向量,再通过抽取式图结构中所蕴含的关系显示指导摘要生成,然后将抽取的输出当作生成模型的输入,同时结合指针网络和覆盖机制解决训练过程中的未登录词(OOV)问题和重复生成问题。通过整合上述步骤,最终获得的摘要在CNN/Daily Mail数据集上展现出良好的效果,在ROUGE-1、ROUGE-2和ROUGE-L这三个指标上均有显著提升。 展开更多
关键词 抽取式摘要 生成式摘要 混合式摘要 BERT预训练模型
下载PDF
基于子句抽取的文本摘要自动提取算法
17
作者 朱兵兵 罗飞 +2 位作者 罗勇军 丁炜超 黄浩 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期114-120,共7页
TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个... TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个句子进行语法标记,进而基于子句设置抽取单元;接着,使用BERT(Bidirectional Encoder Representation from Transformers)构建标题和每个子句的特征向量,并计算子句特征向量间的相似性,将其存放在相似度矩阵中;最后结合子句位置、子句与标题的相似度等调整子句相似度矩阵,迭代计算直至收敛,进而选取得分最高的子句作为最终摘要。实验分析表明,PTextRank算法有效地避免了多个句子中存在的冗余信息,且相比于TextRank和SWTextRank,PTextRank生成摘要的准确率至少提高6%,同时生成的摘要质量更好。 展开更多
关键词 TextRank 摘要提取 冗余处理 Sinica Treebank 篇章结构
下载PDF
基于审判逻辑步骤的裁判文书摘要生成方法
18
作者 余帅 宋玉梅 +2 位作者 秦永彬 黄瑞章 陈艳平 《计算机工程与应用》 CSCD 北大核心 2024年第4期113-121,共9页
面向裁判文书的司法摘要是提升裁判文书分析能力的关键技术。裁判文书作为审判活动的载体,精准地呈现了案件的审判逻辑,但目前针对裁判文书的摘要方法只关注裁判文书的序列化信息,忽视了裁判文书的逻辑结构,且不能有效解决文本过长、信... 面向裁判文书的司法摘要是提升裁判文书分析能力的关键技术。裁判文书作为审判活动的载体,精准地呈现了案件的审判逻辑,但目前针对裁判文书的摘要方法只关注裁判文书的序列化信息,忽视了裁判文书的逻辑结构,且不能有效解决文本过长、信息冗余等问题。提出基于审判逻辑步骤的裁判文书摘要生成方法,采取“抽取+生成”相结合的方式,在抽取部分利用多标签分类方法,依据人民法院审理案件的逻辑步骤抽取出“类型、诉请、事实、结果”四个句子集合,在生成部分由微调后的T5-PEGASUS模型得到摘要。利用基于内部知识的最大相似度匹配算法对“事实”部分的输入文本进行降噪处理,进一步改善了摘要效果。实验结果表明,相比于主流的指针生成网络模型,该方法在ROUGE-1、ROUGE-2和ROUGE-L的F1指标上分别提升了17.99个百分点、21.24个百分点、21.86个百分点,说明在司法摘要任务中引入逻辑结构能够提升性能。 展开更多
关键词 裁判文书 审判逻辑步骤 多标签分类 内部知识 生成式摘要
下载PDF
基于语义相关性分析的多模态摘要模型
19
作者 林于翔 吴运兵 +1 位作者 阴爱英 廖祥文 《计算机应用》 CSCD 北大核心 2024年第1期65-72,共8页
多模态生成式摘要往往采用序列到序列(Seq2Seq)框架,目标函数在字符级别优化模型,根据局部最优解生成单词,忽略了摘要样本全局语义信息,使得摘要与多模态信息产生语义偏差,容易造成事实性错误。针对上述问题,提出一种基于语义相关性分... 多模态生成式摘要往往采用序列到序列(Seq2Seq)框架,目标函数在字符级别优化模型,根据局部最优解生成单词,忽略了摘要样本全局语义信息,使得摘要与多模态信息产生语义偏差,容易造成事实性错误。针对上述问题,提出一种基于语义相关性分析的多模态摘要模型。首先,在Seq2Seq框架基础上对多模态摘要进行训练,生成语义多样性的候选摘要;其次,构建基于语义相关性分析的摘要评估器,从全局的角度学习候选摘要之间的语义差异性和真实评价指标ROUGE(Recall-Oriented Understudy for Gisting Evaluation)的排序模式,从而在摘要样本层面优化模型;最后,不依赖参考摘要,利用摘要评估器对候选摘要进行评价,使得选出的摘要与源文本在语义空间中尽可能相似。实验结果表明,在公开数据集MMSS上,相较于MPMSE(Multimodal Pointer-generator via Multimodal Selective Encoding)模型,所提模型在ROUGE-1、ROUGE-2、ROUGE-L评价指标上分别提升了3.17、1.21和2.24个百分点。 展开更多
关键词 多模态 生成式摘要 序列到序列 事实性错误 语义相关性
下载PDF
基于关键词异构图的生成式摘要研究
20
作者 毛兴静 魏勇 +1 位作者 杨昱睿 琚生根 《计算机科学》 CSCD 北大核心 2024年第7期278-286,共9页
生成式摘要是自然语言处理中的重要任务,它帮助人们从海量文本中提取简洁而重要的信息.目前主流的生成式摘要模型是基于深度学习的序列到序列模型,这类模型生成的摘要质量更高.但由于缺乏对原文中关键词和句子之间的依赖关系的关注,现... 生成式摘要是自然语言处理中的重要任务,它帮助人们从海量文本中提取简洁而重要的信息.目前主流的生成式摘要模型是基于深度学习的序列到序列模型,这类模型生成的摘要质量更高.但由于缺乏对原文中关键词和句子之间的依赖关系的关注,现有模型生成的摘要仍然存在语义不明、重要信息含量低等问题.针对这个问题,提出了一种基于关键词异构图的生成式摘要模型.该模型通过从原始文本中提取关键词,将其与句子共同作为输入构建异构图,进而学习关键词和句子之间的依赖关系.文档编码器和图编码器分别用于学习文本知识和异构图中的依赖关系.此外,在解码器中采用分层图注意力机制来提高模型在生成摘要时对显著信息的关注.在CNN/Daily Mail和XSum数据集上进行了充分的实验,实验结果表明,所提模型在ROUGE评价指标上有了显著的提升.进一步的人类评估结果显示,所提模型所生成的摘要比基线模型包含更多的关键信息,并具有更高的可读性. 展开更多
关键词 生成式摘要 关键词 异构图 图注意力 序列到序列模型
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部