期刊文献+
共找到227篇文章
< 1 2 12 >
每页显示 20 50 100
面向司法文书的抽取-生成式自动摘要模型
1
作者 陈炫言 安娜 +1 位作者 孙宇 周炼赤 《计算机工程与设计》 北大核心 2024年第4期1117-1125,共9页
为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联... 为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联的优势。提出一种面向司法文书的抽取-生成式自动摘要模型,融合模型优势,避免单一模型存在的关键文本信息重复及重组段落语法不准的问题,保障法律文书抽取的切实完整性。在大规模公开法律领域裁判文书数据集上的实验结果表明,该模型获得较高ROUGE得分,表明了该模型提升了摘要质量。 展开更多
关键词 自动摘要 抽取式 生成式 算法融合 裁判文书 法律领域 完整连贯性
下载PDF
AIGC驱动古籍自动摘要研究:从自然语言理解到生成
2
作者 吴娜 刘畅 +1 位作者 刘江峰 王东波 《图书馆论坛》 CSSCI 北大核心 2024年第9期111-123,共13页
作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发... 作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发展提供参考,助力数字人文理念下的古籍内容价值实现。首先基于GujiBERT、SikuBERT、BERT-ancient-Chinese模型进行语义表征,并使用LexRank算法进行重要性排序以抽取摘要。然后利用GPT-3.5-turbo、GPT-4和ChatGLM3模型生成摘要,并构建ChatGLM3和GPT-3.5-turbo微调模型。最后采用信息覆盖率和信息多样性指标对抽取式摘要结果进行评测,采用rouge和mauve指标对生成式摘要结果进行评测。研究表明:SikuBERT在抽取式摘要任务中对古文的语义表征能力和理解能力较强;通用大语言模型在古籍领域的自动摘要能力各有特色,但主旨提炼能力有所欠缺;通过小样本数据集微调GPT-3.5-turbo和ChatGLM3模型能有效提升模型的摘要生成能力。 展开更多
关键词 古籍价值再造 自动摘要 SikuBERT 大语言模型
下载PDF
基于强化正则的小样本自动摘要方法
3
作者 李清 万卫兵 《电子科技》 2024年第7期16-24,共9页
文本自动摘要旨在从文本信息中提取主要语句以压缩信息。现有生成式自动摘要方法无法充分利用预训练模型对原文语义进行学习,导致生成内容易丢失重要信息,当面对样本数量较少的数据集时容易发生过拟合。为了解决此类问题并获得更好的微... 文本自动摘要旨在从文本信息中提取主要语句以压缩信息。现有生成式自动摘要方法无法充分利用预训练模型对原文语义进行学习,导致生成内容易丢失重要信息,当面对样本数量较少的数据集时容易发生过拟合。为了解决此类问题并获得更好的微调性能,文中使用预训练模型mT5(multilingual T5)作为基线,通过结合R-drop(Regularized dropout)对模型微调进行强化正则来提高模型学习能力,同时利用Sparse softmax减少预测生成的模糊性来确保输出准确度。模型在中文数据集LCSTS和CSL上通过计算BLEU(Bilingual Evaluation Understudy)进行优化方法超参数测试,并采用Rouge作为评测指标分别对数据集进行了不同数量级的评测。实验结果表明,经过优化的预训练模型能够更好地学习原文语义表征,在小样本情况下模型能够保持较好的拟合效果,并且能够生成实用性较高的结果。 展开更多
关键词 文本自动摘要 文本生成 预训练模型 小样本数据 强化正则 稀疏化输出 语义表征学习 mT5
下载PDF
基于图神经网络的中文长文本自动摘要探析
4
作者 张仁泽 《计算机产品与流通》 2024年第1期117-119,共3页
在自动文摘的研究中,对中文长文本的研究较少。由于长文本的内容过长,神经网络训练经常会出现遗忘信息的现象。本文使用图注意力网络与指针生成网络对中文长文本数据集进行训练,图神经网络的Rouge分数高于指针生成网络,这说明图神经网... 在自动文摘的研究中,对中文长文本的研究较少。由于长文本的内容过长,神经网络训练经常会出现遗忘信息的现象。本文使用图注意力网络与指针生成网络对中文长文本数据集进行训练,图神经网络的Rouge分数高于指针生成网络,这说明图神经网络模型在中文文本自动摘要领域极具研究价值。目前,人们进入了信息化的大时代。在互联互通的网络中,各种信息纷繁复杂,人们可接触到的信息数量与过去相比呈直线式上升。但是,并不是所有的信息都是有用的信息,人们很有可能在花费了大量时间浏览完大量文本后,才发现这并不是我们所需要的信息,因此,在信息化的时代背景下,文本自动摘要技术显得尤为重要。目前,对于中文长文本自动摘要的研究稀少,所以本论文聚焦于中文长文本的自动摘要。 展开更多
关键词 神经网络 文本自动摘要 文本数据 自动文摘 直线式 信息化 互联互通 生成网络
下载PDF
基于领域概念图的航天新闻自动摘要模型
5
作者 黄浩宁 陈志敏 +1 位作者 徐聪 张晓燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第1期317-327,共11页
互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提... 互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提出一种基于领域概念图的无监督自动摘要(DCG-TextRank)模型,利用领域术语辅助引导图排序,提高模型对领域文本的理解力。该模型分3个模块:领域概念图生成、图权重初始化、图排序及语义筛选。根据句向量相似度和领域术语库,将文本转换为包含句子节点和领域术语节点的领域概念图;根据航天新闻文本特征初始化领域概念图权值;采用TextRank模型对句子进行排序,并在语义筛选模块通过图节点聚类及设置摘要语义保留度的方法改进TextRank的输出,充分保留文本的多语义信息并降低冗余。所提模型具有领域可移植性,且实验结果表明:在航天新闻数据集中,所提模型相比传统TextRank模型性能提升了14.97%,相比有监督抽取式文本摘要模型BertSum和MatchSum性能提升了4.37%~12.97%。 展开更多
关键词 自动文本摘要 领域概念图 预训练语言模型 图排序算法 图节点聚类
下载PDF
一种篇章结构指导的中文Web文档自动摘要方法 被引量:43
6
作者 王继成 武港山 +1 位作者 周源远 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2003年第3期398-405,共8页
“摘要”、“关键词”是对文档内容提供简要概括的元数据 ,在Web信息检索中起着重要作用 针对Web信息检索的需求和Web文档的特点 ,采用拟人思维 ,提出了一种以篇章结构为指导的自动摘要方法 该方法对段落之间的内容语义关系进行分析 ,... “摘要”、“关键词”是对文档内容提供简要概括的元数据 ,在Web信息检索中起着重要作用 针对Web信息检索的需求和Web文档的特点 ,采用拟人思维 ,提出了一种以篇章结构为指导的自动摘要方法 该方法对段落之间的内容语义关系进行分析 ,进而划分出文档的主题层次 ,得到文档的篇章结构 ;在篇章结构的指导下 ,使用统计方法和启发式规则来提取文档的关键词、关键句 ,生成文档的摘要 在实验评估中 。 展开更多
关键词 自动摘要 篇章结构 WEB 信息检索
下载PDF
基于改进的TextRank的自动摘要提取方法 被引量:41
7
作者 余珊珊 苏锦钿 李鹏飞 《计算机科学》 CSCD 北大核心 2016年第6期240-247,共8页
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置... 经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。 展开更多
关键词 中文文本 自动摘要提取 TextRank 篇章结构 无监督学习方法
下载PDF
使用关键词扩展的新闻文本自动摘要方法 被引量:14
8
作者 李峰 黄金柱 +1 位作者 李舟军 杨伟铭 《计算机科学与探索》 CSCD 北大核心 2016年第3期372-380,共9页
提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方... 提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方法在Rouge-1,Rouge-2评测中取得了优于基于关键词、基于TextRank和基于Manifold Ranking方法的结果。在研究中组织制定了100篇新闻文本的4份中文新闻文本标准评价集,研制了基于关键词扩展的中文新闻文本自动摘要系统,开发了面向中文的基于ROUGE原理的新闻文本摘要结果自动评测系统,初步实现了从理论到实践的转化。 展开更多
关键词 扩展 相近文本 自动摘要 图算法 系统实现
下载PDF
基于事件抽取的网络新闻多文档自动摘要 被引量:15
9
作者 韩永峰 许旭阳 +2 位作者 李弼程 朱武斌 陈刚 《中文信息学报》 CSCD 北大核心 2012年第1期58-66,共9页
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新... 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。 展开更多
关键词 事件抽取 中文信息处理 分类 新闻文档 聚类 自动摘要
下载PDF
一种基于词共现图的文档自动摘要研究 被引量:15
10
作者 耿焕同 蔡庆生 +1 位作者 赵鹏 于琨 《情报学报》 CSSCI 北大核心 2005年第6期651-656,共6页
本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定... 本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度.在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果. 展开更多
关键词 自动摘要 词共现图 主题 自然语言处理
下载PDF
Internet上文本的自动摘要技术 被引量:13
11
作者 尹存燕 戴新宇 陈家骏 《计算机工程》 EI CAS CSCD 北大核心 2006年第3期88-90,共3页
主要研究了Internet上的文本自动摘要,介绍了自动摘要的主流技术;讨论Internet上文本摘要的新需求以及网页上与自动摘要相关的信息,介绍了摘要处理过程和当前自动摘要的主要评估方法;对Internet上文本的自动摘要作出了总结和展望。
关键词 自动摘要 抽取型摘要 概括型摘要 互联网
下载PDF
一种新的句子相似度度量及其在文本自动摘要中的应用 被引量:34
12
作者 张奇 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2005年第2期93-99,共7页
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同... 本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。 展开更多
关键词 计算机应用 中文信息处理 文本自动摘要 向量模型 相似度计算
下载PDF
权衡熵和相关度的自动摘要技术研究 被引量:9
13
作者 罗文娟 马慧芳 +1 位作者 何清 史忠植 《中文信息学报》 CSCD 北大核心 2011年第5期9-16,共8页
生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡... 生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡摘要的信息覆盖率和紧凑性。该文采用基于回归的有监督摘要技术对提取的特征进行权衡,并且采用单文档摘要和多文档摘要进行了系统的实验。实验结果证明对于单文档摘要和多文档摘要,权衡熵和相关度均能有效地提高文档摘要的质量。 展开更多
关键词 自动摘要 句子特征抽取 相关度
下载PDF
一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA 被引量:10
14
作者 刘德喜 何炎祥 +1 位作者 姬东鸿 杨华 《中文信息学报》 CSCD 北大核心 2006年第6期46-53,共8页
SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法... SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余。另外,为了提高词频计算的精度,SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中。在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%。改进的词频计算方法TFS对提高文档质量也起到了良好的作用。 展开更多
关键词 计算机应用 中文信息处理 多文档自动摘要 演化算法 句子抽取 评价函数 TFS
下载PDF
OA中文文献自动摘要系统 被引量:26
15
作者 王永成 许慧敏 《情报学报》 CSSCI 北大核心 1997年第2期128-132,共5页
本文概括地介绍了研究与开发中文文献自动摘要系统的必要性、突破口的选择、发展进化的简史。
关键词 中文文献 自动摘要系统 计算机应用 文摘
下载PDF
基于高质量信息提取的微博自动摘要 被引量:7
16
作者 彭敏 高斌龙 +1 位作者 黄济民 刘纪平 《计算机工程》 CAS CSCD 北大核心 2015年第7期36-42,共7页
是获取微博平台关键信息的一种重要手段。现有面向微博的自动摘要方法较关注文本集合中句子或者关键词的提取,而在去除冗余信息、内容噪声方面缺乏有效手段,导致提取的微博内容质量不高。为解决该问题,以微博平台为研究对象,提出一种基... 是获取微博平台关键信息的一种重要手段。现有面向微博的自动摘要方法较关注文本集合中句子或者关键词的提取,而在去除冗余信息、内容噪声方面缺乏有效手段,导致提取的微博内容质量不高。为解决该问题,以微博平台为研究对象,提出一种基于时频域转换的信息提取方法,获得与某话题相关度高、冗余度低且信息量大的高质量微博文本,将综合分值较高的微博作为生成摘要的样本集合,并对该样本集合中每条微博的句子进行权重打分,选取权值较高的句子组成微博摘要。实验结果表明,该方法能够有效过滤冗余信息和内容噪声,基于自动评测和人工评测的摘要结果均优于现有自动摘要方法。 展开更多
关键词 微博自动摘要 冗余去除 信息提取 自动评测 人工评测
下载PDF
基于词句协同排序的单文档自动摘要算法 被引量:8
17
作者 张璐 曹杰 +1 位作者 蒲朝仪 伍之昂 《计算机应用》 CSCD 北大核心 2017年第7期2100-2105,共6页
对于节录式自动摘要需要从文档中提取一定数量的重要句子,以生成涵盖原文主旨的短文的问题,提出一种基于词句协同排序的单文档自动摘要算法,将词句关系融入以图排序为基础的句子权重计算过程中。首先给出了算法中词句协同计算的框架;然... 对于节录式自动摘要需要从文档中提取一定数量的重要句子,以生成涵盖原文主旨的短文的问题,提出一种基于词句协同排序的单文档自动摘要算法,将词句关系融入以图排序为基础的句子权重计算过程中。首先给出了算法中词句协同计算的框架;然后转化为简洁的矩阵表示形式,并从理论上证明了收敛性;最后进一步通过去冗余方法提高自动摘要的质量。真实数据集上的实验表明,基于词句协同排序的自动摘要算法较经典的TextRank算法在Rouge指标上提升13%~30%,能够有效提高摘要的生成质量。 展开更多
关键词 自动摘要 节录式摘要 单文档 图排序 词句协同
下载PDF
Internet网络信息自动摘要的研究 被引量:18
18
作者 陈桂林 王永成 《高技术通讯》 EI CAS CSCD 1999年第2期33-36,共4页
针对Internet网络信息的基本特征,提出了一套新的自动摘要方案:首先根据标识符的不同赋予相应文本字串不同的权值,在文本字串长度大于一定阈值的情况下,对中英文字串采用不同方式调整权值,然后根据权值大小挑选字串,生成... 针对Internet网络信息的基本特征,提出了一套新的自动摘要方案:首先根据标识符的不同赋予相应文本字串不同的权值,在文本字串长度大于一定阈值的情况下,对中英文字串采用不同方式调整权值,然后根据权值大小挑选字串,生成文字流畅且具备一定质量的自动摘要。 展开更多
关键词 自动摘要 互联网 网络信息 信息 检索
下载PDF
一种特定领域中文自动摘要系统 被引量:5
19
作者 李蕾 孙春葵 +1 位作者 杨晓兰 钟义信 《北京邮电大学学报》 EI CAS CSCD 北大核心 2000年第1期6-10,共5页
介绍面向神经网络学习算法这一特定领域的理解型中文自动摘要系统 Ladies的研究与实现 ,着重分析它不同于其它摘要系统的创新特色及其设计思想 。
关键词 自然语言处理 自动摘要系统 中文 神经网络
下载PDF
一种基于文本关系图的多文档自动摘要技术 被引量:7
20
作者 马慧芳 祁云平 杨小东 《情报杂志》 CSSCI 北大核心 2007年第3期67-69,共3页
讨论了一种运用于搜索引擎中的多文档自动摘要技术。传统搜索引擎返回结果繁杂,常用的解决方案是使用聚类技术将内容相似的网页集合归类,然而聚类后的结果数目庞大,依然无法体现该类的主题。提出一种新的基于文本关系图的多文档自动摘... 讨论了一种运用于搜索引擎中的多文档自动摘要技术。传统搜索引擎返回结果繁杂,常用的解决方案是使用聚类技术将内容相似的网页集合归类,然而聚类后的结果数目庞大,依然无法体现该类的主题。提出一种新的基于文本关系图的多文档自动摘要技术,对每类返回结果依主题思想自动提取多文档摘要,提高搜索引擎使用效率。分析了该系统的结构和算法,评价了实验结果,指出了未来的研究方向。 展开更多
关键词 多文档自动摘要 聚类 信息检索 TextTiling算法 文本关系图
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部