期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
基于异构图分层学习的细粒度多文档摘要抽取
1
作者 翁裕源 许柏炎 蔡瑞初 《计算机工程》 CAS CSCD 北大核心 2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过... 抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 展开更多
关键词 抽取式多文档摘要 细粒度建模 异构图 分层学习 语义关系 结构关系
下载PDF
基于谱聚类的多文档摘要新方法 被引量:4
2
作者 林立 胡侠 朱俊彦 《计算机工程》 CAS CSCD 北大核心 2010年第22期64-65,68,共3页
提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果... 提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果表明,该方法相较于传统摘要方法有更好的性能,能够有效地提高摘要的质量。 展开更多
关键词 多文档摘要 谱聚类 信息检索
下载PDF
基于文档语义图的中文多文档摘要生成机制 被引量:6
3
作者 宋锐 林鸿飞 《中文信息学报》 CSCD 北大核心 2009年第3期110-115,共6页
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,... 从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。 展开更多
关键词 计算机应用 中文信息处理 文档语义图 编辑距离 PAGERANK ROUGE 中文多文档摘要
下载PDF
利用维基百科实体增强基于图的多文档摘要 被引量:2
4
作者 陈维政 严睿 +1 位作者 闫宏飞 李晓明 《中文信息学报》 CSCD 北大核心 2016年第2期153-159,共7页
针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivR... 针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。 展开更多
关键词 多文档摘要 维基实体 基于图
下载PDF
基于PV-DM模型的多文档摘要方法 被引量:2
5
作者 刘欣 王波 毛二松 《计算机应用与软件》 CSCD 2016年第10期251-255,278,共6页
当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法... 当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。 展开更多
关键词 语义相似度 PV-DM模型 句子向量 多文档摘要 单调亚模函数
下载PDF
一种面向查询的多文档摘要方法 被引量:1
6
作者 叶娜 蔡东风 《中文信息学报》 CSCD 北大核心 2010年第6期69-74,共6页
面向查询的多文档摘要技术有两个难点:第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向... 面向查询的多文档摘要技术有两个难点:第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向查询的多文档摘要方法,利用主题分析技术识别出当前主题下的子主题,综合考虑句子所在的子主题与查询的相关度以及子主题的重要度两方面因素来选择摘要句,并根据词语在子主题之间的共现信息,在不使用任何外部知识的情况下,进行查询扩展。在DUC2006评测语料上的实验结果表明,与Baseline系统相比,该系统取得了更高的ROUGE评价值,基于子主题的查询扩展方法则进一步提高了摘要的质量。 展开更多
关键词 面向查询 多文档摘要 子主题 相关度 查询扩展
下载PDF
结合LDA和谱聚类的多文档摘要 被引量:8
7
作者 付玲 张晖 《计算机工程与应用》 CSCD 2013年第16期142-145,154,共5页
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率... 自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档摘要。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档摘要。使用ROUGE自动摘要评测工具包对DUC2002数据集评测摘要质量,结果表明,该方法能有效地提高摘要的质量。 展开更多
关键词 LATENT DIRICHLET Allocation (LDA) GIBBS抽样 谱聚类 多文档摘要
下载PDF
一种面向实体的演化式多文档摘要生成方法 被引量:2
8
作者 宋俊 韩啸宇 +2 位作者 黄宇 黄廷磊 付琨 《广西师范大学学报(自然科学版)》 CAS 北大核心 2015年第2期36-41,共6页
本文针对多文档摘要没有考虑实体、仅仅生成通用摘要的问题,提出面向实体的演化式多文档摘要生成方法。本文首先利用一个概率主题模型联合建模文档主题的演化和实体的参与情况,然后结合实体对句子进行评分和选择,针对不同的实体,同一个... 本文针对多文档摘要没有考虑实体、仅仅生成通用摘要的问题,提出面向实体的演化式多文档摘要生成方法。本文首先利用一个概率主题模型联合建模文档主题的演化和实体的参与情况,然后结合实体对句子进行评分和选择,针对不同的实体,同一个句子可能获得不同的评分。此外,本文在真实数据集上进行了大量的实验和分析,实验结果表明,该方法可以面向不同的实体生成关于事件发展的个性化摘要,同时与现有方法相比,该方法还得到了更好的通用摘要。 展开更多
关键词 多文档摘要 概率主题模型 自然语言处理
下载PDF
融合多信息句子图模型的多文档摘要抽取 被引量:2
9
作者 蒋亚芳 严馨 +2 位作者 徐广义 周枫 邓忠莹 《计算机工程与科学》 CSCD 北大核心 2020年第3期535-542,共8页
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和... 针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。 展开更多
关键词 多文档摘要 句子贝叶斯主题模型 词向量 句子图模型 最小支配集
下载PDF
基于仿射传播算法的多文档摘要方法 被引量:3
10
作者 刘晓燕 黄宇 尤红建 《国外电子测量技术》 2014年第8期29-33,共5页
大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类... 大多现行的基于聚类的多文档摘要方法存在对聚类算法初始设置敏感的问题。针对上述问题,提出了一种基于仿射传播(affinity propagation,AP)算法的中文多文档摘要方法。AP算法无需选择聚类初始点,在迭代的过程中自动确定聚类中心与聚类个数。解决了余弦相似矩阵与AP算法输入不匹配的问题。使用类MMR算法对类内中心句进行排序并按压缩比抽取句子,对抽取句子并排序最终生成摘要。基于中文语料的实验表明,该方法生成的摘要具有较高的信息覆盖率。 展开更多
关键词 AP算法 多文档摘要 自动文摘 信息获取
下载PDF
基于布谷鸟搜索优化算法的多文档摘要方法 被引量:4
11
作者 周诗源 王英林 《计算机工程》 CAS CSCD 北大核心 2020年第7期58-64,71,共8页
为最大化生成摘要的信息量,提出一种基于布谷鸟搜索(CS)算法与多目标函数的多文档摘要方法。对多文档数据进行预处理,通过句子分割、分词、移除停用词和词干化将文档转化为词语的基本处理形式,计算经数据预处理后的句子信息量得分并将... 为最大化生成摘要的信息量,提出一种基于布谷鸟搜索(CS)算法与多目标函数的多文档摘要方法。对多文档数据进行预处理,通过句子分割、分词、移除停用词和词干化将文档转化为词语的基本处理形式,计算经数据预处理后的句子信息量得分并将其作为CS算法的输入,再基于多目标函数生成包含原始文档重要信息的句子以组成最终的摘要。实验结果表明,与基于粒子群优化算法和双层K最近邻算法的多文档摘要方法相比,该方法在最大化生成摘要信息量的前提下,保证了高可读性和低冗余性,并且在DUC基准数据集上的摘要平均准确度高达0.99。 展开更多
关键词 多文档摘要 布谷鸟搜索算法 数据预处理 多目标函数 信息量
下载PDF
基于局部话题句群的事件相关多文档摘要研究 被引量:2
12
作者 吴玲达 雷震 +1 位作者 老松杨 雷永林 《计算机仿真》 CSCD 2006年第11期263-267,共5页
多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于... 多文档自动文摘研究的目的是给用户提供简洁全面的文档信息并提高用户获取信息的效率。在进行局部话题确定时,通常是利用聚类分析的方法把相似的文本单元聚成一个局部话题。该文提出了一种针对新闻事件的多文档摘要生成方法,其特色在于:在提取基本新闻要素和扩展新闻要素的基础上分别形成了基本局部话题句群(BPTSG)和扩展局部话题句群(EPTSG),这样可以在尽可能全面地覆盖多个话题的同时缩减自身的冗余。此外,文中还提出了一种基于事件时间和句子位置信息的文摘句排序方法。实验结果验证了该文所提的方法是有效的,与基于聚类的自动文摘系统相比较,该系统生成的摘要质量有显著提高。 展开更多
关键词 多文档自动摘要 新闻事件 局部话题句群 新闻要素
下载PDF
基于hLDA主题模型的多文档摘要句子打分算法研究 被引量:1
13
作者 于佳 《河南科技》 2013年第11X期273-274,共2页
多文档摘要技术在自然语言处理领域得到越来越广泛的关注,层次潜在狄利克雷分配(以下简称hLDA)在层次主题建模中的良好效果已经得到验证,本文以hLDA模型结构中的节点作为重点研究对象,研究基于hLDA主题模型的句子打分方法,为多文档摘要... 多文档摘要技术在自然语言处理领域得到越来越广泛的关注,层次潜在狄利克雷分配(以下简称hLDA)在层次主题建模中的良好效果已经得到验证,本文以hLDA模型结构中的节点作为重点研究对象,研究基于hLDA主题模型的句子打分方法,为多文档摘要的句子抽取提供有力依据。 展开更多
关键词 多文档摘要 句子打分 hLDA(层次潜在狄利克雷分配) 节点
下载PDF
基于多粒度语义交互的抽取式多文档摘要 被引量:1
14
作者 田媛 郝文宁 +2 位作者 陈刚 靳大尉 邹傲 《计算机系统应用》 2022年第7期186-193,共8页
信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容... 信息爆炸是信息化时代面临的普遍性问题,为了从海量文本数据中快速提取出有价值的信息,自动摘要技术成为自然语言处理(natural language processing,NLP)领域中的研究重点.多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容,帮助用户快速获取关键信息.针对目前多文档摘要中存在的信息不全面、冗余度高的问题,提出一种基于多粒度语义交互的抽取式摘要方法,将多粒度语义交互网络与最大边界相关法(maximal marginal relevance,MMR)相结合,通过不同粒度的语义交互训练句子的表示,捕获不同粒度的关键信息,从而保证摘要信息的全面性;同时结合改进的MMR以保证摘要信息的低冗余度,通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取.在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型. 展开更多
关键词 多文档摘要 抽取式 多粒度语义交互 MMR 排序学习
下载PDF
多文档摘要研究综述
15
作者 宝日彤 孙海春 《数据分析与知识发现》 EI CSCD 北大核心 2024年第2期17-32,共16页
【目的】调研和梳理相关文献,总结多文档摘要研究框架和主流模型。【文献范围】以“Multi-Document Summarization”、“多文档摘要”为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献。【方法... 【目的】调研和梳理相关文献,总结多文档摘要研究框架和主流模型。【文献范围】以“Multi-Document Summarization”、“多文档摘要”为检索词,分别在AI Open Index、Paper with Code和CNKI数据库中进行检索,共筛选出76篇文献。【方法】归纳多文档摘要技术实现的主流框架,依据关键技术对近年最新模型和算法进行分类概述,并对未来研究提出展望。【结果】对比阐述了多文档摘要最新模型与传统方法的优缺点,并对高质量多文档摘要数据集、现阶段评价指标进行总结。【局限】在实验结果对比部分,只讨论了Multi-News等数据集上部分应用较为广泛模型的评估结果,缺乏全部模型在同一数据集上的实验结果对比。【结论】多文档摘要任务仍存在很多亟待解决的问题,如生成摘要的事实性不高、摘要模型的通用性差等。 展开更多
关键词 多文档摘要 文本摘要 内容选择 Transformer模型 预训练模型
原文传递
基于LDA重要主题的多文档自动摘要算法 被引量:11
16
作者 刘娜 路莹 +1 位作者 唐晓君 李明霞 《计算机科学与探索》 CSCD 北大核心 2015年第2期242-248,共7页
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建... 提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。 展开更多
关键词 多文档摘要 主题模型 重要主题
下载PDF
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
17
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 潜在狄利克雷分布模型 主观句子 情感分析 多文档摘要
下载PDF
一种集成框架下的分布式多文档自动摘要方法 被引量:3
18
作者 罗毅辉 熊曙初 《情报杂志》 CSSCI 北大核心 2013年第11期133-136,132,共5页
提出一种集成框架下的分布式多文档自动摘要方法,该方法克服了现有集中式多文档摘要集成方法的缺陷,能够对分布在不同网络节点上的文档摘要系统的文本摘要结果进行集成,更适合因特网环境下的多文档摘要任务。实验结果表明,该方法相对于... 提出一种集成框架下的分布式多文档自动摘要方法,该方法克服了现有集中式多文档摘要集成方法的缺陷,能够对分布在不同网络节点上的文档摘要系统的文本摘要结果进行集成,更适合因特网环境下的多文档摘要任务。实验结果表明,该方法相对于传统摘要方法有更好的性能,能够有效地提高文本摘要的质量,与集中式多文档摘要集成方法性能相当。 展开更多
关键词 多文档摘要 集成方法 分布式 0-1整数规划
下载PDF
自适应主题融合的多文档自动摘要算法
19
作者 刘娜 肖智博 +2 位作者 路莹 唐晓君 肖鹏 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第S2期205-209,共5页
在LDA主题模型的基础上,提出自适应主题融合的多文档自动摘要算法。考虑到标题信息对摘要形成有很强的指示作用,为文档的标题和正文内容分别建立主题模型,并对2个模型进行融合。融合过程中,根据2种形态的信息熵进行自适应不对称学习,从... 在LDA主题模型的基础上,提出自适应主题融合的多文档自动摘要算法。考虑到标题信息对摘要形成有很强的指示作用,为文档的标题和正文内容分别建立主题模型,并对2个模型进行融合。融合过程中,根据2种形态的信息熵进行自适应不对称学习,从而对不同形态的主题分布进行加权处理。融合后的模型适当地关联了标题和正文的信息,因此能够有助于摘要质量的提高。实验结果表明:自适应主题融合的多文档自动摘要算法在DUC2002标准数据集上取得了较好的效果。 展开更多
关键词 多文档摘要 主题模型 自适应学习 信息熵
下载PDF
基于事件指导的多文档生成式摘要方法 被引量:6
20
作者 王振超 孙锐 姬东鸿 《计算机应用研究》 CSCD 北大核心 2017年第2期343-346,356,共5页
建立在理解篇章语义基础之上的生成式摘要,在思想上相对于抽取式摘要更加合理,但在具体实现上却面临语义理解、自然语言生成等难题。提出了一种以事件作为基本语义单元的生成式摘要方法,通过对事件聚类反映篇章的主题分布,并利用事件指... 建立在理解篇章语义基础之上的生成式摘要,在思想上相对于抽取式摘要更加合理,但在具体实现上却面临语义理解、自然语言生成等难题。提出了一种以事件作为基本语义单元的生成式摘要方法,通过对事件聚类反映篇章的主题分布,并利用事件指导多语句压缩生成自然语句构建摘要。通过在DUC标准数据集上进行评测,最终的ROUGE得分媲美目前主流的生成式方法,从而说明事件能够很好地承载篇章的主干信息,同时有效地指导多语句压缩过程中冗余信息的去除和自然语言的生成。 展开更多
关键词 事件 生成式 组合语义 子主题 多语句压缩 多文档摘要
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部