-
题名面向长文本的抽取式摘要生成方法
- 1
-
-
作者
全安坤
李红莲
-
机构
北京信息科技大学信息与通信工程学院
-
出处
《电脑知识与技术》
2023年第20期8-12,16,共6页
-
基金
北京信息科技大学“勤信人才”培育计划基金项目(项目编号:QXTCP B201908)。
-
文摘
为了缓解自动文本摘要技术在长文本上效果不理想的问题,提出了一种面向长文本的抽取式摘要生成方法。首先,使用WoBERT模型获取融入义原信息的文本特征,并利用句子间的余弦相似度代替TextRank中边的权重进行迭代运算,得到句子的TextRank分数,其次利用LDA主题模型获取文章的主题关键词,根据句子中关键词出现频次得到句子的关键词得分,然后将句子的TextRank分数与关键词分数进行加权求和,得到的值应用于MMR算法进行冗余信息处理,最终抽取每篇文章中MMR值较高的3个句子组合成摘要。实验结果表明,所提方法与当前主流模型相比,生成的摘要质量有所提升。
-
关键词
长文本
抽取式摘要
主题关键词
义原
冗余信息处理
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合内容和图片特征的中文摘要生成方法研究
被引量:1
- 2
-
-
作者
全安坤
李红莲
张乐
吕学强
-
机构
北京信息科技大学信息与通信工程学院
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《数据分析与知识发现》
EI
CSCD
北大核心
2024年第3期110-119,共10页
-
基金
国家自然科学基金项目(项目编号:62171043)
北京信息科技大学“勤信人才”培育计划基金项目(项目编号:QXTCP B201908)的研究成果之一。
-
文摘
【目的】为解决现有根据单一文本特征生成的中文摘要质量不佳问题,提出一种融合内容和图片特征的中文摘要生成方法。【方法】使用BERT提取文本特征,使用ResNet提取图片特征,该特征能够对文本特征进行补充与验证,并利用注意力机制将两种模态特征进行融合,最终将融合后的特征送入指针生成网络模型进一步生成质量更高的中文摘要。【结果】实验结果表明,所提方法相较于仅使用单一文本模态生成中文摘要的方法,在ROUGE-1、ROUGE-2和ROUGE-L指标上分别有1.9、1.3和1.4个百分点的提升。【局限】实验数据主要来源于新闻领域,在其他领域中的效果有待验证。【结论】加入图片信息能够使融合后的特征保存更多重要信息,帮助模型更好地定位关键内容,使生成的摘要更具有概括性和可读性。
-
关键词
特征融合
BERT
ResNet
注意力机制
摘要生成
-
Keywords
Feature Fusion
BERT
ResNet
Attention Mechanism
Abstract Generation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-