一种新的融合BM25与文本特征的新闻摘要算法被引量：9

A Novel News Summary Algorithm Combining BM25 and Text Features

下载PDF

导出

摘要提出一种融合BM25与文本特征的新闻摘要算法。首先使用BM25算法计算TextRank算法中的句子相似度,其次选择词频和句子位置作为文本特征,最后将文本特征的评分与TextRank的评分相加作为文本中句子的评分,对所有的句子按照评分降序排列,选择评分最高的几个句子作为摘要。使用ROUGE工具在NLPCC2015数据集上进行测试,结果表明该方法有较好的效果。 This paper presents a news summary algorithm that combines BM25 and text features.Firstly,we use the BM25 algorithm to calculate the sentence similarity in the TextRank algorithm,then select the word frequency and sentence position as the text features,and take the text feature score and the TextRank score as the final score of the sentence in the text.Finally,we sort all the sentences in descending order according to the final score,and select the sentences with the highest scores as the news summary.The test results on the dataset of NLPCC2015 using ROUGE tools show that this method has a better performance.

作者李楠陶宏才 LI Nan;TAO Hong-cai(School of Information Science ＆ Technology, Southwest Jiaotong University, Chengdu 611756,China)

机构地区西南交通大学信息科学与技术学院

出处《成都信息工程大学学报》 2018年第2期113-118,共6页 Journal of Chengdu University of Information Technology

基金国家自然科学基金资助项目(61505168)

关键词 BM25 TextRank 词频图排序 ROUGE BM25 TextRank word frequency graph sort ROUGE

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王子璇,乐小虬,何远标.基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J].数据分析与知识发现,2017,1(4):1-8. 被引量：12
2张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18
3孙师尧,妙全兴.基于改进SVM和HMM的文本信息抽取算法[J].计算机应用与软件,2015,32(11):281-284. 被引量：6

二级参考文献31

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
3谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
4Ganapathiraju A, Hamaker JE, Picone J. Applications of support vec- tor machines to speech recognition[ J]. IEEE Trans. on Signal Process- ing, 2004,52(8 ) :2348 -2355.
5Grishman R. Information extraction:Techniques and challenges [ M/ OL]. New Yol"k: New York University Press, 1997. Retrieved on A- pill 13, 2013, from http://link, springer, corn/chapter/10. 1007% 2F3-540-63438-X_2. DOI: 10. 1007/3-540-63438-x_2.
6Hobbs J R. Information Extraction from Biomedical Text [ J ]. Journal of Biomedical lnformatics ,2002,35 (4) :260 - 264.
7Scheffer T, Decomain C, Wrobel S. Active Hidden Markov Models for Information Extraction [ J ]. The Locture Notes in Computer Science, 2001:309 -318.
8Freitag D, MeCallum A, Pereira F. Maximum Entropy Markov Models for Information Extraction and Segmentation[ C ]//Proceedings of IC- ML-2000:591 - 598.
9Riloff E, Jones R. Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping [ C ]//Proceedings of the Sixteenth National Conference on Artificial Intelligence, 1999:811 - 816.
10Mikle D M, Miller S, Schwartz R. Nymble: a high-performance learn- ing name-finder[ C ]//Preeeedings of ANLP-97. 1997 : 194 - 201.

共引文献33

1杨清泉,李卫疆.基于文摘的SLDA主题模型[J].价值工程,2016,35(19):231-234.
2刘昆.机器学习算法在文本信息挖掘中的应用[J].网络安全技术与应用,2016(11):77-77. 被引量：3
3曾军,周国富.基于机器学习的多语言文本抽取系统实现[J].计算机应用与软件,2017,34(4):87-92. 被引量：4
4陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：76
5徐建忠,朱俊,赵瑞,张亮,李娇娇.基于CRF算法的航天命名实体识别[J].电子设计工程,2017,25(20):42-46. 被引量：3
6王琦,霍纬纲.利用博客链接平台选取联合关键字的博客聚类方法[J].计算机应用研究,2017,34(12):3560-3563. 被引量：2
7喻鑫,张矩,邱武松,王飞.基于序列标注算法比较的医学文献风险事件抽取研究[J].计算机应用与软件,2017,34(12):58-63. 被引量：6
8齐国顺,尚方,韩冰,王孝余.电子公文分级助手的研制和应用[J].电力信息与通信技术,2018,16(4):34-39. 被引量：1
9朱必熙.基于TextRank的单文本关键字提取算法[J].兰州工业学院学报,2018,25(3):58-61.
10邱先标,陈笑蓉.一种基于SA＿LDA模型的文本相似度计算方法[J].计算机科学,2018,45(B06):106-109. 被引量：4

同被引文献65

1胡媛敏,张寿明.基于信息论的TF-IDF算法在文本分类中的应用研究[J].中国水运（下半月）,2021,21(12):31-33. 被引量：6
2严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
3王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
4唐一之.基于知网的领域概念抽取与关系分析研究[J].湘潭大学自然科学学报,2009,31(1):135-140. 被引量：6
5刘石,李合,王啸吟,张路,谢冰.基于语法与语义分析的代码搜索结果优化[J].计算机科学,2009,36(8):165-168. 被引量：6
6张玉芳,朱俊,熊忠阳.改进的概率潜在语义分析下的文本聚类算法[J].计算机应用,2011,31(3):674-676. 被引量：14
7黄丽韶.基于语法结构的源代码搜索的研究[J].电脑与电信,2013(5):30-33. 被引量：4
8高原,刘辉,樊孝忠,牛振东.基于代码库和特征匹配的函数名称推荐方法[J].软件学报,2015,26(12):3062-3074. 被引量：7
9李峰,黄金柱,李舟军,杨伟铭.使用关键词扩展的新闻文本自动摘要方法[J].计算机科学与探索,2016,10(3):372-380. 被引量：14
10林泽琦,赵俊峰,谢冰.一种基于图数据库的代码结构解析与搜索方法[J].计算机研究与发展,2016,53(3):531-540. 被引量：8

引证文献9

1闫鑫,周宇,黄志球.基于序列到序列模型的代码片段推荐[J].计算机科学与探索,2020,14(5):731-739. 被引量：4
2王青松,张衡,李菲.基于文本多维度特征的自动摘要生成方法[J].计算机工程,2020,46(9):110-116. 被引量：6
3魏敏,张丽萍.代码搜索方法研究进展[J].计算机应用研究,2021,38(11):3215-3221. 被引量：4
4鲍治国,王海安,胡士伟,马西锋.基于内容相似度的相关性评分算法对比分析研究[J].电子测试,2022,36(19):52-55. 被引量：1
5邓斯元,魏乐,舒红平.基于SBERT模型的代码片段推荐[J].计算机应用研究,2022,39(12):3730-3735.
6徐飞,彭佳佳,刘军,杨博.基于多特征融合的TextRank新闻自动摘要模型[J].计算机系统应用,2023,32(2):242-249.
7贺晓琳.基于文本语义分类的广播电视自动化分类系统设计[J].电视技术,2023,47(1):27-29.
8陈乐,王超群,邹全,王丹,朱喜楠.基于综合相似度的短文本匹配算法研究[J].软件导刊,2023,22(7):71-78. 被引量：3
9王怡茹,郑建立,周浩然.基于PubMedBERT预训练模型的医学术语对齐方法研究[J].软件工程,2023,26(11):39-42.

二级引证文献17

1朱玉佳,祝永志,董兆安.基于TextRank算法的联合打分文本摘要生成[J].通信技术,2021,54(2):323-326. 被引量：9
2史志成,周宇.代码特征自动提取方法[J].计算机科学与探索,2021,15(3):456-467. 被引量：7
3魏敏,张丽萍.代码搜索方法研究进展[J].计算机应用研究,2021,38(11):3215-3221. 被引量：4
4邓涵兮,陈志华.基于网络评论的美食推荐系统[J].中国传媒科技,2022(3):39-41.
5郭雨欣,陈秀宏.融合BERT词嵌入表示和主题信息增强的自动摘要模型[J].计算机科学,2022,49(6):313-318. 被引量：3
6许秀霓.基于二分类模型的电子档案管理技术研究[J].微型电脑应用,2022,38(5):159-163.
7黄伟强,刘海,梁韬文,杨海华.针对在线教育情感分析的数据扩充研究[J].网络安全与数据治理,2022,41(7):93-100.
8邓斯元,魏乐,舒红平.基于SBERT模型的代码片段推荐[J].计算机应用研究,2022,39(12):3730-3735.
9孙雪凯,蒋烈辉.一种基于神经网络的代码嵌入方法[J].计算机科学,2023,50(5):64-71.
10翁裕源,许柏炎,蔡瑞初.基于异构图分层学习的细粒度多文档摘要抽取[J].计算机工程,2024,50(3):336-344.

1陆娜,周鹏程,武川.新闻文档实体重要性排序研究[J].图书情报工作,2018,62(11):97-102. 被引量：1
2张波飞,李成城.基于LDA与TextRank结合的多文档自动摘要研究[J].软件导刊,2018,17(4):13-15. 被引量：3
3张芳芳,曹兴超.基于字面和语义相关性匹配的智能篇章排序[J].山东大学学报（理学版）,2018,53(3):46-53. 被引量：3
4刘洪德.移动式测斜仪在监测滑坡位移中的应用[J].科学技术创新,2018(1):110-111. 被引量：1
5萧德辉.贵金属分析专题讨论会[J].贵金属,1983,7(4):11-11.

成都信息工程大学学报

2018年第2期

浏览历史

内容加载中请稍等...

一种新的融合BM25与文本特征的新闻摘要算法被引量：9

参考文献3

二级参考文献31

共引文献33

同被引文献65

引证文献9

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种新的融合BM25与文本特征的新闻摘要算法 被引量：9

参考文献3

二级参考文献31

共引文献33

同被引文献65

引证文献9

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

一种新的融合BM25与文本特征的新闻摘要算法被引量：9