-
题名文本摘要评测方法的语义损失度
- 1
-
-
作者
金独亮
范永胜
张琪
-
机构
重庆师范大学计算机与信息科学学院
-
出处
《计算机与现代化》
2023年第3期84-89,共6页
-
基金
重庆师范大学(人才引进/博士启动)基金资助项目(17XCB008)
教育部人文社会科学研究项目(18XJC880002)
重庆市教育委员会科技项目(KJQN201800539)。
-
文摘
自动生成领域,传统的ROUGE评测方法已多次被研究者发现其评测结果与人工评测结果差距过大,但该差距尚未数值化,无法丈量。基于此现状,本文采用多个不同类型、长度的公开中文摘要数据集,通过定义语义损失率计算方法来衡量ROUGE在评价时所产生的语义损失程度,同时综合考虑摘要长度以及数据集内在因素对生成摘要评价的影响,最终可视化ROUGE评测与人工评测存在误差的具体数值。实验结果表明,ROUGE评测分数与人工评测分数呈弱相关性,ROUGE方法对不同长度的数据集都存在一定程度的语义损失,同时摘要长度和数据集的原始标注误差也会对最终的评测分数产生重要影响。本文定义的语义损失率计算方法可以为更好地选择数据集和评测方法提供一定的参考依据,为改进评测方法提供一定的思路方向,同时也对最终客观测评模型的有效性提供一定的指导帮助。
-
关键词
文本摘要
评测方法
语义损失率
数据集偏差
-
Keywords
text summarization
evaluation method
semantic-loss rate
dataset bias
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于MMR和WordNet的新闻文本摘要生成研究
- 2
-
-
作者
张琪
范永胜
金独亮
-
机构
重庆师范大学计算机与信息科学学院
-
出处
《西南师范大学学报(自然科学版)》
CAS
2023年第5期77-86,共10页
-
基金
重庆师范大学(人才引进/博士启动)基金项目(17XCB008)
教育部人文社会科学研究项目(18XJC880002)
重庆市教育委员会科技项目(KJQN201800539).
-
文摘
针对新闻文本摘要提取过程中,传统抽取式算法存在对文本内容概括不全面、摘要内容冗余、关键词提取时未考虑异词同义等问题,提出了一种基于最大边界相关算法(MMR)和词汇语义网(WordNet)的新闻文本摘要生成算法--WMMR.该算法综合考虑文本相似度、关键词、句子位置信息、线索词等特征对句子权重的影响,从而优化MMR算法中的句子得分,并在计算关键词得分时引入WordNet合并同义词.在NLPCC2017公开数据集上验证本文算法的有效性,结果表明WMMR算法的ROUGE值相较于TextRank算法提升4个百分点,相较于MMR算法提升7个百分点.在神策杯2018与SogouCS公开数据集上验证本文算法的普适性,结果表明WMMR算法的ROUGE值相较于传统TextRank,MMR等算法均有提升,证明WMMR算法有效提升了生成摘要的质量.
-
关键词
新闻文本摘要
抽取式算法
最大边界相关算法
词汇语义网
异词同义
-
Keywords
news text summarization
extraction algorithm
maximal marginal relevance algorithm
WordNet
synonyms of different words
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-