期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于TF-IDF-MP算法的新闻关键词提取研究 被引量:6
1
作者 曹义亲 盛武平 周会祥 《华东交通大学学报》 2021年第1期122-130,共9页
TF-IDF算法使用词频和逆文档频率来判断文章中词语的重要性,但类别区分效果不是很好。为提高分类效果,提出TF-IDF-MP算法。首先对语料库中的文档进行段落标注,利用jieba分词工具分词并标注词性,然后根据特征词在单个文档中出现的次数与... TF-IDF算法使用词频和逆文档频率来判断文章中词语的重要性,但类别区分效果不是很好。为提高分类效果,提出TF-IDF-MP算法。首先对语料库中的文档进行段落标注,利用jieba分词工具分词并标注词性,然后根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较,采用改进后的Sigmoid函数调整特征词权值,同时根据相关文档的段落位置重要程度赋予不同的位置权重,根据特征词权重大小排序后用朴素贝叶斯分类器对文档进行分类。实验结果表明,TF-IDF-MP算法应用到新闻分类中,精确率、召回率和F1值等评价指标较TF-IDF及相关改进算法都得到较好的提升。 展开更多
关键词 文本分类 关键词提取 TF-IDF 词频均值化 位置加权
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部