-
题名改进的TF-IDF中文本特征词加权算法研究
被引量:10
- 1
-
-
作者
申剑博
-
机构
西安工程大学计算机与信息学院
-
出处
《软件导刊》
2015年第4期67-69,共3页
-
文摘
在自动文本分类中,TF-IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF-DFI-DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF-IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。
-
关键词
文本分类
TF-IDF算法
特征词权重
特征词分布
宏平均值
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种改进的TF-IDF文本分类算法
被引量:8
- 2
-
-
作者
唐钰
唐加山
-
机构
南京邮电大学通信与信息工程学院
南京邮电大学理学院
-
出处
《信息技术与信息化》
2022年第3期13-16,共4页
-
文摘
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果。新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文档有较好的区分度的类,进而结合贝叶斯算法完成新闻分类。仿真实验结果表明,新算法在精确率、召回率以及调和平均值上都有所提升。因此,结合类间权重值的影响的考虑对TF-IDF算法进行改进,在文本分类上具有较好的分类效果。
-
关键词
TF-IDF算法
贝叶斯网络
特征词分布
文本分类
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-