-
题名K-近邻法的文本分类算法分析与改进
被引量:5
- 1
-
-
作者
于一
-
机构
中北大学电子与计算机科学技术学院
-
出处
《火力与指挥控制》
CSCD
北大核心
2008年第4期143-145,共3页
-
文摘
文本自动分类的相关技术是数据挖掘的一个分枝,K-近邻法是常用的文本分类算法之一。在研究K-近邻法的基础上,根据其使用情况分析了K-近邻法的不足之处,在满足一定的判定函数前提下,提出改进后的K-近邻法。改进后的K-近邻法避免了K值的搜寻过程,降低了计算复杂性,提高计算效率。最后通过实验证明了改进K-近邻法的有效性。
-
关键词
文本分类
K-近邻法
改进
怀卡托智能分析系统
有效性
-
Keywords
text sorting, K-Nearest neighbor method, improvement, weka, effectiveness
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名决策树分类的属性选择方法的研究
被引量:17
- 2
-
-
作者
王会青
陈俊杰
侯晓晶
郭凯
-
机构
太原理工大学计算机科学与技术学院
-
出处
《太原理工大学学报》
CAS
北大核心
2011年第4期346-348,352,共4页
-
基金
国家自然科学基金(60970059)
国家科技支撑计划基金(2009BAH42B02)
-
文摘
针对ID3算法偏向于选择取值较多的属性作为测试属性的缺点,引入OneR算法选择属性的相关子集进行分类,降低无关属性和重复属性对分类的影响。实验结果表明,与ID3算法相比优化后的方案提高了ID3算法的分类准确率,降低了分类时间,同时克服了ID3算法的取值偏置问题,优化了分类结果。
-
关键词
决策树
ID3算法
属性选择
怀卡托智能分析环境(WEKA)系统
-
Keywords
decision tree
ID3 algorithm
attributes selection
Waikato Environment for Knowledge Analysis (WEKA) system
-
分类号
TD301.6
[矿业工程—矿井建设]
-
-
题名基于推进的非平衡数据分类算法研究
- 3
-
-
作者
潘俊
李宏
李博
-
机构
中南大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第25期138-140,156,共4页
-
文摘
在现实世界的数据分类应用中,通常会遇到数据不平衡的问题,即数据中一类数据的数量要大于另一类数据的数量。在目前针对非平衡数据的分类问题的解决方案中,推进算法因其能通过多次迭代提高少数类的分类指标来提高分类器的整体性能而有着较好的应用前景。从分析非平衡数据分类性能差的原因入手,通过抑制过度拟合与对少数类的F度量的控制对经典推进算法进行改进,提出了一种改进算法RIFBoost,然后将算法在WEKA系统上与几个传统的分类算法进行了比较。实验结果表明,RIFBoost算法在保留整体精度的同时对少数类的F度量的性能有了一定的提高。
-
关键词
非平衡数据
推进算法
怀卡托智能分析环境(WEKA)系统
F度量
-
Keywords
imbalanced data
boosting algorithm
Waikato Environment for Knowledge Analysis(WEKA) system
F-measure
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-