-
题名一种提高SVM分类速度的新方法
- 1
-
-
作者
任逸卿
朱昌杰
吴波
-
机构
淮北师范大学计算机科学与技术学院
-
出处
《淮北师范大学学报(自然科学版)》
CAS
2012年第4期68-70,共3页
-
基金
安徽省高等学校省级自然科学重点项目(KJ2010A298)
-
文摘
提出一种改进的支持向量机分类方法.通过引入分类圆心、分类半径、分类圆心距等概念,从而更加快速准确地删除非支持向量点,引入混淆度的概念,解决如何在样本严重混淆时进行剔除混淆点,保证算法的泛化性.实验证明,采用这种改进的算法能够在严重混淆的训练样本中保证准确度的同时提高支持向量机分类速度.
-
关键词
支持向量机
分类圆心
分类半径
分类圆心距
混淆度
-
Keywords
support vector machine
class-centroid
class-radius
class-centroid-distance
confusion degree
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名文本分类技术探究
被引量:1
- 2
-
-
作者
吴波
朱昌杰
任逸卿
-
机构
淮北师范大学计算机科学与技术学院
-
出处
《宿州学院学报》
2012年第5期19-23,共5页
-
基金
安徽省高等学校省级自然科学重点项目"数据挖掘与知识发现在乳腺癌辅助诊断和治疗中的研究"(KJ2009A090)
安徽省高等学校省级自然科学重点项目"基于数据挖掘技术的癌症患者生存期与癌症复发预测的共性研究"(KJ2010A298)
-
文摘
首先阐述了文本分类的现状和定义,概述了文本分类的基本流程,然后对文本预处理过程中的分词和去停用词作了简要介绍。在简述文本表示的概念和常用模型之后,重点讨论了信息增益、文档频率、期望交叉熵、互信息和chi统计五种用于特征降维的特征选择方法,而后描述了Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)和决策树分类算法的基本指导思想,并从分类性能及其各自复杂度等方面分析比较了这几种算法的优缺点,最后评述了查全率、查准率和F-Measure三种常用的分类器性能评价指标。
-
关键词
文本分类
文本预处理
分词
特征选择
分类算法
-
分类号
R289
[医药卫生—方剂学]
-