-
题名一种核心子集选择训练的大规模中文网页分类方法
被引量:3
- 1
-
-
作者
傅向华
刘国
陈冬剑
-
机构
深圳大学计算机与软件学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2011年第8期1608-1612,共5页
-
基金
国家自然科学基金项目(60903114
60973100)资助
+1 种基金
广东省自然科学基金项目(7301329)资助
深圳市科技计划项目(JC201005280463A)资助
-
文摘
针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果.
-
关键词
web网页分类
最小闭包球
支持向量机
-
Keywords
webpage classification
minimum closure ball
support vector machine
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种基于反馈学习机制的支持向量机网页分类方法
- 2
-
-
作者
张琼
封化民
何文才
-
机构
西安电子科技大学通信工程学院
-
出处
《北京电子科技学院学报》
2008年第2期41-45,共5页
-
文摘
本文以SVM分类方法为基础,研究了SVM在网页分类方面的应用并给出了基于KKT条件的反馈机制对SVM方法进行改进的方法。通过对中等规模的Web网页测试实验表明基于KKT(karush—Kuhn—Tucker)条件的反馈学习机制的支持向量机对Web网页分类方法是有效的。
-
关键词
支持向量机(SVM)
web网页分类
反馈学习机制
-
Keywords
SVM
webpage classification
feedback
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种嵌入分布信息的Web文档相似性度量
被引量:1
- 3
-
-
作者
孙春红
杨明
-
机构
南京师范大学数学与计算机科学学院
-
出处
《南京师范大学学报(工程技术版)》
CAS
2008年第3期66-70,76,共6页
-
基金
国家自然科学基金(40771163)资助项目
-
文摘
Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的.
-
关键词
web网页的相似性度量
VSM
分布信息
web网页分类
-
Keywords
similarity measurement of web pages, VSM, distribution information, web page categorization
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于树状SVM的网页分类与信息安全过滤系统研究
- 4
-
-
作者
何文才
张琼
余菲
都婧
焦黎冰
-
机构
西安电子科技大学通信工程学院
-
出处
《网络安全技术与应用》
2008年第8期27-29,共3页
-
文摘
本文提出了一种基于树状SVM进行Web网页分类与信息安全过滤的有效方法。通过对中等规模的Web网页测试实验,表明基于树状SVM的Web网页分类方法是有效的。
-
关键词
支持向量机
文本分类
安全过滤
web网页分类
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-