-
题名一种基于C4.5决策树算法的Web页面分类算法
被引量:1
- 1
-
-
作者
吕琳
刘培玉
-
机构
山东师范大学信息科学与工程学院
-
出处
《山东师范大学学报(自然科学版)》
CAS
2015年第2期20-23,共4页
-
基金
国家自然科学基金资助项目(61373148)
国家社科基金资助项目(12BXW040)
+4 种基金
教育部人文社科基金资助项目(14YJC860042)
山东省自然科学基金资助项目(ZR2012FM038,ZR2014FLOIO)
山东省优秀中青年科学家奖励基金资助项目(BS2013DX033)
山东省高等学校科技计划项目(J12LN21)
山东省社科规划项目(12BXWJ01).
-
文摘
页面分类是Web信息处理的一个基础性问题,而页面分类算法是页面分类中设计实现分类器的理论基础.在页面分类算法领域,目前最典型的分类算法包括决策树算法、贝叶斯算法、KNN算法等.笔者讨论了这几种典型的分类算法的理论基础,分析了每个算法的优缺点,最后,笔者给出了一种基于C4.5算法的Web页面分类器的实现过程.
-
关键词
web页面分类
决策树
C4.5
-
Keywords
web page classification
decision tree
C4.5
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于半监督学习的Web页面内容分类技术研究
被引量:1
- 2
-
-
作者
赵夫群
-
机构
西北大学可视化研究所
咸阳师范学院
-
出处
《现代电子技术》
北大核心
2016年第1期108-112,117,共6页
-
基金
咸阳师范学院专项科研计划项目:基于人工智能的三维油藏数据处理研究(07XSYK224)
陕西省教育厅专项科研计划项目:信息化环境下关中方言的保护与传承(12JK0212)
-
文摘
针对如何使用标记和未标记数据进行Web分类这一关键性问题,探索一种生成模型和判别模型相互结合的分类器,在无标记训练集中采用最大似然估计,构造一种具有良好分类性能的半监督分类器。利用狄利克雷-多项式混合分布对文本进行建模,提出了适用于半监督学习的混合模型。针对半监督学习的EM算法收敛速度过快,容易陷入局部最优的难题,引入两种智能优化的方法——模拟退火算法和遗传算法进行分析和处理,结合这两种算法形成一种新型智能的半监督分类算法,并且验证了该算法的可行性。
-
关键词
web页面内容分类
半监督学习
半监督分类
智能优化
Dirichlet分布
-
Keywords
web page content classification
semi-supervised learning
semi-supervised classification
intelligent optimization
Dirichlet distribution
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-