-
题名基于支持向量机的搜索引擎垃圾网页检测研究
被引量:5
- 1
-
-
作者
贾志洋
李伟伟
高炜
夏幼明
-
机构
云南大学旅游文化学院
宁德职业技术学院计算机科学系
云南师范大学信息学院
-
出处
《云南民族大学学报(自然科学版)》
CAS
2011年第3期173-176,共4页
-
基金
国家自然科学基金(60903131)
云南省教育厅科学研究基金(2010Y108)
-
文摘
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器.
-
关键词
垃圾网页
垃圾网页检测
机器学习
网页分类
支持向量机
-
Keywords
web spam
web spare detection
machine learning
web page classification
support vector machine
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于链接相似度和作弊系数的Spam网页识别算法
- 2
-
-
作者
陆钊
李石君
-
机构
玉林师范学院计算机科学与工程学院
武汉大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2015年第10期1983-1988,共6页
-
基金
国家自然科学基金资助项目(61272109)
广西高校科学技术研究资助项目(KY2015LX300
+2 种基金
KY2015YB241
2013LX112)
广西高校优秀青年骨干教师国内访问学者计划资助项目
-
文摘
Spam网页主要通过链接作弊手段达到提高搜索排名而获利的目的,根据链接作弊的特征,引入链接相似度和作弊系数两个指标来判定网页作弊的可能性。借鉴BadRank算法思想,从Spam网页种子集合通过迭代计算链接相似度和作弊系数,并根据与种子集合的链接指向关系设置权重,将待判定的网页进行度量。最后选取Anti-Trust Rank等算法作对比实验,结果验证了本文算法在准确率和适应性方面优于对比算法。
-
关键词
Spam网页
链接作弊
链接相似度
作弊系数
权重系数
-
Keywords
spare page
spare link
link similarity
spare rate
weight coefficient
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-