搜索服务中基于云计算的垃圾网页识别研究

Research on spam pages identification in search service based on cloud computing

导出

摘要为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较高,处理时间随着集群节点数的增加而明显减少. 为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较高,处理时间随着集群节点数的增加而明显减少.

作者李艳平徐雅斌陈俊伊

机构地区北京信息科技大学计算机学院北京信息科技大学网络文化与数字传播北京市重点实验室

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2012年第S1期249-253,共5页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

关键词搜索服务垃圾网页识别支持向量机云计算 HADOOP MAPREDUCE search service spam page identification support vector machines cloud computing Hadoop MapReduce

分类号 N55 [自然科学总论]

引文网络
相关文献

参考文献9

1向小军,高阳,商琳,杨育彬.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011,38(10):184-188. 被引量：35
2罗军舟,金嘉晖,宋爱波,东方.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21. 被引量：823
3李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
4顾亚祥,丁世飞.支持向量机研究进展[J].计算机科学,2011,38(2):14-17. 被引量：118
5李慧,李存华,王霞.一种基于页面内容与关联性的网页排名技术[J].计算机工程与应用,2010,46(25):121-123. 被引量：1
6郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
7卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
8Zhang Tong,Popescul A,Dom B.Linear predictionmodels with graph regularization for web-page cate-gorization. Proc of the 12th ACM SIGKDD In-ternational Conference on Knowledge Discovery andData Mining . 2006
9Dennis Fetterly,Mark Manasse,Marc Najork.Spam, Damn Spam,and Statistics: Using Statistical Analysis to Locate Spam Web Pages. WebDB’’04: Proceedings of the 7th International Workshop on the Web and Databases . 2004

二级参考文献154

1周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
2高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
3卢新国,林亚平,陈治平.一种改进的互信息特征选取预处理算法[J].湖南大学学报（自然科学版）,2005,32(1):104-107. 被引量：12
4李忠伟,张健沛,杨静.基于支持向量机的增量学习算法研究[J].哈尔滨工程大学学报,2005,26(5):643-646. 被引量：10
5武方方,赵银亮,蒋泽飞.基于密度聚类的支持向量机分类算法[J].西安交通大学学报,2005,39(12):1319-1322. 被引量：10
6张翔,肖小玲,徐光祐.模糊支持向量机中隶属度的确定与分析[J].中国图象图形学报,2006,11(8):1188-1192. 被引量：38
7宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：40
8严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
9陶晓燕,姬红兵,马志强.基于样本分布不平衡的近似支持向量机[J].计算机科学,2007,34(5):174-176. 被引量：10
10YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[ C ]//Proc of the 14th International Conference on Machine Learning. San Francisco : Morgan Kaufmann, 1997:412- 420.

共引文献1201

1胡亮,曹艳,唐江云,刘永波,雷波.基于物联网的玉米病害环境监测系统研究与实现[J].中国农学通报,2020(22):154-164. 被引量：4
2陈伟根,张知先,李剑,蔚超,陈庆.电气设备状态参量智能传感技术[J].中国电机工程学报,2020,40(S01):323-342. 被引量：37
3姜明,梁铭力.基于“边缘计算云”服务的城轨车站综合监控系统降级方案[J].现代城市轨道交通,2023(S01):23-29.
4王光肇.云计算中的关键性数据库探索[J].计算机产品与流通,2020,0(8):56-56.
5李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
6李朝祥,马玉玲,潘龙,曹中枢.基于云计算平台的现代企业人才能力水平评价系统[J].湖北农业科学,2023,62(S01):236-240. 被引量：2
7韩水保,汤卫东,张令涛,周联友,于宏文.支撑大电网调控系统无差别浏览的人机云终端及关键技术[J].电网技术,2020,44(2):420-428. 被引量：5
8叶勇,郑炜,林树海,程宇.交通建设监理信息化架构设计[J].公路交通科技（应用技术版）,2020(4):345-347.
9孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.
10丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.

1田开坤,徐海霞,祝秋文.基于网络环境的“大学生电子实验室”自主学习平台[J].长江大学学报（自然科学版）,2011,8(6):130-132.
2张海涛.基于云计算平台的电信经营分析系统研究[J].中国科技博览,2012(29):632-632.
3邱晖.经济分析中处理时间维度方法的演变与比较[J].哈尔滨学院学报,2015,36(3).
4徐雅斌,李艳平,郑芬.基于MapReduce架构的网络热点话题发现[J].华中科技大学学报（自然科学版）,2012,40(S1):236-239. 被引量：3
5韩鹏,郭敦陶.Web文本分类系统研究[J].民营科技,2009(2):18-18.
6庞毅.基于PCA的特征提取及其在人脸识别中的应用[J].科技信息,2010(31):54-55.
7王利,刘洪超.发动机用火工品的反向操作可靠性[J].航天器环境工程,2009,26(z1):130-131.
8向小东.原油期货价格的混沌识别研究[J].运筹与管理,2007,16(4):127-130. 被引量：1
9徐莹,陈普春,曹俊,张莹.连续小波变换奇异性的真假纸币识别研究[J].自动化仪表,2012,33(7):12-14.
10王海涛,黄文杰,朱永凯,田贵云,姬建岗.基于聚类分析与神经网络的车牌字符识别[J].数据采集与处理,2008,23(2):238-242. 被引量：11

华中科技大学学报（自然科学版）

2012年第S1期

浏览历史

内容加载中请稍等...

搜索服务中基于云计算的垃圾网页识别研究

参考文献9

二级参考文献154

共引文献1201

相关作者

相关机构

相关主题

浏览历史