基于主题网络爬虫的不良网页的发现与识别被引量：2

Unhealthy Webpage Detection Based on Topic-focused Web Crawler

下载PDF

导出

摘要针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略. Internet is making massive amounts of harmful information, and it is very important to remove as much harmful information as possible to purify the internet. After the analysis of a large amount of harmful information on the internet, the key text features of harmful contents are presented. The novel approach is to find harmful Webpage and site by embedding the harmful text features into the Web spider of the search engine, and generate multi-level results to the users so that they can deal with the harmful Webpage and site to purify the internet environment. The experiments show that the proposed algorithm is capable to detect unhealthy Webpage effectively, and cope with the strategy of anti-keywords filtering from the unhealthy Website.

作者方育柯傅彦周俊临夏虎

机构地区电子科技大学计算机科学与工程学院

出处《郑州大学学报（理学版）》 CAS 北大核心 2010年第2期26-30,共5页 Journal of Zhengzhou University:Natural Science Edition

基金国家自然科学基金资助项目编号60973120 60903073 国家863计划项目编号2007AA01Z440 四川省科技攻关项目编号2008GZ0009

关键词主题网络爬虫不良网页文本特征 topic-focused Web crawler unhealthy Webpage text feature

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1姜帆张霁雪.我国政府对互联网的管制.财经界(下半月),2006,(12):75-81.
2张永奎,李东艳.互联网中非法文本特征分析及其属性预选取新方法[J].计算机应用,2004,24(4):113-115. 被引量：7
3陈平,刘晓霞,李亚军.文本分类中改进型互信息特征选择的研究[J].微电子学与计算机,2008,25(6):194-196. 被引量：11
4Page L, Brin S. The PageRank citation ranking: bringing order to the Web[EB/OL]. [2009-11-01]. http..//www, db. stanford, edu/-backup/PageRanksub, ps.
5Arasu A, Novak J, Tomkins A, et al. PageRank computation and the structure of the Web: experiments and algorithms [EB/OL]. [2010-03-01]. http://citeseerx, ist. psu. edu/viewdoc/summary? doi= ? doi= 10.1.1.18. 5264.
6Ester M, Gross M, Kriegel H P. Focused Web crawling: a generic framework for specifying the use interest and for adaptive crawling strategies [EB/OL]. [2010-01-11]. http://www, dbs. informatik, uni-muenchen, de/- ester/papers/ VLDB2001. submitted, pdf.
7Arasu A,Cho J, Garcia-Molina H, et al. Searching the Web[J]. ACM Transactions on Internet Technology, 2002,1 (1) : 1-42.

二级参考文献8

1贺贤明,戴坚峰.一种新型文本自动分类系统的研究与实现[J].微电子学与计算机,2004,21(10):23-26. 被引量：6
2谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7
3Yang Y,Pedersen J P.A comparative study on feature selection in text categorization[C]//Proe of the 14th Inte'l Conf on Machine Learing(ICML'97).USA:San Francisco,1997:412-420.
4Mladenic D,Grobelnik M.Feature selection for unbalanced class distribution and naive hayes[C]//Proc of the 16th Int'l Conf on Machine Learning(ICML'99).San Francisco:Morgan Kaufmann Publishers,1999:258-267.
5孙春来,段米毅,毛克峰.基于内容过滤的网络监控技术研究[J].高技术通讯,2001,11(11):36-38. 被引量：11
6赵仲孟,陈剑,张选平,翁莉萍.网络内容安全分析与对策[J].计算机工程,2002,28(5):41-43. 被引量：13
7陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
8崔志明,谢春丽.基于Web的文本挖掘研究[J].微电子学与计算机,2002,19(10):51-53. 被引量：14

共引文献16

1彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
2李东艳,张永奎.一个基于非法文本用词特征分析的文本分类器[J].电脑开发与应用,2006,19(10):2-3. 被引量：1
3吴慧玲,沈建京,贺广生.基于不良文本信息过滤预处理方法的研究[J].网络安全技术与应用,2006(11):61-63. 被引量：2
4李东艳,黄鹏鹤.基于双层规则的内容安全过滤方法[J].大连交通大学学报,2007,28(3):67-70. 被引量：1
5牛洪波,丁华福.基于文本分类技术的信息过滤方法的研究[J].信息技术,2007,31(12):100-102. 被引量：3
6卢扬竹,张新有,祁玉.邮件过滤中特征选择算法的研究及改进[J].计算机应用,2009,29(10):2812-2815. 被引量：8
7张永奎,高峰.一种不良文本识别特征选择方法[J].计算机工程与应用,2010,46(2):129-131.
8妥晓娜,吴承勇.基于逻辑斯蒂方程的垃圾邮件过滤特征方法的研究[J].内蒙古大学学报（自然科学版）,2010,41(4):450-455.
9胡强.基于两种特征影响度的特征选择[J].微电子学与计算机,2010,27(12):65-68. 被引量：1
10朱颢东,李红婵.结合类内集中度和优化RBF神经网络的特征选择[J].微电子学与计算机,2011,28(2):145-148. 被引量：6

同被引文献10

1Brin S, Page L. The anatomy of a large - scale hypertextual web search engine [ EB/OL]. http ://www - db. stanford, edu/~ backrub/google, htrrd.
2G Salton, A Wong, C S Yang. A vector space model for automatic indexing[ J ]. Commun ACM, 1975,18 (11 ) :613 -620.
3邹海亮,孙莉.可定制的聚焦网络爬虫[J].电子科技,2009,22(1):47-50. 被引量：4
4刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13
5陈晓慧,陈荣国,卫文学.基于网络爬虫的Web服务抓取解析器的设计与实现[J].地理信息世界,2010,8(3):64-68. 被引量：6
6孙建旺,吕学强,郭跇秀.基于微博转发集的微博过滤研究[J].北京信息科技大学学报（自然科学版）,2013,28(3):27-33. 被引量：3
7于然,刘春阳,靳小龙,王元卓,程学旗.基于多视角特征融合的中文垃圾微博过滤[J].山东大学学报（理学版）,2013,48(11):53-58. 被引量：7
8孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：133
9万昊,谭宗颖,张福俊,朱相丽,刘小玲.项目验收的同行评议辅助决策评价方法研究——基于贝叶斯正则化修正的BP人工神经网络模型[J].情报杂志,2017,36(11):192-199. 被引量：10
10窦博.热连轧轧制力贝叶斯神经网络预测与模型优化[J].金属制品,2017,43(6):42-48. 被引量：4

引证文献2

1王鲁荣.基于主题网络爬虫的高校网络信息动态搜索策略研究[J].四川师范大学学报（自然科学版）,2011,34(6):919-921. 被引量：3
2王峥,叶维,邱秀连.基于特征加权贝叶斯神经网络的微博异常账号检测[J].计算机与数字工程,2018,46(11):2323-2328. 被引量：3

二级引证文献6

1李晓茹.速变网络的自动化智能检测方法[J].内江师范学院学报,2013,28(12):12-14. 被引量：1
2朱兴,谢瑞杰.主题爬虫在网络地震谣言信息获取识别中的应用研究初探[J].黑龙江科技信息,2016(30):101-102. 被引量：2
3李辉,张标,吴文良.基于主题爬虫算法的养殖投入品质量信息监管系统[J].江苏农业科学,2017,45(8):210-214. 被引量：2
4田璐萍,嵇启春.基于眼部信息融合的疲劳驾驶检测的研究[J].国外电子测量技术,2019,38(10):26-29. 被引量：6
5吴菲,王维.一种基于改进分层置信规则库的社交账户可信度评估方法[J].计算机应用研究,2022,39(9):2779-2784.
6徐建国,刘梦凡,刘泳慧.基于HMM-RF模型对新浪微博异常账号的识别与检测[J].计算机应用与软件,2022,39(12):83-88.

1陆易.计算机网络安全在虚拟网络技术中的作用[J].电子技术与软件工程,2015(23):217-217. 被引量：1
2李汉强.用IE限制不良网页[J].电脑技术——Hello-IT,2001(9):61-61.
3孙艳,周学广.基于粗糙集与贝叶斯决策的不良网页过滤研究[J].中文信息学报,2012,26(1):67-72. 被引量：5
4徐雅斌,李卓,陈俊伊.基于改进K最近邻分类算法的不良网页并行识别[J].计算机应用,2013,33(12):3368-3371. 被引量：6
5未打补丁ARP惹祸，不良网页守网关[J].网管员世界,2009(7):83-83.
6安全上网要养成五个好习惯[J].农家致富顾问,2009(6):15-15.
7IDS——网络安全防御中的巡警[J].互联网天地,2004(8):69-69.
8陈浩.如何建立一套完整的网络安全防护体系（续）[J].上海港科技,2004(6):25-29.
9蒋盛浩.基于分布式防火墙日志的入侵检测[J].科技创新导报,2009,6(34):22-22.
10唐坚刚,熊国萍.基于字频统计和数据挖掘技术的不良网页过滤模式的构建与应用[J].厦门大学学报（自然科学版）,2007,46(A02):69-71.

郑州大学学报（理学版）

2010年第2期

浏览历史

内容加载中请稍等...

基于主题网络爬虫的不良网页的发现与识别被引量：2

参考文献7

二级参考文献8

共引文献16

同被引文献10

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于主题网络爬虫的不良网页的发现与识别 被引量：2

参考文献7

二级参考文献8

共引文献16

同被引文献10

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于主题网络爬虫的不良网页的发现与识别被引量：2