基于链接信息的网页分类算法被引量：1

A Webpage Classification Algorithm Based on Link Information

下载PDF

导出

摘要为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性. To improve the performance of webpages classification system, and overcome a large number of false, erroneous information filled in the webpages affect the traditional classification algorithms, this paper presents a web page classification algorithm based on link information. Based on the K Nearest Neighbor method, the webpages are classified by the links among webpages. In this paper, the webpage currently classified is presented by the link information of vector space, and find K webpages with the highest similarity to it in the training set, then it is classified to the proper category. We compare the method to traditional classification algorithms through experiments, and the results show that it＇s more effective.

作者秦杰闫付亮朱海丰司群谢蕙

机构地区河南工业大学粮食信息处理教育部重点实验室

出处《微电子学与计算机》 CSCD 北大核心 2012年第6期108-112,共5页 Microelectronics & Computer

基金国家自然科学基金项目(60373003) 河南工业大学校琏金项目(2006BSO009)

关键词网页分类类别 K近邻方法链接信息分类 webpage classification category K-nearest Neighbor link information classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Xiaoguang Qi, Brian D Davison. Web page classifica- tion: Features and algorithms [J]. ACM Computing Surveys, 2009,41 (2)..12 : 1-12 : 31.
2万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
3秦杰,王春云,谢蕙,朱海丰.基于本体的元搜索引擎4级结果处理算法[J].微电子学与计算机,2010,27(6):39-42. 被引量：2
4Open Directory Project [EB/OL]. [2008-07-23]. http.. //www. dmoz. org/about, html.
5Craven M, Slattery S, Nigam K, First-order learning for web mining[C] // The 10th European Conference on Machine Learning. Chemnitz, 1998.
6Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of ACM, 1999, 46(5) :604- 632.
7Rungsawang A, Manaskasemsak B. Parallel adaptive technique for computing PageRank[C]//The 14th Eu romicro International Conference. Parallel, 2006: 15- 17.
8朱海丰.个性化全文搜索引擎关键技术研究[D].郑州:河南工业大学,2009.

二级参考文献22

1张强弓,喻国宝,廖湖声,隋树林.一种元搜索引擎的查询结果处理模型[J].华南理工大学学报（自然科学版）,2004,32(z1):47-51. 被引量：10
2张体首,蔡明.语义搜索引擎概念模型[J].微电子学与计算机,2007,24(3):171-173. 被引量：10
3Diego Calvanese,Giuseppe De Giacomo,Domenico Lem-bo.Query reformulation over ontology-based peers[C]//Proceedings of the Twelfth Italian Symposium on Ad-vanced Database Systems.Italy,2004:418-425.
4Wikipedia.Semantic web[EB/CIL].(2008-12-01)[2008-12-19].http://en.wikipedia.org/wiki/Semantic[CD#*2]web.
5Trajkova J,Gauch S.Improving ontology-based user Profiles[C]//Proceedings of RIAO 2004.France,2004:380-389.
6Aas K., Eikvil L. Text Categorization:A Survey[Z]. http://citeseer.nj.nec.com/aas99text.html, 1999.
7A. Hyvarinen, E. Oja. Independent component analysis: algorithms and applications[J]. Neural Networks 13,2000: 411-430.
8Angela Montanari, Laura Lizzani. a projection pursuit approach to variable selection[J]. Computational Statistic&Data Analysis 35,2001:463-473.
9DudaR. Hart P.E Stock D.G.李宏东姚天翔等译.Pattern Oassifieation,Second Edition[M].模式分类:2003年9月第1版[M].机械工业出版社,2004年2月..
10Emmanuel A., Iafis O. J., Unsupervised Feature Extraction Using Projection Pursuit[Z]. http://www.censsis.neu.edu/Education/StudentResearch/2001/posters/arzuaga-cruz_e!., 2001.

共引文献11

1王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
2陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
3潘立,席升阳,李晓东.基于RAGA的投影寻踪模型在创业投资中的应用[J].中国青年科技,2007(5):52-55.
4蒲筱哥.自动文本分类方法研究述评[J].情报科学,2008,26(3):469-475. 被引量：12
5蒲筱哥.Web自动文本分类技术研究综述[J].情报学报,2009,28(2):233-241. 被引量：9
6万中英,廖海波,王明文.遗传-粒子群的投影寻踪模型[J].计算机工程与应用,2010,46(20):210-212. 被引量：10
7廖海波,万中英,王明文.免疫进化的投影寻踪模型在文本分类中的应用[J].广西师范大学学报（自然科学版）,2011,29(1):123-128. 被引量：4
8柯丽,王明文,何世柱,黎佳,罗远胜.基于频率共现熵的跨语言网页自动分类研究[J].江西师范大学学报（自然科学版）,2011,35(3):240-245. 被引量：3
9王燕平.基于文献计量的我国搜索引擎研究现状和热点分析[J].现代情报,2012,32(7):68-73. 被引量：5
10万中英,王明文,揭安全,万剑怡.投影寻踪模型中投影指标的改进[J].江西师范大学学报（自然科学版）,2013,37(3):284-287. 被引量：2

同被引文献12

1吴保国,李成赞,马驰,张旸.森林培育专家决策支持系统的研究[J].北京林业大学学报,2009,31(S2):1-8. 被引量：15
2张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
3刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：131
4申晋.基于Lucene和Nutch的林业垂直搜索引擎的研建[J].农业网络信息,2008(4):16-18. 被引量：7
5丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(B06):175-177. 被引量：6
6张戬慧.专业智能搜索系统在动物医学领域中的应用[J].东北农业大学学报,2009,40(9):141-144. 被引量：1
7金岳富,范剑英,冯扬.分布式Web信息采集系统的设计与实现[J].哈尔滨理工大学学报,2010,15(1):116-119. 被引量：7
8袁津生,郭艳芬.林业主题爬虫的算法研究与设计[J].计算机工程与设计,2011,32(6):2003-2006. 被引量：7
9王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
10李嘉,徐前,王梓,陈钊.基于语义的林产品贸易Web信息抽取算法[J].计算机工程与应用,2014,50(19):199-204. 被引量：1

引证文献1

1刘建成,吴保国,陈栋.基于网络爬虫的森林经营知识采集系统研建[J].浙江农林大学学报,2017,34(4):743-750. 被引量：5

二级引证文献5

1刘江,刘国玺,张雁,吕丹桔.基于多线程和翻译的网络爬虫鸟类音频数据采集系统设计与实现[J].现代计算机,2018,24(20):85-88. 被引量：2
2张会儒,雷相东,李凤日.中国森林经理学研究进展与展望[J].林业科学,2020,56(9):130-142. 被引量：26
3董富江,张文学.分布式主题舆情采集与分析系统设计[J].软件导刊,2020,19(11):116-119.
4谢蓉蓉,徐慧,郑帅位,马刚.基于网络爬虫的网页大数据抓取方法仿真[J].计算机仿真,2021,38(6):439-443. 被引量：15
5黎妍,肖卓宇.引入Scrapy框架的Python网络爬虫应用研究[J].福建电脑,2021,37(10):58-60. 被引量：5

1陈芊希,范磊.基于深度学习的网页分类算法研究[J].微型电脑应用,2016,32(2):25-28. 被引量：3
2蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
3曾伟,黄亮.一种基于稀疏表示的WLAN室内定位算法[J].计算机应用与软件,2014,31(12):175-177. 被引量：3
4刘雅正,陈受凯,唐向阳.基于简化MD5的TFIDF算法[J].科学技术与工程,2012,20(31):8447-8450. 被引量：1
5时雷,虎晓红,席磊.基于集成学习的网页分类算法[J].郑州大学学报（理学版）,2009,41(3):26-29. 被引量：1
6邵浩然,张亮,马范援.基于损失最小化的SVM多类网页分类算法[J].计算机应用与软件,2005,22(7):16-17.
7崔亚芬,解男男.一种基于特征选择的入侵检测方法[J].吉林大学学报（理学版）,2015,53(1):112-116. 被引量：13
8庞宁,杨尔弘.网页文本分类中的特征选择研究[J].太原科技大学学报,2007,28(4):279-281. 被引量：1
9罗飘,刘晓平.面向Kinect运动数据的鲁棒足迹检测[J].中国图象图形学报,2016,21(2):225-234. 被引量：1
10陶新民,徐晶,杜宝祥,徐勇.基于紧密度FSVM新算法及在故障检测中的应用[J].振动工程学报,2009,22(4):418-424. 被引量：6

微电子学与计算机

2012年第6期

浏览历史

内容加载中请稍等...

基于链接信息的网页分类算法被引量：1

参考文献8

二级参考文献22

共引文献11

同被引文献12

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于链接信息的网页分类算法 被引量：1

参考文献8

二级参考文献22

共引文献11

同被引文献12

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于链接信息的网页分类算法被引量：1