化学主题网络爬虫的设计和实现被引量：6

Design and Implementation of a Chemistry Focused Web Crawler

下载PDF

导出

摘要由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 The popularity of Web has been growing rapidly in the last few years.However,faced with people＇s requirements more and more rigorous and prolific,general search engine still can＇t satisfy personal need accurately. Based on combination of information accumulated in Internet navigator of chemical resources and automatic collection of web crawler,thls article brings forward a structure design model of chemistry focused web crawler based on Widrow-Hoff classifier and verifies its ability.

作者夏诏杰梁春燕郭力

机构地区中国科学院过程工程所多相实验室

出处《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页 Computer Engineering and Applications

基金国家自然科学基金资助项目(编号:20273076)

关键词主题爬虫主题搜索引擎化学主题网络爬虫 Widrow-Hoff 分类器 focused crawler,topic search engine,chemistry focused crawler,Widrow-Hoff classifier

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1University of Liverpool.Links for Chemists.http://www.liv.ac.uk/Chemistry/Links/links.html,2005-05
2中国科学院过程工程研究所.化学信息门户.http://www.chinweb.com,2005-05
3李晓霞,杨章远,许志宏.Internet化学资源的发展状况与展望[J].计算机与应用化学,1999,16(5):325-326. 被引量：22
4D D Lewis,R E chapire,J P Callan et al.Training algorithms for linear text classifications[C].In:Proc ACM SIGIR,1996
5F Menczer,G Pant,M Ruiz et al.Evaluating topic-driven web crawlers[C].In:Proc ACM SIGIR 2001,2001

二级参考文献4

1李晓霞，化学通报，1999年，43卷，1期，47页
2http://chin.icm.ac.cn/
3http://info.isoc.org/guest/zakon/Internet/History/HIT.html
4李晓霞,杨章远,许志宏.利用ChIN网页获取Internet化学信息[J].化学通报,1999(1):39-43. 被引量：40

共引文献21

1祝宇,夏诏杰,聂峰光,郭力.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332. 被引量：8
2郭力,李晓霞,杨章远,许志宏.化学化工虚拟社区的研究与设计[J].计算机与应用化学,1999,16(6):419-422. 被引量：8
3杨胜韬,李汪.信息化背景下的化学教育[J].广州化工,2012,40(8):193-195. 被引量：3
4李振中,黄培标.如何在因特网上查找医用化学信息[J].右江民族医学院学报,2000,22(4):676-678.
5贾红阳,郭力,李晓霞,杨章远,姜林,陈晓青.Web石油化工信息服务管理系统的研究[J].计算机与应用化学,2000,17(4):315-319. 被引量：3
6袁中直,肖信,李星华,何广平.化学专业化WEB站点建设与Internet化学资源导航[J].计算机与应用化学,2000,17(4):351-354. 被引量：14
7高新来,潘慧铭,王跃林,李和昌.互联网上的胶粘剂信息资源[J].中国胶粘剂,2000,9(6):1-3.
8贾红阳,郭力,李晓霞,杨章远,姜林,陈晓青.石油化工信息系统Web权限管理的研究[J].计算机与应用化学,2001,18(2):157-160. 被引量：4
9朱相生,房磊.Internet中的化学资源[J].聊城师院学报（自然科学版）,2000,13(3):40-44. 被引量：1
10温成涛,张述伟.MATLAB化工单元操作工具箱的开发[J].计算机与应用化学,2001,18(3):280-284. 被引量：15

同被引文献135

1梁春燕,夏诏杰,郭力.面向化学领域网络资源的文本自动分类算法[J].华南理工大学学报（自然科学版）,2004,32(z1):52-57. 被引量：1
2陈魁.基于Java语言提取网站内部URL的算法[J].电脑编程技巧与维护,2004(8):22-23. 被引量：1
3梁春燕,郭力,夏诏杰,杨章远.网络搜索引擎的性能优化策略和相关技术[J].计算机工程与应用,2004,40(36):179-182. 被引量：5
4曹红,袁津生.林业主题搜索引擎研究[J].计算机应用,2004,24(B12):321-323. 被引量：8
5储春梅,李晓霞,郭力.定向查询引擎在Web化学数据库集成检索中的应用[J].计算机与应用化学,2005,22(8):659-666. 被引量：12
6周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
7苏亮,聂峰光,郭力,李晓霞,梁春燕.隐含语义检索系统词条权重的处理[J].计算机与应用化学,2005,22(11):972-976. 被引量：4
8祝宇,夏诏杰,聂峰光,郭力.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332. 被引量：8
9祝宇,聂峰光,郭力.利用未标记数据提高SVM分类器性能的研究[J].计算机工程与应用,2006,42(27):166-167. 被引量：2
10卓流艺,李晓霞,郭力.XML技术在化学深层网数据提取中的应用[J].计算机与应用化学,2006,23(11):1137-1141. 被引量：9

引证文献6

1孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].软件导刊,2010,9(5):47-49. 被引量：5
2李晓霞,袁小龙,夏诏杰,聂峰光,唐武成,郭力.Internet化学信息的系统挖掘工具[J].计算机与应用化学,2008,25(9):1079-1082. 被引量：7
3李晓霞,郭力,袁小龙,夏诏杰,聂峰光.Internet推动的化学信息学重要进展[J].化学进展,2008,20(12):1849-1859. 被引量：3
4莫倩,张树,王芳.面向领域的智能搜索引擎设计与实现[J].计算机工程与应用,2012,48(21):112-117. 被引量：2
5冯硕,李书琴,杨会君.基于Web挖掘的化学物质信息提取应用研究[J].计算机工程与设计,2012,33(8):3040-3046. 被引量：3
6郑定超,麻少秋.网络爬虫的研究与设计[J].电脑知识与技术,2018,14(9):43-45. 被引量：2

二级引证文献21

1李晓霞,郭力,袁小龙,夏诏杰,聂峰光.Internet推动的化学信息学重要进展[J].化学进展,2008,20(12):1849-1859. 被引量：3
2李海波,李晓霞,袁小龙,郭力.Internet上多来源MSDS的统一检索方法[J].计算机与应用化学,2009,26(6):828-832. 被引量：8
3李晓霞,袁小龙,夏诏杰,聂峰光,陶晓芳,唐武成,郭力.化学品数据信息搜索引擎ChemDB Portal[J].化学通报,2011,74(10):961-965. 被引量：1
4刘韬,黄红兵,林子超,刘庆,朱伟.运用计算机系统生物学方法预测茵陈蒿汤的分子靶标[J].中药材,2011,34(10):1648-1651. 被引量：6
5朱艳芳,朱伟.生脉散血中移行成分分子靶标的计算机系统生物学预测[J].中国实验方剂学杂志,2012,18(4):278-282. 被引量：10
6冯硕,李书琴,杨会君.基于Web挖掘的化学物质信息提取应用研究[J].计算机工程与设计,2012,33(8):3040-3046. 被引量：3
7樊多妮,李禹生.基于Heritrix的网络主题爬虫算法研究与应用——以粮食网站交易信息为例[J].现代物业（下旬刊）,2012(9):97-100. 被引量：1
8朱伟,王冬梅,徐筱杰,卢传坚.建立中草药计算机网络药理学网上数据库的构想[J].广州中医药大学学报,2013,30(1):109-111. 被引量：12
9陈梅妹,赖新梅,杨雪梅.中医药化学成分结构信息知识库的构建[J].情报探索,2013(7):60-61. 被引量：1
10林振洲.VFP技术在网页数据采集中的应用——以高校数字资源建设为例[J].计算机光盘软件与应用,2013,16(14):56-58. 被引量：1

1邓子建,李弼程.一种有监督学习证据理论分类器[J].计算机工程与应用,2005,41(15):53-56.
2蒋甲生.无线射频识别技术探讨[J].科技信息,2007(27):16-16. 被引量：14
3农建波.一种自适应PID控制系统[J].广西民族大学学报（自然科学版）,1995,6(1):61-64. 被引量：1
4陈晓冬,张科.基于Widrow-Hoff学习算法的液压系统同步控制策略研究[J].制造技术与机床,2009(3):44-48. 被引量：2
5夏红科,郑雪峰,胡祥.多策略概念相似度计算方法LMSW[J].计算机工程与应用,2010,46(20):33-36. 被引量：5
6葛蕾,霍爱清.Widrow-Hoff神经网络学习规则的应用研究[J].电子设计工程,2009,17(6):15-16. 被引量：8
7任磊.基于增量学习的混合推荐算法[J].计算机应用,2010,30(5):1287-1289. 被引量：2
8洪鸿,张维,何卫平,和延立.制造执行系统中可配置自动采集技术的研究[J].现代制造工程,2009(8):14-18. 被引量：2
9李军.利用PowerPoint制作初中化学多媒体课件[J].中国教育技术装备,2013(22):124-125.
10韩玥,张亦军,贾晓岚.一种基于ADALINE网络的自适应滤波语音降噪方法[J].郑州轻工业学院学报（自然科学版）,2007,22(2):85-87. 被引量：1

计算机工程与应用

2006年第10期

浏览历史

内容加载中请稍等...

化学主题网络爬虫的设计和实现被引量：6

参考文献5

二级参考文献4

共引文献21

同被引文献135

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

化学主题网络爬虫的设计和实现 被引量：6

参考文献5

二级参考文献4

共引文献21

同被引文献135

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

化学主题网络爬虫的设计和实现被引量：6