基于网络爬虫的文献检索系统的研究和实现被引量：7

Research and Realization of Academic Search System Based on Network Crawler

下载PDF

导出

摘要文中系统基于网络爬虫技术实现了文献资源的智能搜索和关键信息的抓取功能,把采集到的信息采用本体论的方法进行分类识别,并自动存储文献资源到本地服务器。下载子系统采用负载均衡的方法把下载任务分配到多个服务器。系统采用高效的Protobuf socket通信手段,提供高效准确的内部下载服务。通过对内提供统一门户入口的方式对检索和下载行为进行记录,有效避免了同一资源的重复下载,也使得文献检索和下载行为变得可追溯,为图书文献情报管理和研究工作提供了数据支撑。该系统可有效减少科研机构获取学术资源所需的资金投入并减少网络带宽占用。 This system has realized intelligent search and external academic resources capture based on network crawler technique. It uses ontology technology to identify each article and automatically store the resources into local repository. Downloading subsystem in this sys-tem applies load balance method to distribute downloading tasks equally to each download server. Protobuf,a high-efficiency communica-tion mechanism,provides downloading service with high availability and accuracy in this system. At the same time,this system has solved the problem of repeated downloading and access recording by offering a unique entrance to the whole institute. Access control is also de-signed to eliminate malicious and excessive downloading. System automatically saves user searching data,which makes information re-trieval becomes traceable,providing data support for library information management and research. This system can effectively reduce ex-pense on digital academic resources for institute and network bandwidth.

作者杨洋李晓风赵赫刘冰

机构地区中国科学院合肥物质科学研究院中国科学院大学中国科学技术大学

出处《计算机技术与发展》 2014年第11期35-38,共4页 Computer Technology and Development

基金中国科学院重点项目(院1221)

关键词网络爬虫本体论论文检索 Web MVC 负载均衡 network crawler ontology thesis retrieval Web MVC load balancing

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1李育嫦.文献检索中提高查全率与查准率的方法探讨[J].图书馆学研究,2002(11):92-93. 被引量：26
2李纪欣,王康,周立发,章军.Google Protobuf在Linux Socket通讯中的应用[J].电脑开发与应用,2013,26(4):1-5. 被引量：13
3詹恒飞,杨岳湘,方宏.Nutch分布式网络爬虫研究与优化[J].计算机科学与探索,2011,5(1):68-74. 被引量：21
4尹江,尹治本,黄洪.网络爬虫效率瓶颈的分析与解决方案[J].计算机应用,2008,28(5):1114-1116. 被引量：18
5Stevanovic D, An Aijun, Vlajic N. Feature evaluation for Webcrawler detection with data mining techniques [ J ]. Expert Sys- tems with Applications,2012,39 (10) : 8707- 8717.
6朱庆生,邹景华.基于本体论的论文检索[J].计算机科学,2005,32(5):172-173. 被引量：20
7邓志鸿,唐世渭,张铭,杨冬青,陈捷.Ontology研究综述[J].北京大学学报（自然科学版）,2002,38(5):730-738. 被引量：765
8Abruscia V M, Fouquer6 C, Romanoa M. Formal ontologies and coherent spaces [ J ]. Logic Categories Semantics, 2014 ( 1 ) :67-74.
9Yah Wei, Zanni-Merkb C, Cavalluccia D, et al. An ontology- based approach for inventive problem solving[ J ]. Engineering Applications of Artificial Intelligence ,2014,27 : 175-190.
10van Ruijven L C. Ontology for systems engineering[ J]. Proce- dia Computer Science,2013,16:383-392.

二级参考文献50

1田春虎.国内语义Web研究综述[J].情报学报,2005,24(2):243-249. 被引量：37
2苗长芬 ,冯伟华 .面向主题Crawler的设计与实现[J].平原大学学报,2005,22(3):110-112. 被引量：1
3吴佩贤.Linux环境下基于TCP的Socket编程浅析[J].现代电子技术,2005,28(16):53-55. 被引量：17
4[13]SENSUS.http://www.isi.edu/natural-language/resources/sensus.html
5[14]Mikrokmos.http://crl.nmsu.edu/Research/Projects/mikro/
6[15]Guarino N.Semantic Matching:Formal Ontological Distinctions for Information Organization,Extraction,and Integration.In:Pazienza M T,eds.Information Extraction:A Multidisciplinary Approach to an Emerging Information Technology,Springer Verlag,1997,139～170
7[16]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods.Workshop on Ontologies and Problem-Solving Methods:Lessons Learned and Future Trends (IJCAI99),de Agosto,Estocolmo,1999
8[17]Gruber T R.Towards Principles for the Design of Ontologies Used for Knowledge Sharing.International Journal of Human-Computer Studies,1995,43:907～928
9[18]Guarino N,Welty C.A Formal Ontology of Properties.In:Dieg R,Corby O,eds.the Proceedings of the 12th International Conference on Knowledge Engineering and Knowledge Management (EKAW'2000),Springer Verlag,2000,97～112
10[19]Guarino N,Masolo C,Vetere G.OntoSeek:Content-Based Access to the Web.IEEE Intelligent Systems,1999,14(3):70～80

共引文献951

1尹艳红,王家璇.涉警网络舆情应对创新路径——基于微博典型事件的文本研究[J].中国应急管理科学,2024(8):92-107.
2郭胜娟,董峰铭.基于知识图谱的“科学”教学方法研究[J].科教导刊,2022(27):132-135. 被引量：4
3袁毓林,曹宏.“语义网—本体知识—知识图谱”和语言研究[J].汉语学报,2021(1):8-19. 被引量：7
4裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：3
5赵庆龄,钱平,苏晓路,杨娟,赵明.基于本体论的土壤知识体系智能检索系统的设计与Web实现[J].中国农业大学学报,2003,8(z1):66-70. 被引量：3
6王芳,滕桂法,张玉新,任力生,马建斌,赵洋.基于本体的农业问答语义管理系统设计与实现[J].河北农业大学学报,2008,31(5):115-117. 被引量：3
7易中梅.应用检索实例谈谈信息检索的查全率和查准率[J].科技信息,2008(24):363-364. 被引量：8
8余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
9张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
10曹东燕.基于本体的个性化E-learning系统设计[J].硅谷,2008,1(20):111-112.

同被引文献45

1李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
2丁杰.基于文法规则匹配的自然语言处理系统研究与实现[J].电脑知识与技术,2009,5(2):833-834. 被引量：3
3党彦龙.科技查新工作效率及服务质量的提高[J].河南科技,2010,29(3):19-19. 被引量：2
4许川佩,陈征南,任智新,胡聪.基于云自适应遗传算法的NoC路径分配研究[J].计算机测量与控制,2012,20(9):2516-2519. 被引量：3
5刘迎春,杨雪萍.基于文献计量的科技查新系统调查分析[J].情报探索,2013(1):76-78. 被引量：2
6张俊,李鲁群,周熔.基于Lucene的搜索引擎的研究与应用[J].计算机技术与发展,2013,23(6):230-232. 被引量：12
7宋正阳,胡玉清.基于自适应分配模型的查新系统[J].计算机应用,2013,33(A01):104-106. 被引量：1
8邓凯英,彭超.网络舆情监测系统的研究与实现[J].现代情报,2013,33(11):38-41. 被引量：4
9李鹏飞,吴为民.基于混合模型推荐算法的优化[J].计算机科学,2014,41(2):68-71. 被引量：20
10李凤侠,战玉华,赵军平,孟颖,周媛莎.清华大学科技查新系统的开发与实践[J].大学图书馆学报,2014,32(2):33-38. 被引量：25

引证文献7

1丁梅.电子文献数据安全研究[J].软件导刊,2016,15(2):167-169.
2杨琳,慕云逸,时铭月.基于NCrawler的网络爬虫设计及其应用探讨[J].软件产业与工程,2016(5):31-35. 被引量：3
3唐琳,何天宇.基于Python的自然语言数据处理系统的设计与实现[J].电子技术与软件工程,2018(16):160-162. 被引量：7
4高宇,杨小兵.基于聚焦型网络爬虫的影评获取技术[J].中国计量大学学报,2018,29(3):299-303. 被引量：6
5杜兰,刘智,陈琳琳.基于Python的文献检索系统设计与实现[J].软件,2020,41(1):55-59. 被引量：5
6黄孝伦,王东,谭涛,刘芹.智能科技查新系统的设计与实现[J].计算机测量与控制,2020,28(2):202-205. 被引量：6
7黄孝伦,王东.以Selenium+Chrome为核心的数据采集系统设计[J].计算机技术与发展,2020,30(9):216-220. 被引量：7

二级引证文献34

1范午攸.查新检索式逻辑运算符选择系统[J].知识管理论坛,2024(1):57-64.
2吴楠,娄洁,吕娟.基于Selenium的中药数据集构建[J].办公自动化,2021,26(21):15-17.
3蔡淦,王松坡.乐胃煎治疗胃癌前病变51例疗效观察[J].上海中医药杂志,2000,34(1):11-13. 被引量：17
4杜庚勇,姬冰.测绘地理信息聚合系统的设计与实现[J].地矿测绘,2018,34(3):44-47. 被引量：1
5邱燕.旅游城市网络负面口碑评价论析[J].安庆师范大学学报（社会科学版）,2019,38(2):95-100.
6谢钟扬.基于Python的聚类方法在电商客户细分中的应用和探索[J].数字技术与应用,2019,37(3):230-231.
7齐慧.基于python的WEB数据挖掘技术实现与研究[J].软件工程,2019,22(8):21-23. 被引量：7
8王芳.基于Python的招聘网站信息爬取与数据分析[J].信息技术与网络安全,2019,38(8):42-46. 被引量：20
9潘亚星.基于Python的词云生成研究——以柴静的《看见》为例[J].电脑知识与技术,2019,15(8X):8-10. 被引量：13
10王煜炜.基于Python聚焦网络爬虫的用户在线评论内容分析[J].科学与信息化,2020(20):68-69. 被引量：1

1李信利,聂志强,吕月娥.基于层次聚类的论文相似性检索[J].微计算机信息,2007,23(21):246-248.
2吴振忠,王曼,宋婧文,蒋运承.一种基于领域本体的论文检索方法的研究与应用[J].计算机应用与软件,2013,30(10):177-180. 被引量：2
3胡长军,宫发明.一个智能化文献检索系统的设计与实现[J].微型计算机,1994,14(4):43-45.
4沈磊.基于本体的论文检索系统的设计与实现[J].现代图书情报技术,2007(2):24-27. 被引量：1
5李洪奇,朱丽萍,孙国玉,王露.面向海量小文件的分布式存储系统设计与实现[J].计算机工程与设计,2016,37(1):86-92. 被引量：13
6夏飞虎,叶瑛歆,胡天亮,张承瑞.基于Protobuf的机器人示教器软件设计与实现[J].制造技术与机床,2016(5):99-103. 被引量：3
7罗霖华,黄志强,王军.当今CAPP的发展动态(英文)[J].大连理工大学学报,1998,38(S1):105-114. 被引量：3
8程九菊.数据挖掘技术在高校图书文献情报分析中的应用[J].创新科技,2015,15(1):78-79.
9杜庆灵.省级科研信息管理云平台的设计与实现[J].中原工学院学报,2012,23(3):45-47. 被引量：6
10Snagit 6.1.1 抓出新天地[J].新电脑,2002,26(9):107-107.

计算机技术与发展

2014年第11期

浏览历史

内容加载中请稍等...

基于网络爬虫的文献检索系统的研究和实现被引量：7

参考文献15

二级参考文献50

共引文献951

同被引文献45

引证文献7

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于网络爬虫的文献检索系统的研究和实现 被引量：7

参考文献15

二级参考文献50

共引文献951

同被引文献45

引证文献7

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于网络爬虫的文献检索系统的研究和实现被引量：7