基于Heritrix和Jsoup的信息抽取系统的设计与实现被引量：2

DESIGN AND IMPLEMENTATION OF WEB INFORMATION EXTRACTION SYSTEM BASED ON HERITRIX AND JSOUP

下载PDF

导出

摘要应用开源的Heritrix和Jsoup设计了一个通用性强的网络商品信息抽取系统,实现了Web信息的抽取、存储.系统由三个分别独立的功能模块组成,即采集网页模块、抽取信息模块、数据存储模块,并对抽取算法在真实数据页面上进行了验证.实验结果表明系统具有良好的召回率和准确率,抽取效果良好. Heritrix and Jsoup are used to design a general - purpose network commodity information extraction system which achieves the crawler and storage of Web information in this paper. The system is composed of three respective modules： web crawling module , web analysis module and database storage module. It： vetlfies the extraction algorithm in the real data on the page. The experimental results show that the system has good recall rate and precision rate, extraction good results.

作者刘全志于治楼

机构地区山东师范大学信息科学与工程学院浪潮集团有限公司

出处《山东师范大学学报（自然科学版）》 CAS 2015年第2期16-19,共4页 Journal of Shandong Normal University(Natural Science)

关键词 WEB信息抽取 HTML解析器 Jsoup 网络爬虫 Heritirx Web information extraction the HTML parser Jsoup Web Grawler Hertirx

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1于琨,蔡智,糜仲春,蔡庆生.B2C电子商务中的信息抽取技术[J].计算机科学,2002,29(12):106-108. 被引量：1
2杨舟,卓林,赵朋朋,崔志明.一种针对商品数据记录的自动抽取方法[J].计算机工程,2010,36(23):262-265. 被引量：8
3张敏,孙敏.基于Heritrix限定爬虫的设计与实现[J].计算机应用与软件,2013,30(4):33-35. 被引量：13
4罗刚,王振东.自己动手写网络爬虫[M].北京:清华大学出版社,2012:39-64.
5夏天.中心网页中主题网页链接的自动抽取[J].山东大学学报（理学版）,2012,47(5):25-31. 被引量：4
6Jiao Z, Yan X, Sun J, et al. Web Content Extraction Technology [ M ~//Computer Engineering and Networking. Springer International Publishing, 2014 : 365 - 373.
7李萍,朱建波,周立新,廖彬.基于快速构建模板的购物信息抽取方法[J].计算机应用,2014,34(3):733-737. 被引量：3
8Sun F, Song D, Liao L. DOM based content extraction via text density [ C ]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. Beijing : ACM Press ,2011:245 - 254.
9LUO Q Y, YANG Y S, SUN B F. Integrated decision -making of resident travel mode and route based on prospect theory[ C ]//Proceedings of the 2011 International Conference on Transportation,Mechanical,and Electrical Engineering. Washington,DC:IEEE Computer Society,2011:1822 - 1825.
10Wang J, Lochovsky F H. Data- rich section extraction from HTML pages[ C]//proeeedings of the Third International Conference on Web Information Systems Engineering. Washington, DC :IEEE Computer Society ,2002:313 - 322.

二级参考文献54

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
4王芳,于浩,谭红叶,赵铁军.基于链接分块的相关链接提取方法[J].计算机工程与应用,2006,42(31):110-113. 被引量：2
5朱红灿,邹凯.基于机器学习的Web链接的抽取[J].情报理论与实践,2007,30(2):252-255. 被引量：2
6刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
7Liu Bing. Mining Data Records in Web Pages[C]//Proceedings of the ACM International Conference on Knowledge Discovery and Data Mining. Washington D. C. , USA: [s. n. ], 2003:601-606.
8Miao Gengxin, Tatemura J, Hsiung Wang+Pin, et al. Extracting Data Records from the Web Using Tag Path Clustering[C] //Proceedings of the 18th International Conference on the World Wide Web. Madrid: Spain, [s. n. ], 2009: 981-990.
9Zhai Yanhong, Liu Bing. Web Data Extraction Based on Partial Tree Alignment [C]//Proceedings of the 14th International Conference on the World Wide Web. Chiba, Japan.. [s. n. ], 2005 : 76-85.
10Wang Jingyi, Lochovsk F H. Data Extraction and Label Assignment for Web Databases[C]//Proceedings of the 12th International Conference on the World Wide Web. Budapest, Hungary: [s. n. ],2003.. 187-196.

共引文献24

1解姝,叶施仁,肖春.社会媒体网页内容的分割与抽取[J].计算机工程,2011,37(21):155-158.
2孔燕燕,施化吉.基于相似URL的深层网数据区域识别[J].计算机工程,2012,38(2):48-50. 被引量：1
3郭建兵,崔志明,陈明,赵朋朋.基于DOM树与领域本体的Web抽取方法[J].计算机工程,2012,38(5):56-58. 被引量：5
4唐朝伟,李俊,苗光胜,杜欣慧.基于DOM树的视频元数据抽取系统[J].计算机工程,2012,38(8):268-270. 被引量：1
5林振洲.VFP技术在网页数据采集中的应用——以高校数字资源建设为例[J].计算机光盘软件与应用,2013,16(14):56-58. 被引量：1
6夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
7黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：5
8罗勇.快速检查网页链接地址[J].中国电子商务,2014(1):58-58. 被引量：1
9陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
10魏正曦,邱玲,赵攀.基于灰度分类的图像搜索引擎[J].四川理工学院学报（自然科学版）,2014,27(1):37-40. 被引量：3

同被引文献23

1严华云,关佶红.Bloom Filter研究进展[J].电信科学,2010,26(2):31-36. 被引量：10
2许智坚.信息技术环境下的电子翻译工具[J].嘉应学院学报,2011,29(1):91-96. 被引量：2
3黄艺锋,闫巧.基于Android平台电子词典的设计与实现[J].计算机应用,2011,31(A02):228-232. 被引量：35
4吴伟,陈建峡.基于Heritrix的web信息抽取优化与实现[J].湖北工业大学学报,2012,27(2):23-26. 被引量：5
5崔丹.BaaS平台:移动互联网与云计算融合的产物[J].软件和信息服务,2012(8):11-11. 被引量：4
6张敏,孙敏.基于Heritrix限定爬虫的设计与实现[J].计算机应用与软件,2013,30(4):33-35. 被引量：13
7吴洁明,冀单单,韩云辉.基于Web的DCI垂直搜索引擎的研究与设计[J].计算机工程与设计,2013,34(4):1481-1487. 被引量：7
8姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：71
9沈成,张凯,吕伟鹏,万小霞.基于Android平台的课程学习系统的设计与实现[J].重庆工商大学学报（自然科学版）,2014,31(1):56-60. 被引量：10
10徐毅,田春燕.基于Android的移动英语学习平台的研究与实现[J].中国教育信息化（基础教育）,2014(2):87-89. 被引量：14

引证文献2

1王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
2许清媛,刘韦声.基于爬虫和LeanCloud数据存储的双语阅读平台设计[J].电子设计工程,2018,26(2):35-38. 被引量：2

二级引证文献2

1刘安,郭良敏.课程在线学习平台的设计与实现[J].福建电脑,2019,35(5):46-49. 被引量：3
2陈锐一,赵辉.城市空气质量分析系统的设计与实现[J].湖北理工学院学报,2019,35(1):31-35.

1高光勇,戴春来.WEB数据搜索引擎技术探究[J].九江学院学报（社会科学版）,2007,26(6):12-14.
2王琳琳.基于HTML解析器的Web信息提取技术[J].郑州轻工业学院学报（自然科学版）,2008,23(6):100-102. 被引量：1
3唐云.一种嵌入式浏览器中的HTML解析器的设计[J].湖南科技学院学报,2008,29(8):92-94. 被引量：2
4伍星,王茜.设计模式在HTML解析器中的应用[J].计算机工程,2005,31(2):89-90. 被引量：6
5黄震,吴程龙.基于Android的校园通应用程序的设计与实现[J].现代计算机,2014,20(21):62-67. 被引量：3
6瑞星推出云安全2．0版[J].程序员,2008(11):27-27.
7方锐.基于APPCAN平台的Android手机电商客户端的设计与实现[J].电子商务,2012,13(11):54-54. 被引量：11
8今年“双11”信誉有保障？[J].新潮电子,2015,0(10):54-55.
9缺少浪漫.提高效率成为淘宝达人[J].电脑迷,2010(5):14-14.
10熊茜,朱征宇,朱庆生.基于虚拟表示模型的Web页面模块化设计方法[J].计算机应用,2005,25(2):301-304. 被引量：4

山东师范大学学报（自然科学版）

2015年第2期

浏览历史

内容加载中请稍等...

基于Heritrix和Jsoup的信息抽取系统的设计与实现被引量：2

参考文献12

二级参考文献54

共引文献24

同被引文献23

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Heritrix和Jsoup的信息抽取系统的设计与实现 被引量：2

参考文献12

二级参考文献54

共引文献24

同被引文献23

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Heritrix和Jsoup的信息抽取系统的设计与实现被引量：2