基于Web内容的一种数据自动抽取方法被引量：3

A Data Automatic Extraction Method Based on Web Content

下载PDF

导出

摘要 Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据。文中将使用Asp.Net技术开发一种基于Web内容的数据自动抽取方法。首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面。这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息。 The rapid development of the Web makes it become increasingly an important source of data that people find useful data,cur rent Web sites present information on various topics in various formats and structures. The page organization structure of Web content makes it difficult to use the method of system to effectively extract target data. It uses the Asp. Net technology to develop a data automatic extraction method based on Web content. First it selects target data sources,then it invokes automatically data source and obtains static html document content,generates description file of webpage in accordance with fixed roles,analyzes html document,sets a goal anchor,finally it uses regular expressions and c # technology to automatically extract target data and generate required Web page. This data automatic extraction method can make Web user quickly get the required data information.

作者朱永生王军

机构地区南京信息工程大学网络信息中心

出处《计算机技术与发展》 2012年第5期87-89,93,共4页 Computer Technology and Development

基金江苏省公益性行业科研专项(GYHY201106037)

关键词 Web抽取 HTML 锚变换 ASP.NET web extraction html anchor transform Asp. Net

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Hammer J, Breunig M, Garcia-Molina H S, et al. Template-based wrappers in the TSIMMIS system[ C ]//Proceedings of the Twenty-Sixth SIGMOD International Conference on Man- agement of Data. Tucson, Arizona : [ s. n. ] , 1997.
2Hammer J, Garcia-Molina H, Cho J, et al. Extracting semi- structured information from the Web [ C ]//Proceedings of the Workshop on Management of Semi-structured Data. Tucson, Arizona: [s. n. ] ,1997.
3Lee T, Bressan S, Madnick S. Source attribution for querying against semi-structured documents [ C ]//Workshop on Web Information and Data Management,Acm Conference on Infor- mation and Knowlege Management. [ s. 1. ] : [ s. n. ], 1998.
4Rajaraman A, Sagiv Y, Ullman J. Answering Queries Using Templates with Binding Patterns [ C ]//Proceedings of the 14th ACM PODS. San Jose,California- [ s. n. ] ,1995.
5尹建璋.基于XML的应用层数据交换技术的研究[J].计算机与现代化,2009(8):97-100. 被引量：12
6梅中辉,经亚枝.NET中的数据访问技术—ADO.NET[J].微计算机信息,2003,19(1):70-70. 被引量：26
7Myllymaki J. Effective Web Data Extraction with Standard XML Technologies [ C ]//Proceedings of the 10th International Conference on World Wide Web. New York: ACM Press, 2001:689-696.
8黄胜根,陈蜀宇.基于ASP.NET MVC框架的干教系统的设计与实现[J].计算机技术与发展,2010,20(2):190-193. 被引量：28
9许劲松,石磊.基于递归MVC结构的Web应用软件分析模式[J].计算机工程与设计,2005,26(12):3417-3419. 被引量：5
10杨平乐,刘树森,高雅.基于ADO.NET学生信息管理系统的设计与实现[J].计算机技术与发展,2010,20(5):238-241. 被引量：15

二级参考文献40

1叶枝平,李振坤,刘竹松,张夏雨,杨红飞.基于XML的数据交换平台的研究与设计[J].微计算机信息,2008,24(9):243-244. 被引量：14
2欧阳元新,熊璋,侯亚荣.UML活动图在工作流过程建模中的应用研究[J].计算机工程与设计,2004,25(9):1479-1481. 被引量：16
3方进,王铁成,石志宽,谢俊元.基于UML的工作流建模[J].计算机工程与设计,2004,25(9):1572-1575. 被引量：25
4甘早斌,彭彬,李志欣.基于集中控制的MVC模型[J].计算机工程与设计,2005,26(2):454-455. 被引量：14
5黎永良,崔杜武.MVC设计模式的改进与应用[J].计算机工程,2005,31(9):96-97. 被引量：71
6刘胜,王诚,郭亮,刘飞.基于虚拟分公司模式的销售管理系统开发[J].重庆大学学报（自然科学版）,2005,28(6):15-18. 被引量：7
7张红梅,梁允荣.基于XML实现电子商务平台的分析与研究[J].计算技术与自动化,2005,24(2):115-117. 被引量：5
8许劲松,石磊.基于递归MVC结构的Web应用软件分析模式[J].计算机工程与设计,2005,26(12):3417-3419. 被引量：5
9傅建中,李建法,沈红卫.产学研结合——地方高校创建特色之路[J].中国大学教学,2007(2):69-70. 被引量：24
10Fowler Martin.企业应用架构模式[M].北京:机械工业出版社,2004.

共引文献84

1张牧笛,罗驱波,白静宜.ADO.NET数据访问模型研究[J].微计算机信息,2008,24(6):202-204. 被引量：18
2崔艳春..NET中的数据访问技术——ADO.NET[J].科技风,2008(9):61-61.
3梁伟雄.基于.net的高职学校教职工住房管理系统的设计与实现[J].成功,2010(4):210-210.
4温洪洋.基于ASP.NET MVC的司法鉴定管理系统的设计与实现[J].中国刑警学院学报,2015(1):51-53.
5张冬敏.基于.NET体系的营销管理系统设计与实现[J].自动化与仪器仪表,2016(7). 被引量：1
6华中农业大学多项措施引导学生到基层和西部就业[J].中国大学生就业,2005(16):1-1. 被引量：1
7许劲松,曹先彬.企业应用软件架构分析[J].计算机工程与设计,2006,27(7):1190-1193. 被引量：5
8夏晖,董平,苏力萍.基于.Net框架的设备管理系统的设计与实现[J].微计算机信息,2006,22(08X):110-111. 被引量：12
9罗凌..NET平台中XML与Web数据库双向数据交换接口的研究和实现[J].微计算机信息,2006,22(09X):242-244. 被引量：6
10李春红,高建华.使用分层模型改进MVC设计架构[J].计算机工程与设计,2007,28(4):766-769. 被引量：19

同被引文献38

1王富东,邵光庆.单片机多串口通讯技术及其应用[J].仪器仪表学报,2002,23(z1):262-264. 被引量：21
2卢凤山.DCS集散控制系统的故障原因及运行管理探析[J].中国石油和化工标准与质量,2012,32(3):208-208. 被引量：3
3宋威,周伟.集散控制系统应用现状及其发展[J].工业控制计算机,2004,17(11):1-2. 被引量：16
4王孝良,宋国振,安毅.基于GPRS的远程实时数据采集监控系统[J].仪器仪表与分析监测,2005(1):23-26. 被引量：18
5孟志军,王秀,赵春江,薛绪掌.基于嵌入式组件技术的精准农业农田信息采集系统的设计与实现[J].农业工程学报,2005,21(4):91-96. 被引量：52
6毕翔,张建军,王跃飞.基于CAN总线的PLC-PC控制系统研究[J].合肥工业大学学报（自然科学版）,2005,28(6):599-602. 被引量：7
7方蔚涛,杨丹,李珩,胡月,汪显伟.数字化校园信息门户的设计研究[J].计算机科学,2007,34(3):135-138. 被引量：15
8邱清盈,郑国民,冯培恩,武建伟.基于正则表达式的专利信息提取方法研究[J].中国机械工程,2007,18(19):2326-2329. 被引量：15
9Fabien B, Val6rie M. A concrete solution for Web services a- daptability using policies and aspocts [ C ]//Proceedings of the 2nd International Conference on Oil Service Oriented Compu- ting. New York, NY, USA : ACM,2004 : 134-142.
10Philipp L. The strategic impact of service oriented architec-tures [ C ]//Proceedings of the 14th Annual IEEE International Conference and Workshops on Engineering of Computer- bused Systems. Washington, DC, USA : IEEE Computer Socie- ty,2007:475-484.

引证文献3

1赵英,王飞.手持移动设备在校园信息系统中的应用[J].计算机技术与发展,2012,22(12):195-197. 被引量：9
2雷东升,翟东升,张杰,李阳.专利数据自动采集系统的设计与构建[J].情报探索,2015(10):56-60.
3张冰,余艳伟,鲁绍坤,李正风,张铭,纪霖,张天顺.基于物联网的集散控制系统在温室群环境监测控制中的应用[J].江苏农业科学,2018,46(13):226-231. 被引量：8

二级引证文献17

1倪建新.基于Android平台的校园信息系统的设计与实现[J].现代计算机,2013,19(24):93-96. 被引量：4
2郭一晶,李兆才.基于Android和网页解析的教务系统设计与实现[J].计算机时代,2014(6):38-40.
3王明亮,闵新力,张余,刘阅军.XML自定义电子病历在移动医疗中设计与实现[J].计算机测量与控制,2014,22(10):3403-3405. 被引量：3
4李珊娜.移动校园手机客户端的设计与应用[J].铁路计算机应用,2014,23(9):33-35. 被引量：5
5柴廷英,闵新力,张余,刘策,高珊,唐凯.面向医疗病案的自定义XML结构表单设计[J].计算机应用与软件,2015,32(1):316-319.
6曹双双.基于Android手机的校园移动平台设计[J].软件导刊,2015,14(8):179-181. 被引量：9
7樊颖军.基于手机的高校校园网信息系统服务延伸平台研究[J].自动化与仪器仪表,2016(11):91-92. 被引量：1
8徐英卓,路鹏.基于移动终端的高校信息推送平台研究[J].通信电源技术,2017,34(4):177-179. 被引量：1
9刘光伟,刘璐.温室环境智能检测与控制系统设计[J].科技资讯,2018,16(24):97-97.
10刘玉兰.嵌入式物联网控制器及监测平台开发[J].IT经理世界,2019,0(5):26-29.

1詹沐清,朱颖.基于Web的信息抽取技术探讨[J].中国科技信息,2013(4):69-70. 被引量：2
2蔡霞,张森,周宇.模式发现在Web抽取中的应用及设计[J].控制工程,2003,10(3):227-229. 被引量：7
3詹沐清,卢荣华.基于Web抽取技术的陶瓷产品信息的应用分析[J].中国科技信息,2012(24):80-81.
4詹沐清.基于陶瓷类电子商务网站的Web信息抽取系统的研究[J].电脑知识与技术,2014,10(8X):5799-5802.
5李贵,陈韶刚,韩子扬,李征宇,孙平,孙焕良.基于Web的实例扩展与属性值扩充方法[J].计算机科学,2014,41(B11):411-418. 被引量：1
6牟晓东,曲志学.做网管不能懒![J].网管员世界,2011(5):83-84.
7杨喜权,孔德冉,施华,孙娜,张野.基于领域本体的Web信息抽取[J].信息技术,2009,33(9):69-72. 被引量：2
8李建昊,郑磊.移动互联网时代的政府服务创新研究——以韩国首尔市政府移动客户端应用为例[J].电子政务,2015(3):33-37. 被引量：7
9陈建辉,刘利民.基于模式发现的在线招聘信息抽取[J].微计算机信息,2006,22(09X):194-196. 被引量：5
10冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4

计算机技术与发展

2012年第5期

浏览历史

内容加载中请稍等...

基于Web内容的一种数据自动抽取方法被引量：3

参考文献12

二级参考文献40

共引文献84

同被引文献38

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于Web内容的一种数据自动抽取方法 被引量：3

参考文献12

二级参考文献40

共引文献84

同被引文献38

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于Web内容的一种数据自动抽取方法被引量：3