期刊文献+

基于Web内容的一种数据自动抽取方法 被引量:3

A Data Automatic Extraction Method Based on Web Content
下载PDF
导出
摘要 Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据。文中将使用Asp.Net技术开发一种基于Web内容的数据自动抽取方法。首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面。这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息。 The rapid development of the Web makes it become increasingly an important source of data that people find useful data,cur rent Web sites present information on various topics in various formats and structures. The page organization structure of Web content makes it difficult to use the method of system to effectively extract target data. It uses the Asp. Net technology to develop a data automatic extraction method based on Web content. First it selects target data sources,then it invokes automatically data source and obtains static html document content,generates description file of webpage in accordance with fixed roles,analyzes html document,sets a goal anchor,finally it uses regular expressions and c # technology to automatically extract target data and generate required Web page. This data automatic extraction method can make Web user quickly get the required data information.
作者 朱永生 王军
出处 《计算机技术与发展》 2012年第5期87-89,93,共4页 Computer Technology and Development
基金 江苏省公益性行业科研专项(GYHY201106037)
关键词 Web抽取 HTML 变换 ASP.NET web extraction html anchor transform Asp. Net
  • 相关文献

参考文献12

  • 1Hammer J, Breunig M, Garcia-Molina H S, et al. Template-based wrappers in the TSIMMIS system[ C ]//Proceedings of the Twenty-Sixth SIGMOD International Conference on Man- agement of Data. Tucson, Arizona : [ s. n. ] , 1997.
  • 2Hammer J, Garcia-Molina H, Cho J, et al. Extracting semi- structured information from the Web [ C ]//Proceedings of the Workshop on Management of Semi-structured Data. Tucson, Arizona: [s. n. ] ,1997.
  • 3Lee T, Bressan S, Madnick S. Source attribution for querying against semi-structured documents [ C ]//Workshop on Web Information and Data Management,Acm Conference on Infor- mation and Knowlege Management. [ s. 1. ] : [ s. n. ], 1998.
  • 4Rajaraman A, Sagiv Y, Ullman J. Answering Queries Using Templates with Binding Patterns [ C ]//Proceedings of the 14th ACM PODS. San Jose,California- [ s. n. ] ,1995.
  • 5尹建璋.基于XML的应用层数据交换技术的研究[J].计算机与现代化,2009(8):97-100. 被引量:12
  • 6梅中辉,经亚枝.NET中的数据访问技术—ADO.NET[J].微计算机信息,2003,19(1):70-70. 被引量:26
  • 7Myllymaki J. Effective Web Data Extraction with Standard XML Technologies [ C ]//Proceedings of the 10th International Conference on World Wide Web. New York: ACM Press, 2001:689-696.
  • 8黄胜根,陈蜀宇.基于ASP.NET MVC框架的干教系统的设计与实现[J].计算机技术与发展,2010,20(2):190-193. 被引量:28
  • 9许劲松,石磊.基于递归MVC结构的Web应用软件分析模式[J].计算机工程与设计,2005,26(12):3417-3419. 被引量:5
  • 10杨平乐,刘树森,高雅.基于ADO.NET学生信息管理系统的设计与实现[J].计算机技术与发展,2010,20(5):238-241. 被引量:15

二级参考文献40

共引文献84

同被引文献38

引证文献3

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部