Web页面表格内容的提取方法研究被引量：2

Study on the Method of Information Retrieving From Web Table

下载PDF

导出

摘要 Web网页作为巨大的数据资源,其页面信息的提取也成为研究的热点之一。通过对XML特点的分析,利用HTML Tidy将HTML文档转换成XML文档,讨论了基于XML的Web数据的提取方法,将其中有用的信息存储到数据库中,实现Web页面信息的提取。 As an enmormous data source,retrieving knowledge from Web is one of the hot points in the information study field now.The paper analyses the trait of XML,then transforms the HTML document to XML document by HTML Tidy,and discusses the retrieving method of the web data mining based on XML.It extracts the useful information and store it into database,achieve the goal of retrieving the information from Web.

作者鲍仕壮徐超谭守标李正平

机构地区安徽大学电子科学与技术学院

出处《软件导刊》 2008年第9期65-67,共3页 Software Guide

基金安徽省教育厅自然科学研究重点项目(2005KJ004ZD)

关键词数据提取 XML 结构识别 Data Extraction XML Identification of Structure

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献6

1赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J].现代图书情报技术,2008(3):24-31. 被引量：11
2朱咫渝,陈琳.Mashup在图书馆的应用[J].现代情报,2008,28(6):142-144. 被引量：9
3曹霞.OPAC基本功能研究概述[J].农业图书情报学刊,2008,20(10):58-60. 被引量：6
4李健,徐超,谭守标.一种Web数据挖掘系统的设计和研究[J].计算机技术与发展,2009,19(2):70-73. 被引量：7
5王放,顾宁,吴国文.基于本体的WEB表格信息抽取[J].小型微型计算机系统,2003,24(12):2142-2146. 被引量：17
6陈玉芳,葛燧和.一个基于XML的WEB数据收集模型的研究[J].计算机工程与应用,2004,40(10):150-152. 被引量：18

引证文献2

1党兴华,王洪燕.WEB页面分析技术和Mashup技术在图书馆OPAC中的应用[J].光盘技术,2008(12):11-11. 被引量：3
2秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220. 被引量：6

二级引证文献9

1陈松喜.Interlib OPAC系统功能剖析及其应用[J].图书馆学研究（应用版）,2010(7):37-41. 被引量：3
2顾磊.2005-2010年OPAC2.0国内文献研究综述[J].图书情报工作,2011,55(17):52-56. 被引量：1
3黄国超,王衍波,黄开国.基于XSLT的XML文档信息隐藏方法研究[J].计算机技术与发展,2011,21(10):246-249.
4刘西义.图书馆Mashup研究进展[J].图书馆学刊,2012,34(10):138-140.
5戴慧敏,朱艳辉.WEB就业信息抽取技术研究[J].电脑知识与技术,2013,9(4):2298-2300. 被引量：1
6李杨,朱月琴,李朝奎,肖克炎,范建福,李秋平.面向海量地质文档的表格信息快速抽取方法研究[J].中国矿业,2017,26(9):98-103. 被引量：3
7赵洪,王芳.大规模异构的政府统计报表信息抽取与集成融合研究[J].情报学报,2020,39(9):938-948. 被引量：7
8马佳芸,杨林峰.基于多特征融合的网页表格数据提取方法[J].工业控制计算机,2022,35(11):81-83.
9梁天恺,苏新铎,黄宇恒,徐天适,张华俊,曾碧.智能化表格识别技术综述[J].计算机工程与应用,2023,59(12):62-76.

1石红娟.Excel条件格式巧应用[J].电脑知识与技术（经验技巧）,2013(3):42-45. 被引量：1
2丁锦滔.PIC单片机C语言程序设计(3)[J].电子制作,2009,17(12):57-59.
3葛宇.格式三板斧快速制作表头[J].电脑迷,2007,0(23):80-81.
4冯晓伟.Excel表格轻松转图片[J].电脑知识与技术（经验技巧）,2011(2):36-36.
5吕红梅.动态网页中实现与Excel表格的交互操作[J].山东气象,2004,24(1):30-31.
6薰衣草.Excel 2007表格内容随心看[J].电脑迷,2009(20):76-76.
7批量修改Excel表格内容[J].计算机应用文摘,2005(11):116-116.
8王彦博.一键转换Excel表格内容为HTML格式[J].网友世界,2011(7):14-15.
9张新军,项小影.批量将DOC文档中的表格内容输入到EXCEL[J].教育信息技术,2011(5):60-62.
10把批注的内容转入表格内[J].电脑爱好者,2012(22):46-46.

软件导刊

2008年第9期

浏览历史

内容加载中请稍等...

Web页面表格内容的提取方法研究被引量：2

同被引文献6

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

Web页面表格内容的提取方法研究 被引量：2

同被引文献6

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

Web页面表格内容的提取方法研究被引量：2