Web信息的自主抽取方法被引量：15

Autonomous Extract Information from Web Pages

下载PDF

导出

摘要提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。 The paper presents a method of autonomous information extraction from web pages base on structure of table and list.The method utilizes extracting information from relevant pages autonomously according user's demand and relation model restructuring extracted information to database.For extracting information from table,earmark only one page and get extraction knowledge for extracting information from table.Wrapper can be adapted to the pages' changes with self-learning and make it automatic extraction.For extracting information from list,wrapper can automatic get the path,which the information block is in layer structure of DOM by analysing structure of DOM,and get the value of information object base on extraction knowledge.Adapt to Web page's dynamic change by self-learning.

作者许建潮侯锟

机构地区长春工业大学计算机科学与工程学院吉林大学符号计算与知识工程教育部重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2005年第14期185-189,198,共6页 Computer Engineering and Applications

关键词 WEB 半结构化数据信息抽取 WRAPPER Web,semi-structured data,information extraction,Wrapper

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
2朱明,黄云,蔡庆生.基于多知识的Web网页信息抽取方法[J].小型微型计算机系统,2001,22(9):1058-1061. 被引量：10
3李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
4张义忠,赵明生,朱精南.基于内容的网页特征提取[J].计算机工程与应用,2001,37(10):1-3. 被引量：9
5周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20
6Muslea I,Minton S,Knoblock C A.Hierarchical Wrapper Induction for Semistructured Information Sources[J].To Appear in the Journal of Autonomous Agents and Multi-Agent Systems, 1999.
7Kurt D Bollacker,Steve Lawrence,C Lee Giles et al. CiteSeer:An Autonomous Web Agent for Automatic Retrieval and identification of Interesting Publications[C].In:Proceedings of 2nd International Conference on Autonomous Agent, 1998-04:116～123.
8Jose Luis Ambite,Naveen Ashish,Craig Knoblock et al.A System for Constructing Mediators for Internet Source,System Demonstration[C].In:Proceedings of the ACM SIGMOD International,Conference on Management of Data, Seattle, Washington, 19983..
9Stefano Ceri,Piero Fraternali,Aldo bongio[J].Web Modeling Language (WebML) :A modeling language for designing Web Sites[J].Computer Networks, 2000:137～157.
10Embley D W,Campbell D M,Jiang Y S et al. Conceptual-ModelBased Data Extraction from Multiple-Record Web Documents[J].Data and Knowledge Engineering,1999.

二级参考文献25

1Ham mar J，SIGMOD Record，1997年，26卷，2期，18页
2Hammer J，Proceedings of the Workshop on Management of Semistructured Tucson，1997年，18～25页
3Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
4Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
5Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
6Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
7Mitchell T. Machine Learning. New York: McGraw Hill, 1997
8Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
9Birbeck M et al. Professional XML. Wrox Press Inc, 2000
10Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621

共引文献177

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
5胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
6GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
7孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
8李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
9郭彦兵.网页文本分类技术研究[J].科技创业家,2013(9):54-54.
10王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8

同被引文献63

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4朱前飞,高芒.XML解析技术研究[J].电脑开发与应用,2004,17(11):26-28. 被引量：17
5王辉.Web页面爬行实践——.NET下正则表达式的应用[J].程序员,2004(9):112-114. 被引量：1
6张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
7王富强,王默玉.数据岛在HTML的嵌入显示[J].电脑与信息技术,2005,13(1):30-32. 被引量：2
8陈冰云.标准化跨库检索系统的设想[J].科技情报开发与经济,2005,15(6):231-232. 被引量：16
9洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8
10刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11

引证文献15

1李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
2龙波,邓健爽,陈琼.基于网页布局及关键词组的垂直搜索技术[J].现代计算机,2006,12(9):46-49. 被引量：3
3韩志扬,孟晓景.Web2．0 RIA基础类研究[J].福建电脑,2006,22(10):34-35.
4李伟,黄颖.基于HtmlParser的网页信息提取[J].兵工自动化,2007,26(7):41-41. 被引量：4
5黄颖,黄治平.HtmIParser提取网页信息的设计与实现[J].江西理工大学学报,2007,28(6):26-28. 被引量：6
6李丽莉,李娅,周琪云.正则表达式在网络信息监控分析系统中的应用[J].信息技术,2008,32(4):33-34.
7王琳琳.基于HTML解析器的Web信息提取技术[J].郑州轻工业学院学报（自然科学版）,2008,23(6):100-102. 被引量：1
8石玮,周焱华,汪自云.基于INTERNET的在线IP页面信息单元实时解析的设计与实现[J].福建电脑,2009,25(6):116-117.
9柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
10李卫东,王井阳,王瑞江.基于三大检索的科技文献统计分析系统的设计与实现[J].河北省科学院学报,2009,26(2):14-18.

二级引证文献43

1杨祖虎,石伟伟.一种可配置的富客户端地图聚合应用模式研究[J].测绘与空间地理信息,2013,36(S1):11-14.
2郭清宇,赵冬.垂直搜索技术在农村综合信息网站设计中的应用[J].中原工学院学报,2007,18(5):66-68.
3滕国库,张一弓.基于ARM嵌入式芯片TCP/IP协议的数据采集设计[J].辽宁石油化工大学学报,2007,27(4):51-55. 被引量：5
4肖铮,胡景德,侯宗浩.基于手机的无线搜索技术[J].西南民族大学学报（自然科学版）,2007,33(4):968-971.
5章立,陈蜀宇.一种针对商品价格进行实时垂直搜索的方法[J].重庆工学院学报（自然科学版）,2008,22(10):140-143.
6胡瑜,王立志.基于HTML结构特征的网页信息提取[J].辽宁石油化工大学学报,2009,29(3):65-69. 被引量：5
7郎凤举.HTMLParser提取网页超链接研究[J].电脑编程技巧与维护,2010(2):74-75. 被引量：1
8谭玉玲.基于正则表达式的数据处理应用[J].武汉理工大学学报（信息与管理工程版）,2010,32(2):249-252. 被引量：9
9段青玲,刘伃,胡梅,王芳.基于网络时间协议的时间同步实现方法[J].计算机应用,2010,30(A01):1-2. 被引量：2
10陈诗琴,李文江.基于.NET的农产品市场行情信息采集——以重庆农产品市场行情查询网为例[J].现代图书情报技术,2010(6):88-92.

1唐红光,周铁军.基于XML的Web数据挖掘技术[J].民营科技,2007(1):14-14. 被引量：1
2苗颖.Web页面信息自主抽取技术的研究[J].中国科技信息,2007(23):104-104. 被引量：1
3顾红其.Xml在web数据挖掘中的作用与研究[J].科技信息,2008(27). 被引量：1
4于海雯,刘斓,娄芳.基于Rough集的Web页面信息的提取模型及页面近似度比较[J].南昌大学学报（理科版）,2006,30(4):390-393.
5田苗苗.基于xml的web数据挖掘技术研究与实现[J].中国科技博览,2015,0(45):143-143.
6年梅,吴建明.新疆师范大学数字化校园信息集成建设的研究[J].新疆师范大学学报（自然科学版）,2008,27(3):53-55. 被引量：2
7沈洁,薛贵荣.一种基于XML的Web数据挖掘模型[J].系统工程理论与实践,2002,22(9):74-77. 被引量：33
8吴伟,刘友华.基于DOM的Web信息自动抽取[J].现代图书情报技术,2004(2):68-71. 被引量：4
9路松峰,王丹丹.基于网页格局的内容分块算法[J].计算机工程与科学,2007,29(9):16-18.
10王川,段德全,王晓东.基于改进的PSO和HMM的Web信息抽取算法[J].河南师范大学学报（自然科学版）,2010,38(5):65-68. 被引量：3

计算机工程与应用

2005年第14期

浏览历史

内容加载中请稍等...

Web信息的自主抽取方法被引量：15

参考文献11

二级参考文献25

共引文献177

同被引文献63

引证文献15

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

Web信息的自主抽取方法 被引量：15

参考文献11

二级参考文献25

共引文献177

同被引文献63

引证文献15

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

Web信息的自主抽取方法被引量：15