Web页面列表信息的自主抽取

Autonomous Information Extraction from Web Pages Base on Structure of List

下载PDF

导出

摘要本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。 The paper studied autonomous information extraction from Web pages based on structure of list. Gettingextraction knowledge according to the analysis of Web pages＇ feature, wrapper can adapt to the pages＇ changes with self-learning and make it automatic extraction effectively.

作者侯锟罗海龙

机构地区吉林师范大学计算机学院四平市商业学校

出处《科技广场》 2007年第3期117-118,共2页 Science Mosaic

关键词信息抽取包装器文档对象模型 Information Extraction Wrapper Document Object Model

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量：21
2周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20
3朱明,黄云,蔡庆生.基于多知识的Web网页信息抽取方法[J].小型微型计算机系统,2001,22(9):1058-1061. 被引量：10

二级参考文献9

1[1]Joachim Hammer, Hector Garcia-Molina, Jumghoo Cho, et al.Extracting Semistructured Information from the Web [C].Proceedings of the First Workshop on Management of Semistructured Data, Tucson, Arizona, 1997.18-25.
2[2]Arnaud Sahuguet, Fabien Azavant. Building Light-weight Wrap-pers for Legacy Web Data-sources Using W4F[C]. International Conference on Very Large Databases (VLDB), Edinburgh,Scotland, 1999.738-741.
3[3]S Soderland. Learning Information Extraction Rules for Semi-structured and FreeText [ J ]. Machine Learning, 1999, 1-44.
4[4]N Kushmerick, D Weld, B Doorenbos. Wrapper Induction for Information Extraction [ C ]. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), Osaka, Japan, 1997.729-737.
5[5]Ion Muslea, Steve Minton, Craig Knoblock. Stalker: Learning Extraction Rules for Semistructured, Web-based Information Sources [ C ]. AAAI-98 Workshop on "AI & Information Integration", Madison, 1998.74-81.
6[6]Ion Muslea. Extraction Patterns: From Information Extraction to Wrapper Induction[ R]. Technical Report, Information Sciences Institute, University of Southern Californi, 1998.
7Hammer J，Proceedings of the Workshop on Management of Semistructured Tucson，1997年，18～25页
8王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
9王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118

共引文献46

1李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
2李洋,栾吉华.一种新的Web信息抽取方法研究[J].科技资讯,2007,5(35):80-81.
3姜传菊.试论Web中的数据挖掘[J].现代图书情报技术,2003(S1):162-164. 被引量：5
4郭彦兵.网页文本分类技术研究[J].科技创业家,2013(9):54-54.
5刘洪涛,张平,黄智兴,程静,刘革平.用户浏览行为数据采集方法综述[J].西南科技大学学报,2004,19(2):45-49. 被引量：6
6贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3
7张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
8周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.
9程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7
10许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15

1李健.安全共享之注意事项[J].网管员世界,2009(16):92-93.
2开始菜单内常用程序列表为空[J].电脑爱好者（普及版）,2010(3):95-95.
3张毅.使用DOM技术维护服务器列表[J].电脑编程技巧与维护,2006(6):24-27.
4崔媛媛.组和列表信息管理业务及其关键技术[J].移动通信,2006,30(12):36-39.
5崔媛媛.组和列表信息管理业务及其关键技术[J].电信网技术,2007(1):23-27.
6宋景平,宋晔,张硕.名址快速录入分布式系统的设计[J].工矿自动化,2009,35(11):131-134.
7马冬梅.让您无忧启动[J].视窗世界,2003(9):150-150.
8汪文娟,李兵,何鹏.开源软件社区开发者角色的演化分析[J].复杂系统与复杂性科学,2015,12(1):1-7. 被引量：7
9木木.多样化生成二维文件列表[J].电脑爱好者,2014,0(22):8-10.
10赵博,吴静.基于ZigBee无线网络的Cluster-Tree路由算法研究[J].电子技术应用,2016,42(4):116-119. 被引量：6

科技广场

2007年第3期

浏览历史

内容加载中请稍等...

Web页面列表信息的自主抽取

参考文献3

二级参考文献9

共引文献46

相关作者

相关机构

相关主题

浏览历史