Web页面表格信息的自主抽取被引量：2

Autonomous Information Extraction from HTML Pages Base on Structure of Table

下载PDF

导出

摘要本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。 The paper studies autonomous information extraction from HTML pages base on structure of table, gets extraction knowledge for extracting information from table by marking the initial page. Wrapper can adapt to the pages＇ changes with self-learning and make it automatic extraction effectively.

作者侯锟罗海龙

机构地区吉林师范大学计算机学院吉林省四平市商业学校

出处《科技广场》 2006年第4期70-72,共3页 Science Mosaic

基金吉林师范大学硕士启动项目(基于Web个性化服务技术与研究 2004年)资助

关键词信息抽取包装器文档对象模型 Information Extraction Wrapper Document Object Model

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量：21
2周源远,王继成,郑刚,张福炎.Web页面清洗技术的研究与实现[J].计算机工程,2002,28(9):48-50. 被引量：20
3孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395. 被引量：83

二级参考文献10

1[1]Joachim Hammer, Hector Garcia-Molina, Jumghoo Cho, et al.Extracting Semistructured Information from the Web [C].Proceedings of the First Workshop on Management of Semistructured Data, Tucson, Arizona, 1997.18-25.
2[2]Arnaud Sahuguet, Fabien Azavant. Building Light-weight Wrap-pers for Legacy Web Data-sources Using W4F[C]. International Conference on Very Large Databases (VLDB), Edinburgh,Scotland, 1999.738-741.
3[3]S Soderland. Learning Information Extraction Rules for Semi-structured and FreeText [ J ]. Machine Learning, 1999, 1-44.
4[4]N Kushmerick, D Weld, B Doorenbos. Wrapper Induction for Information Extraction [ C ]. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), Osaka, Japan, 1997.729-737.
5[5]Ion Muslea, Steve Minton, Craig Knoblock. Stalker: Learning Extraction Rules for Semistructured, Web-based Information Sources [ C ]. AAAI-98 Workshop on "AI & Information Integration", Madison, 1998.74-81.
6[6]Ion Muslea. Extraction Patterns: From Information Extraction to Wrapper Induction[ R]. Technical Report, Information Sciences Institute, University of Southern Californi, 1998.
7Wang Q，Proc EDBT 2000，2000年
8Liu L，Proc of ICDE 2000，2000年，611页
9王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
10王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118

共引文献118

1严彩梅.Web智能信息检索体系结构的研究[J].计算机应用研究,2002,19(11):51-52. 被引量：3
2詹雅静.浅谈学校学籍管理系统的设计和实现[J].内蒙古科技与经济,2005(z1):151-152. 被引量：1
3李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
4李洋,栾吉华.一种新的Web信息抽取方法研究[J].科技资讯,2007,5(35):80-81.
5李亚.学生学籍管理系统的设计与实现[J].科技风,2008(23):118-119. 被引量：1
6姜传菊.试论Web中的数据挖掘[J].现代图书情报技术,2003(S1):162-164. 被引量：5
7黄俊涛.基于Web成绩管理系统的设计与实现[J].成功,2010(4):292-292.
8郭彦兵.网页文本分类技术研究[J].科技创业家,2013(9):54-54.
9刘洪涛,张平,黄智兴,程静,刘革平.用户浏览行为数据采集方法综述[J].西南科技大学学报,2004,19(2):45-49. 被引量：6
10贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3

同被引文献13

1李向阳,张亚非.基于语义标注的信息抽取[J].解放军理工大学学报（自然科学版）,2004,5(4):39-43. 被引量：12
2李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4Stephen Soderland. Learning Information Extraction Rules for Semi-Structured and Free Text[J] 1999,Machine Learning(1-3):233～272
5李宏伟,史培中,张素智.一种可行的Web数据抽取包装器的设计方法[J].计算机应用与软件,2009,26(3):110-113. 被引量：3
6张志远,徐涛,冯霞.航班信息抽取规则的自动生成技术[J].计算机工程,2011,37(6):65-67. 被引量：2
7李青山,陈平.一种基于内容的HTML到XML转换策略[J].计算机工程与应用,2001,37(9):30-32. 被引量：9
8王庆一,王继成,周源远,袁春风.多信息块Web页面的信息抽取[J].计算机应用研究,2002,19(10):23-26. 被引量：21
9汤艳红,李石君,黄竞伟.抽取Web信息的包装器归纳学习构造[J].计算机工程,2003,29(17):60-62. 被引量：2
10孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,20(11):32-36. 被引量：13

引证文献2

1何纯芳.自动获取国家统计局网站行政区划代码的方法[J].电脑编程技巧与维护,2014(16):73-74.
2陈金鑫,罗立群.基于主体知识库的Web主体信息抽取系统[J].软件导刊,2007,6(10):41-42.

科技广场

2006年第4期

浏览历史

内容加载中请稍等...

Web页面表格信息的自主抽取被引量：2

参考文献3

二级参考文献10

共引文献118

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

Web页面表格信息的自主抽取 被引量：2

参考文献3

二级参考文献10

共引文献118

同被引文献13

引证文献2

相关作者

相关机构

相关主题

浏览历史

Web页面表格信息的自主抽取被引量：2