基于页面对比分析的数据提取被引量：1

Data Extracting Based on the Page Comparison and Analysis

下载PDF

导出

摘要针对提供大规模数据查询的Web页面,提出了一种基于站点内页面对比分析的Web数据提取方法。在对页面建树和分块的基础上对比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到数据库中。该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取。 The Web based data service is expanding quickly with the dramatic expanse of Intemet. In this paper a Web data extraction method is proposed , which is based on Page Comparison and structure analysis Firstly it parses the semi-structured HTML documents and partitions it. Then Analysis relied on table structure can extract data from significative arca which is extracted through the similar Pages Comparison. Finally these data can be integrated into database. This approach has been efficiently and accurately applied in many retrieval systems.

作者张聚弘山岚

机构地区北京化工大学信息科学与技术学院

出处《计算机与数字工程》 2006年第1期49-52,共4页 Computer & Digital Engineering

关键词数据提取页面结构半结构化 data extracting, Web page structure, semi- structured

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1Line Eikvil.. Information Extraction from World Wide Web A Survey[ M], Report No. 945 , Norwegian Computing Center ,ISBN 82 - 539 - 0429 - 0 , July , 1999.
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3苏志华,杨冬青,唐世渭,王腾蛟.基于结构分析和实体识别的信息集成[J].计算机研究与发展,2004,41(10):1823-1828. 被引量：5
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5沈晓娟,刘渊.WEB半结构化数据查询[J].计算机工程与设计,2004,25(7):1178-1181. 被引量：1

二级参考文献39

1O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
2Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620
3Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621
4R Baumgartner, S Flesca, G Gottlob. Visual Web information extraction with Lixto. In: Proc of the 27th Int'l Conf on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001. 119～ 128
5D Freitag. Machine learning for information extraction in information domains. Machine Learning, 2000, 39 (2-3): 169 ～202
6S SoderLan. Learning information extraction rules for semistructured and free text. Machine Learning, 1999, 34(1-3): 233～ 272
7R D Doorenbos, O Etzioni, D S Weld. A scalable comparasonshopping agent for the World-Wide Web. In: ACM Agents' 97.New York: ACM Press, 1997. 39～48
8D W Embley, et al. Conceptual-model-based data extraction from multiple-record Web pages. Data and Knowledge Engineering,1999, 31(3): 227～251
9A Finn, A Kushmerick, B Smyth. Fact or fiction: Content classification for digital libraries. The 2nd DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, Dublin, Ireland, 2001
10S Gupta, G Kaiser, D Neistadt, et al. DOM-based content extraction of HTML documents. In: Proc of the 12th Int'l World-Wide Web Conf. New York: ACM Press, 2003. 207～214

共引文献100

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
4吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
5吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
6贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
7贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
8赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
9谢华,刘卫国.基于局部语义的网页净化算法[J].计算机系统应用,2007,16(5):25-28.
10章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1

同被引文献13

1苏志华,杨冬青,唐世渭,王腾蛟.基于结构分析和实体识别的信息集成[J].计算机研究与发展,2004,41(10):1823-1828. 被引量：5
2王煜,王光明.比较购物现状之研究[J].计算机时代,2005(8):1-2. 被引量：5
3李禹生,周建中.基于HTML的W eb信息元数据提取技术应用[J].武汉工业学院学报,2005,24(4):7-10. 被引量：4
4郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展,2007,17(3):98-101. 被引量：7
5Chia-Hui Chang,Mohammed Kayed,et al. A survey of Web information extraction systen- [ J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(10) :1411-1428.
6Neeli S, Govindasamy K, Wilamowski B M, et al. Automated data mining from Web servers using Perl script[ C]//INES 2008,2008 : 191-196.
7Liu Ling, Pu Calton, Han Wei. XWRAP: An XML2 enabled wrapper construction system for Web information source[ C ]// IEEE Computer Society, Washinton DC ,2000:611-621.
8Freitag D. Machine learning for information extraction in informal domains[J]. Machine Learning,2000,39(2-3):169-202.
9于江德樊孝忠顾益军.中文Web信息提取中实体关系的研究[J].计算机与信息技术,2004,(1).
10何章鸿,董守斌.基于XPath的广告数据提取研究[J].江西师范大学学报（自然科学版）,2008,32(2):153-156. 被引量：1

引证文献1

1苏秀芝,楼新远.正则表达式与XML配置文件相结合的数据提取[J].计算机与现代化,2009(9):30-31. 被引量：2

二级引证文献2

1盛帅,郝改琴.一种基于XML和正则表达式的简单验证框架[J].知识经济,2010(14):122-123.
2方挺立,黄玮,戴霖.MBD模型质量检测系统研发与应用研究[J].机械设计与制造工程,2018,47(6):73-77. 被引量：1

1于瑛英,薛毅,池宏.一种提高SVM训练速度的新方法[J].数理统计与管理,2008,27(3):409-417. 被引量：3
2连立贵,金凤,蔡家楣.数据仓库中的数据提取[J].计算机工程,2001,27(9):61-62. 被引量：16
3王宗平.一种简单易行的汉字点阵数据提取方法[J].电子技术应用,1993,19(6):41-42. 被引量：1
4mumu.谷歌提醒:移动站内页不要重定向到首页[J].计算机与网络,2014,0(13):39-39.
5李新焕,陈婧,王兰花,赵应丁.社交网络数据提取方法研究与实现[J].网络安全技术与应用,2017(4):104-106. 被引量：1
6朱强.基于网络信息提取系统中用户兴趣模型建立的研究[J].科技致富向导,2013(11):23-23.
7随意调整内页顺序的笔记本[J].文体用品与科技,2017,0(7):6-6.
8林治,王睿.基于强化学习的Deep Web数据提取方法[J].计算机与数字工程,2015,43(2):299-302.
9赵美艳,王会进,张诗军.WEB数据库XML数据发布及信息提取系统[J].华侨大学学报（自然科学版）,2004,25(3):315-317. 被引量：3
10周绍景,潘宏斌,李季.基于特征的多分类入侵检测系统的数据提取方法[J].中国科技纵横,2010(2):227-227.

计算机与数字工程

2006年第1期

浏览历史

内容加载中请稍等...

基于页面对比分析的数据提取被引量：1

参考文献5

二级参考文献39

共引文献100

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于页面对比分析的数据提取 被引量：1

参考文献5

二级参考文献39

共引文献100

同被引文献13

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于页面对比分析的数据提取被引量：1