摘要
随着Internet的迅速发展,Web已经成为人们获取信息的主要渠道之一,大多数的企业或团体都是通过Web站点的网页发布企业信息。为了充分利用这些信息,而不仅仅是浏览,应用程序必须从HTML形式的Web网页中抽取感兴趣的数据,并转换成具有一定结构的格式化数据。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据,所以Web包装器是Web数据集成体系结构中的关键部分。论文在研究Web包装器概念设计的基础上,利用最新的Web技术、信息处理技术和人工智能技术,完成了Web网页数据抽取包装器软件的设计,并通过Web新书发布页面信息抽取实验,分析了算法和系统的性能,验证了该包装器软件的可行性和高效性。
出处
《职业时空》
北大核心
2008年第10期245-245,共1页
Career Horizon
基金
河南省自然科学基金资助项目(0411010500)
校博士基金项目(2004-010)