基于HTML模式代数的Web信息提取方法被引量：8

Web Information Extraction Based on HTML Pattern Algebra

下载PDF

导出

摘要高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. Generating wrapper efficiently for extracting Web data has broad application prospect, but is also a difficult problem that is not yet solved efficiently till now. To tackle this problem, a pattern algebra for HTML documents is introduced, which includes key concepts, such as consistent pattern set, and the addition operation of pattern, and based on it a new approach to extract Web information is presented. It induces the consistent pattern set which represents identifying rules of each attribute by exploring the whole samples, and then extracts data by the consistent pattern set with multiple patterns. It can apply Web pages with tabular structure, in which there are missing attributes or attributes with multiple values or different order and hierarchical structure, and has been validated experimentally in the prototype.

作者李石君于俊清欧伟杰

机构地区武汉大学计算机学院华中科技大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2006年第9期1644-1650,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(60573095) 湖北省自然科学基金项目(2005ABA238).

关键词 WEB信息提取包装器归纳学习 WEB挖掘 Web information extraction wrapper induction Web mining

分类号 TP311.135 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Nicholas Kushmerick, D Weld, R Doorenbos. Wrapper induction for information extraction [C]. Int'l Joint Conf on Artificial Intelligence, Hyderabad, India, 1997
2Hsu, C M Dung. Generating finite-state transducers for semistructured data extraction from the Web [J]. Journal of Information Systems, 1998, 23(8): 521-538
3吕建华,王国仁,于戈.XML数据的路径表达式查询优化技术[J].软件学报,2003,14(9):1615-1620. 被引量：28
4J Hammer, H Garcia-Molina, S Nestorov, et al. Template-based wrappers in the TSIMMIS system [C]. Int'l Conf on Management of Data, Tucson, Arizona, 1997
5R Baumgartner, S Flesca, G Gottlob. Visual Web information extraction with Lixto [C]. Vary Large Data Bases, Roma,Italy, 2001
6I Muslea, S Minton, Knoblock. A hierarchical approach to wrapper induction [C]. Third Conf on Autonomous Agents,Seattle, WA, 1999
7孟小峰,陆宏钧,王海燕,谷明哲.Data Extraction from the Web Based on Pre—Defined Schema[J].Journal of Computer Science & Technology,2002,17(4):371-382. 被引量：4
8李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
9胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
10黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47

二级参考文献57

1[1]Baumgartner R.,Flesca S.,Gottlob G.. Visual web information extraction with lixto. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001,119～128
2[2]Liu L.,Pu C., Han W.. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proceedings of the 16th International Conference on Data Engineering, California, 2000, 611～621
3[3]Gottlob G., Koch C.. Monadic datalog and the expressive power of languages for web Information extraction. In: Proceedings of the 21th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Wisconsin, 2002, 17～28
4[4]Hamer J.,Brennig M., Garcia-Molina H.. Template-based wrappers in the TSIMMIS system. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Arizona, 1997, 532～535
5[5]Atzeni P., Mecca G.. Cut and paste. In: Proceedings of the 16th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, Arizona, 1997, 144～153
6[6]Crescenzi V., Mecca G., Merialdo P.. RoadRunner: Towards automatic data extraction from large web sites. In: Proceedings of the 27th International Conference on Very Large Data Bases, Roma, 2001, 109～118
7[7]Soderland S.. Learning information extraction rules for semistructured and free text. Machine Learning,1999, 34(1～3):233～272
8[8]Adelberg B.. Nodose-A tool for semi automatically extracting structured and semi-structured data from text document. In: Proceedings of the ACM SIGMOD International Conference on Management of Data, Washington, 1998, 283～294
9[9]Ribeiro-Neto B.A., Laender A., da silva A.S.. Extracting semistructured data through examples. In: Proceedings of the 1999 ACM CIKM International Conference on Information and Knowledge Management, Missouri, 1999,94～101
10[10]EmbleyD.W., Campbell D.M., Jiang Y.S.. A conceptual-modeling approach to extracting data from web. In: Proceedings of the 17th International Conference on Conceptual Modeling, Singapore, 1998,78～91

共引文献211

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3任毅,彭智勇,程玉容.基于对象代理的隐私数据模型研究[J].计算机研究与发展,2006,43(z3):295-302. 被引量：2
4明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
6胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
7GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
8孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
9李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
10黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13

同被引文献57

1张奥千,宋韶旭,王建民.基于数据质量规则的缺失结果解释约减[J].计算机研究与发展,2013,50(S1):221-229. 被引量：2
2金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
3胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
4LIU Wei,LI Xian,LING Yanyan,ZHANG Xiaoyu,MENG Xiaofeng.A Deep Web Data Integration System for Job Search[J].Wuhan University Journal of Natural Sciences,2006,11(5):1197-1201. 被引量：6
5刘建晔,李芳.一种基于密度的高性能增量聚类算法[J].计算机工程,2006,32(21):76-78. 被引量：12
6王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
7仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量：4
8Alberto H. Laender F. A Brief Survey of Web Data Extraction Tools[J]. ACM SIGMOD Record, 2002, 31 (2): 84-93.
9Burget R. Layout Based Information Extraction from HTML Documents[ C ]/The Ninth International Conference on Document Analysis and Recognition. [ s. l. ] : [s. n. ],2007.
10Li Yu, Meng Xiaofeng, Li Qing, et al. Hybrid Method for Automated News Content Extraction from the Web[ C ]//Web Information Systems Engineering ( WISE2006 ). Wuhan: [ s. n.], 2006.

引证文献8

1赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
2张志远,徐涛,冯霞.航班信息抽取规则的自动生成技术[J].计算机工程,2011,37(6):65-67. 被引量：2
3殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
4孟凡荣,李晓翠,周勇.一种基于代表点的增量聚类算法[J].计算机应用研究,2012,29(8):2865-2867. 被引量：2
5余伟,李石君,杨莎,胡亚慧,刘晶,丁永刚,王骞.Web大数据环境下的不一致跨源数据发现[J].计算机研究与发展,2015,52(2):295-308. 被引量：24
6余放,陈盛双,李石君,余伟.大数据环境下的多源数据演化更新研究[J].计算机科学,2016,43(12):189-194. 被引量：6
7陈盛双,何丹,王叔宝.大数据环境下的多源数据演化更新研究[J].汉口学院学报,2016,9(4):33-38.
8王悠悠,吴中博.网页内容提取工具的设计与实现[J].电脑知识与技术（过刊）,2011,17(11X):7878-7879. 被引量：3

二级引证文献41

1穆翠霞,周琳琳.电子商务网络资讯管理系统的设计与实现[J].电脑开发与应用,2014,27(4):12-15.
2何纯芳.自动获取国家统计局网站行政区划代码的方法[J].电脑编程技巧与维护,2014(16):73-74.
3姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
4胡亚慧,李石君,余伟,杨莎,甘琳,王凯,方其庆.大数据环境下的电子商务商品实体同一性识别[J].计算机研究与发展,2015,52(8):1794-1805. 被引量：11
5侯东平.基于函数依赖的数据一致性检测方法[J].数字技术与应用,2016,0(1):90-90.
6陈一芳,王顺林.借用数据挖掘,谋求智慧物流差异化服务创新发展[J].物流科技,2016,39(4):14-16. 被引量：1
7周恢.“互联网+出版”的突破口——数字内容提取技术应用[J].科技与出版,2016(5):99-101. 被引量：1
8林杉,王海兮,吴凯.论坛信息发布系统的研究与实现[J].计算机与网络,2016,42(11):69-71.
9张春生.大数据环境下相容数据集的关联规则数据挖掘[J].微电子学与计算机,2016,33(8):34-39. 被引量：5
10张晓民,张枫,刘黎明.一种基于代表点质量的万有引力聚类算法[J].南开大学学报（自然科学版）,2016,49(4):8-15.

1赵靖,黄勇,宋雪亚.Deep Web查询界面中的模式代数及其应用[J].现代计算机,2010,16(1):8-11.
2于薇.包装器的自动生成方法介绍[J].才智,2009,0(28):73-73.
3汤艳红,李石君,黄竞伟.抽取Web信息的包装器归纳学习构造[J].计算机工程,2003,29(17):60-62. 被引量：2
4罗章璇,康杰华.云计算环境下起源数据存储与查询研究[J].信息技术,2015,39(5):137-139. 被引量：1
5陈青.单片机控制的数字触发器[J].科技创新导报,2008,5(12):24-24. 被引量：3
6傅彦,徐昭邦,夏虎,周俊临.基于逆向匹配的电子商务网站实体模板半自动构建方法[J].中文信息学报,2015,29(2):157-162.
7李成,安佰勇,俞利江.浅析导航系统不同顺序之间坐标变换的统一性[J].中国科技信息,2010(16):291-292.
8王瑾.单片机控制的数字触发器[J].甘肃科技纵横,2004,33(5):61-61. 被引量：2
9张杨松,范安东,魏霞.基于矢量空间秘密共享的阈下信道[J].陕西理工学院学报（自然科学版）,2008,24(4):34-37. 被引量：3
10谢景政,王健.在Authorware中添加PowerPoint演示文稿的技巧[J].中小学电教（综合）,2005(10):51-52. 被引量：1

计算机研究与发展

2006年第9期

浏览历史

内容加载中请稍等...

基于HTML模式代数的Web信息提取方法被引量：8

参考文献12

二级参考文献57

共引文献211

同被引文献57

引证文献8

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于HTML模式代数的Web信息提取方法 被引量：8

参考文献12

二级参考文献57

共引文献211

同被引文献57

引证文献8

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于HTML模式代数的Web信息提取方法被引量：8