基于网页结构树的Web信息抽取方法被引量：24

Web Information Extraction Based on Web Structure Tree

下载PDF

导出

摘要提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。 This paper proposes an algorithm that is used to construct the Web structure tree and a Web information extraction method based on Web page structure tree. While extracting information, it locates the information that should be extracted in the Web page structure tree and matches the pattern information with the terminal information in Web page structure tree. The Web information extraction is the terminal information extraction in Web page structure tree. This method can efficiently extract information from Web pages.

作者陈琼苏文健

机构地区华南理工大学计算机科学与工程学院

出处《计算机工程》 EI CAS CSCD 北大核心 2005年第20期54-55,140,共3页 Computer Engineering

基金国家自然科学基金资助项目(60003019) 广东省自然科学基金资助项目(990582) 广东省科技攻关资助项目项目(C10201)

关键词信息抽取半结构网页结构树模式 Information extraction Semi-structure Web page structure tree Pattern

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1Laender H F, Ribeiro-Neto B A, A S da Silva, et al.A Brief Survey of Web Data Extraction Tools.SIGMOD Record, 2002, 31(2): 84-93
2Sahuguet A, Azavan F.Building Intelligent Web Applications Using Lightweight Wrappers.Data and Knowledge Engineering, 2001,36 (3), 283-316
3Crescenzi V, Mecca G, Merialdo P.RoadRunner: Towards Automatic Data Extraction from Large Web Sites.Rome, Italy: In: Proceeding of the 26th International Conference on Very Large Database Systems, 2001:109-118
4Liu L, Pu C, Han W.XWRAP: An XML-enable Wrapper Construction System for Web Information Sources.San Diego, California: In: Proceedings of the 16th IEEE International Conference on Data Engineering, 2000: 611-621
5李晶,陈恩红.Web信息抽取[J].计算机科学,2003,30(6):78-81. 被引量：17

二级参考文献1

1朱靖波,姚天顺.中文信息自动抽取[J].东北大学学报（自然科学版）,1998,19(1):52-54. 被引量：24

共引文献16

1陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
2李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
3张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
4蔡虹,叶水生.基于KPS的Web信息抽取[J].计算机与现代化,2005(6):4-6. 被引量：1
5龙波,邓健爽,陈琼.基于网页布局及关键词组的垂直搜索技术[J].现代计算机,2006,12(9):46-49. 被引量：3
6刘杰,束博.一种高效的HTML/XHTML至WML的转换方法[J].北京工商大学学报（自然科学版）,2006,24(6):45-48. 被引量：2
7钱君,段隆振,熊必成,张和江.基于KPS的Web信息抽取MAS模型的研究[J].计算机与现代化,2007(9):79-82. 被引量：1
8蒲筱哥.基于Web的信息抽取技术研究综述[J].现代情报,2007,27(10):215-219. 被引量：18
9石倩,陈荣,鲁明羽.基于规则归纳的信息抽取系统实现[J].计算机工程与应用,2008,44(21):166-170. 被引量：19
10彭同坠.Web新闻正文信息抽取技术研究[J].科教文汇,2008(36):278-278.

同被引文献157

1林昌平,郑皎凌.基于DOM规范的网页分析技术研究[J].成都信息工程学院学报,2007,22(z1):113-117. 被引量：2
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
6王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
7于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
9薛亮,冯博琴,管涛.网络跨库检索中基于Ontology的数据抽取与合并[J].小型微型计算机系统,2005,26(10):1807-1809. 被引量：2
10朱明,王庆伟.半结构化网页中多记录信息的自动抽取方法[J].计算机仿真,2005,22(12):95-97. 被引量：2

引证文献24

1宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
2黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
3赵洋,马建斌,刘博,王春山.基于Internet的农业信息资源采集系统[J].农机化研究,2008,30(10):139-141.
4陈圣俭,孙明涛.基于B/S架构的Web网页结构检测应用研究[J].现代电子技术,2009,32(2):135-138. 被引量：2
5胡国晴,李建华.一种基于可信度分析的Web页面新属性发现方法[J].计算机技术与发展,2009,19(1):56-59. 被引量：3
6任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报（自然科学版）,2009,27(1):141-144. 被引量：5
7谭鹏许,张来顺,滕婕.基于DTA的信息抽取技术研究[J].计算机应用与软件,2009,26(12):228-230.
8谭鹏许,谭晓贞,张来顺.基于无秩树自动机的信息抽取技术研究[J].计算机工程与设计,2009,30(23):5506-5509. 被引量：1
9赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报（理学版）,2010,48(3):421-426.
10王毅.基于web的信息抽取方法研究[J].科技与生活,2010(13):11-11.

二级引证文献55

1赵洋,马建斌,刘博,王春山.基于Internet的农业信息资源采集系统[J].农机化研究,2008,30(10):139-141.
2李宏伟,张志远.Web实体提取在垂直搜索中的应用研究[J].新技术新工艺,2008(12):62-65.
3王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
4王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
5黄锋,吴华瑞.一种自适应的Web信息抽取规则自动生成方法[J].广西师范大学学报（自然科学版）,2010,28(1):127-130. 被引量：5
6缪霖,邱会中.Web页面自顶向下的正文信息定位算法[J].计算机工程,2010,36(13):76-78. 被引量：2
7翟东升,杨洋.基于XML技术的USPTO专利抽取系统[J].北京工业大学学报,2011,37(4):628-633. 被引量：1
8夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2
9王存昕,蒋文蓉.针对淘宝商家客户管理系统的研究与开发[J].上海第二工业大学学报,2011,28(2):165-170. 被引量：2
10何拥军,龚发根.基于用户辅助估计的相关网页搜索聚类[J].计算机技术与发展,2011,21(7):112-115. 被引量：1

1祁钰,关毅,吕新波,岳淑珍.网页结构树相似度计算[J].黑龙江大学自然科学学报,2009,26(5):627-632. 被引量：1
2陈圣俭,孙明涛.基于B/S架构的Web网页结构检测应用研究[J].现代电子技术,2009,32(2):135-138. 被引量：2

计算机工程

2005年第20期

浏览历史

内容加载中请稍等...

基于网页结构树的Web信息抽取方法被引量：24

参考文献5

二级参考文献1

共引文献16

同被引文献157

引证文献24

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于网页结构树的Web信息抽取方法 被引量：24

参考文献5

二级参考文献1

共引文献16

同被引文献157

引证文献24

二级引证文献55

相关作者

相关机构

相关主题

浏览历史

基于网页结构树的Web信息抽取方法被引量：24