基于web的信息抽取方法研究
摘要
结合DOM方法构造模型,运用xML建立精确文档信息,解决半结构化网页动态信息抽取的困难,提出一种新型的基于样本的信息检索方法,将信息整合为新数据模型,提高网络信息抽取的效率和准确度。
参考文献5
-
1王腾蛟,唐世渭,杨冬青,刘云峰.半结构化数据的局部精确模式提取方法[J].第十七届全国数据库学术会议(NDBC2000),2000,10:22-28.
-
2王庆一,王继成,周源远,袁春风.多信息块Web页面中的抽取规则[J].计算机工程,2003,29(9):42-44. 被引量:6
-
3李永丽,张玉良.一种基于后缀树的包装器自动生成方法研究[J].计算机工程与应用,2007,43(34):114-118. 被引量:2
-
4梅雪,程学旗,郭岩,张刚,丁国栋.一种全自动生成网页信息抽取Wrapper的方法[J].中文信息学报,2008,22(1):22-29. 被引量:21
-
5陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量:24
二级参考文献33
-
1Hammer J, Garcia-Molina H, Cho J, et al. Extracting Semistructured Information from the Web. Proceedings of file First Workshop on Management of Semistructured Data, 1997-05.
-
2Sahuguet A, Azavant F. Building Light-weight Wrappers for Legacy Web Data-sources Using W4F. International Conference on Very Large Databases (VLDB), 1999.
-
3Soderland S. Learning Information Extraction Rules for Semistructured and FreeText. Machine Learning, 1999.
-
4Kushmerick N, Weld D, Doorenbos B. Wrapper Induction for Information Extraction. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), 1997.
-
5Muslea I, Minton S, Knoblock C. STALKER: Learning Extraction Rules for Semistructured, Web-based Information Sources. AAAI-98 Workshop on "AI & Information Integration", 1998.
-
6Muslea I. Extraction Patterns: From Information Exlraction to Wrapper Induction. Technical Report, Information Sciences Institute,University of Southern Califomi, 1998.
-
7Doorenbos R B, Etzioni O, Weld D W. A Scalable Comparison-shopping Agent for the World Wide Web. In Proceedings of the First International Conference on Autonomous Agents, 1997-02.
-
8Gao X, Sterling L AutoWrapper: Automatic Wrapper Generation for Multiple Online Services. In Proceedings of Asia Pacific Web Conference 1999 (AP- Web99), 1999.
-
9Chang C H, Lui S C. IEPAD: Information Extraction Based on Pattern Discovery. In the Proceedings of the Tenth International Conference on World Wide Web, Hongkong, 2001-05.
-
10Laender H F, Ribeiro-Neto B A, A S da Silva, et al.A Brief Survey of Web Data Extraction Tools.SIGMOD Record, 2002, 31(2): 84-93
共引文献49
-
1游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量:5
-
2李洋,栾吉华.一种新的Web信息抽取方法研究[J].科技资讯,2007,5(35):80-81.
-
3何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量:6
-
4张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量:5
-
5宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量:2
-
6仲华,崔志明.基于XML的信息抽取和多层向量空间技术研究[J].计算机技术与发展,2007,17(7):49-52. 被引量:4
-
7黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量:8
-
8赵洋,马建斌,刘博,王春山.基于Internet的农业信息资源采集系统[J].农机化研究,2008,30(10):139-141.
-
9陈圣俭,孙明涛.基于B/S架构的Web网页结构检测应用研究[J].现代电子技术,2009,32(2):135-138. 被引量:2
-
10胡国晴,李建华.一种基于可信度分析的Web页面新属性发现方法[J].计算机技术与发展,2009,19(1):56-59. 被引量:3
-
1况明富,王波.基于WISDOM方法的智能家居控制器图形用户界面的分析与设计[J].智能建筑,2007(10):35-38. 被引量:1
-
2林明钦.AJAX动态无刷新技术在企业网中的应用[J].中国新技术新产品,2008(14):8-8. 被引量:1
-
3王晓琳,朴勇,王秀坤.基于XQuery的商业报告查询引擎的设计与实现[J].微型机与应用,2013,32(12):1-3.
-
4宋鑫莹,赵铁军.网络信息抽取技术分析与比较[J].智能计算机与应用,2013,3(5):24-27. 被引量:3
-
5罗剑,王轶骏,薛质.数据挖掘在恶意网页动态检测中的应用研究[J].计算机应用与软件,2013,30(5):1-3.
-
6廖年旺.使用Flash制作动态按钮[J].信息技术教育,2001(1):57-57.
-
7张中红.如何实现网页动态缩略图幻灯[J].电脑编程技巧与维护,2011(9):91-92.
-
8於肇鹏,刘昕辉.几种网页动态效果设计方法的比较[J].辽宁师专学报(自然科学版),2012,14(1):40-42.
-
9杨立法.基于谷歌遥感影像的地理数据采集与制图[J].西安文理学院学报(自然科学版),2013,16(1):1-5. 被引量:1
-
10施洋,张奇,黄萱菁.含有语义特征的网页新闻自动抽取[J].计算机工程,2010,36(7):173-175. 被引量:5