基于智能的网页信息提取系统的研究与设计被引量：7

Research on Web information extraction system based on intelligence and its design

导出

摘要随着Internet的迅速发展,为人们提供了大量的信息,但这些信息都包含在网页中,为了使用这些信息数据,需要将数据从网页中提取出来.本文介绍了一种新的基于智能的网页信息提取系统EIES,通过对RoadRunner的改进和利用,在提取过程中不需人工干预,实现了信息提取的智能化.实验表明,该系统能够更准确、更有效地分类相似网页和提取网页信息. Along with the Internet rapid development, a mass of information is supplied for people, but all these information is in the Web pages. In order to make use of these information data, it＇s needed to extract the data from the pages. This paper presents a new Web information extraction system based on intelligence-EIES. Through improving and using RoadRunner, it realizes the information extraction intellectualization without any manual work in the extraction process. The experiment indicates that this system can be more accurate and more effective to classify similar pages and extract web information.

作者刘亚东彭舰张达平

机构地区四川大学计算机学院

出处《四川大学学报（自然科学版）》 CAS CSCD 北大核心 2009年第4期957-962,共6页 Journal of Sichuan University(Natural Science Edition)

基金四川省应用基础基金(2008JY0027) 四川省科技支撑计划项目(07GG006-040)

关键词智能 WEB信息提取 RoadRunner HTML结构树 intelligence, Web information extraction, RoadRunner, HTML structure tree

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Laender A H F,RibeiroNeto B A.A brief survey of web data extraction tools[J].ACM SIGMOD Record,2002,31(2):84.
2Califf M E,Mooney R J.Relational learning of pattern natch rules for information extraction[C].USA:CA,1997.
3Arasu A,Garcia-Molina H.Extracting structured data from Web pages[C].California:Starford University,2003.
4Muslea I,Minton S,Knoblock C A.Hierarchical wrapper induction for semistructured information sources[J].Autonomous Agents and Mufti-Agent Systems,2001,4(1-2):93.
5Crescenzi V,Mecca G.RoadRunner:towards automatic data extraction from arge web sites[C].Roma,Italy:[s.n.],2001:109.
6Beeferman D,Berger A.Agglomerative clustering of a search engine query log[C].New York:ACM Press,2000.
7Shih L K,KargerD R.Using URLs and table layout for web classification tasks[C].New York:ACM Press,2004:193.
8W3C.Document Object Model,W3C Recommendation 1 October 1998[EB/OL].(1998-12-26).http://www.w3.org/TR/REC-DOM-Level-1/.

同被引文献53

1郑建明.数字文献资源的整合与服务——以江苏省高校文献资源保障体系建设为原型的个案研究[J].大学图书馆学报,2007,25(5):6-9. 被引量：33
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
5车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
6张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
7徐琳,赵铁军.国家自然科学基金在自然语言处理领域近年来资助的已结题项目综述[J].软件学报,2005,16(10):1853-1858. 被引量：7
8马文峰,杜小勇,卢晓惠.基于知识的资源整合[J].情报资料工作,2007,28(1):51-56. 被引量：24
9赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
10高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6

引证文献7

1陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
2张冬梅,陈钊,陈剑.基于改进DSE算法的web信息抽取[J].数字技术与应用,2012,30(3):171-173.
3李文华,杨亚仿,吴昊.基于正则表达式的HTML信息提取[J].电脑开发与应用,2012,25(4):44-46. 被引量：4
4何贤江,左航,李远红.面向移动平台的FAQD自动问答系统[J].四川大学学报（自然科学版）,2012,49(3):560-564. 被引量：1
5黄亮,赵泽茂,梁兴开.基于属性标签的Web数据挖掘[J].计算机应用与软件,2012,29(11):156-159. 被引量：1
6刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014,31(7):47-49. 被引量：4
7曲建升,刘红煦.知识发现中异构信息标准化处理研究——以资源环境领域文献为例[J].图书情报工作,2016,60(6):84-90. 被引量：4

二级引证文献35

1来建梅,曹慧,马金刚.中医药领域信息抽取技术的研究与应用[J].山东科学,2011,24(6):88-91. 被引量：2
2蒋琴琴,宫哲,辛阳.基于HTML Parser的BBS信息抽取系统的设计与实现[J].自动化技术与应用,2012,31(1):32-37. 被引量：4
3张彩月.基于网页结构的WEB信息抽取系统设计[J].计算机光盘软件与应用,2012,15(6):155-157.
4何贤江,何维维,左航.一种句词五特征融合模型的复述研究[J].四川大学学报（工程科学版）,2012,44(6):127-132.
5陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
6刘冉.快速将联系人信息添加到网络邮箱中[J].电子商务,2013,14(5):63-64.
7张奇,郝志峰,温雯,蔡瑞初.基于互信息度量的Web信息抽取[J].计算机应用与软件,2013,30(12):15-18. 被引量：5
8李伟男,李书琴,景旭,魏露,李新乐.基于模拟退火算法和二阶HMM的Web信息抽取[J].计算机工程与设计,2014,35(4):1264-1268. 被引量：7
9桑鹏,唐新明,艾波,王华斌.RSS新闻事件的多维描述与时空可视化方法[J].地球信息科学学报,2014,16(3):341-348. 被引量：4
10郭东峰.数据抽取中文本分类分析与研究[J].科技视界,2014(9):143-143.

1IBM军用超级计算机[J].中国投资（中英文）,2008(7):122-122.
2最新超级计算机500强出炉IBM“走鹃”居首[J].高科技与产业化,2008(7):6-6.
3张国平,李钊.网页信息抽取RoadRunner技术浅析[J].科技创业月刊,2010,23(11):172-173. 被引量：1
4IBM超级军用计算机[J].微型计算机,2008(20):19-19.
5季红梅,张轶昀.基于RoadRunner算法的RESTful Web服务信息收集研究[J].宜春学院学报,2013,35(3):37-41.
6周宇,吕强.基于模板和数据采集的综合信息查询平台的实现[J].福建电脑,2008,24(2):138-139.
7美洲豹单挑Roadrunner[J].微型计算机,2008,28(35):21-21.
8张淑娟.基于XML的互联网航空数据抓取的研究与实现[J].电子制作,2013,21(22):126-126.
9贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
10IBM将推出最快超级计算机[J].计算机与网络,2006,32(17):4-4.

四川大学学报（自然科学版）

2009年第4期

浏览历史

内容加载中请稍等...

基于智能的网页信息提取系统的研究与设计被引量：7

参考文献8

同被引文献53

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于智能的网页信息提取系统的研究与设计 被引量：7

参考文献8

同被引文献53

引证文献7

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于智能的网页信息提取系统的研究与设计被引量：7