基于DOM的Web信息抽取规则的构造与实现被引量：5

Rules Construction and Implementation in DOM-based Web Information Extraction

下载PDF

导出

摘要为了实现对Web信息的查询、重构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于DOM的Web信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程. Web information extraction techniques were applied to Web information query, reconstruction and reuse. In this paper, we mainly discussed DOM-based Web information extraction, studied how to construct extraction rules to improve precision ratio of extraction and adaptation of extraction rules, and the rules＇ generation procedure is also presented.

作者杨敬伟杨文柱高悦

机构地区河北大学科技处河北大学数学与计算机学院信息产业部电信研究院

出处《河北大学学报（自然科学版）》 CAS 北大核心 2007年第2期209-212,共4页 Journal of Hebei University(Natural Science Edition)

关键词 DOM WEB信息抽取抽取规则 DOM Web information extraction extraction rule

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1NAVEEN ASHISH,CRAIG A.KNOBLOCK.Semi-automatic wrapper generation for internet information sources[Z].Proc 2nd Intl Conference on Cooperative Information Systems,Kiawah Island,1997.
2W3C.Document Object Model (DOM) Level 1 Specification,Version 1.0[EB/OL].W3C Recommendation,1998-10-01.
3W3C.XML Path Language Version 1.0[EB/OL].http://www.w3.org/TR/1999/REC-xpath,1999-11-16.
4杨文柱,徐林昊.个性化智能Web查询助手的设计与实现[Z]..第19届全国数据库学术会议.河南郑州,2002..

共引文献1

1王平根.基于DOM的动态网页信息抽取方法[J].科技信息,2010(31). 被引量：1

同被引文献42

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2邹元平,王宁生,梁进权,邓响潮.计算机及网络技术在药物不良反应监测中的应用[J].药物流行病学杂志,2004,13(6):343-346. 被引量：8
3于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
4许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
5张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
6刘耀,穗志方.领域Ontology概念描述体系构建方法探析[J].大学图书馆学报,2006,24(5):28-33. 被引量：15
7陈晓锋,张凌,董守斌.基于XPath比较的Web数据抽取方法[J].郑州大学学报（理学版）,2007,39(2):161-166. 被引量：4
8王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
9Silvescu A,Reinoso-Castillo J,Honavar V.Ontology-driven Information Extraction and Knowledge Acquisition from Heterogeneous,Distributed Biological Data Sources[C/OL].In:Proccedings of the LJCAI-2001 Workshop on Knowledge Discovery from Heterogeneous,Distributed,Autonomous,Dynamic Data and Knowledge Sources,2001.[2008-11 -01].http://www.ca.iastate.edu/～honavar/Papers/ijcaiworkshop-paper.pdf.
10Maedcbe A,Neumann G,Staab S.Bootstrapping an Ontologybased Inforrnation Extraction System[A]//Intelligent Exploration of the Web,Studies in Fuzziness and Soft -Computing[C].Heidelberg:Physica-Verlag Gmb H,2003:345-359.

引证文献5

1柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
2庞秋奔,顾平,杨小梅.基于分块重要性模型与Xpath的Web信息抽取的研究[J].计算机与现代化,2009(8):73-75.
3邹元平,梁进权,王宁生,邓响潮,张承绪.中药不良反应知识服务系统的数据库建立研究[J].中药新药与临床药理,2010,21(3):316-317. 被引量：4
4刘文杰,田伟,马廷淮,崔萌萌.一种基于网页DOM树的信息采集系统[J].武汉理工大学学报,2010,32(16):119-122. 被引量：3
5高庆宁,吴鹏,张晶晶.基于文档对象模型与行块分布算法的网页信息抽取[J].情报理论与实践,2016,39(4):133-137. 被引量：9

二级引证文献20

1贾赛,乔鸿.基于本体的Web信息抽取及本体的构建实现研究[J].图书馆学研究,2011(5):31-36. 被引量：3
2顾东蕾,王润海,张琰.行业特色型大学信息管理类专业的特质——CIO/CKO的孵化器[J].现代情报,2011,31(8):79-83.
3蔡李,单艳,薛化建,苏国平.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555. 被引量：3
4钱程,阳小兰.一种支持Ajax框架的网络爬虫的设计与实现[J].计算机与数字工程,2012,40(4):69-71. 被引量：3
5邹元平,邢珂,林宇,修春,梁进权,宓穗卿,王宁生.基于Web的定向医药信息采集系统设计与实现[J].医学信息学杂志,2012,33(5):23-27. 被引量：2
6邹元平,林宇,邢珂,修春,梁进权,王宁生,宓穗卿.中药不良反应信号检测系统的建立[J].中国药房,2012,23(27):2584-2587. 被引量：2
7邹元平,梁进权,邢珂,林宇,修春,宋成,邓响潮,王宁生,宓穗卿.中药不良反应知识服务系统的开发与应用[J].广州中医药大学学报,2012,29(4):457-460. 被引量：2
8李亚红,赵冬玲.半结构化数据的形式化描述及数据抽取方法研究[J].计算机应用与软件,2013,30(4):145-148. 被引量：3
9李兴春.计算机信息检索中的本体构建研究[J].重庆文理学院学报（社会科学版）,2013,32(3):87-91. 被引量：3
10张超.基于DOM模式的成绩报送辅助系统的设计与实现[J].经济师,2013(6):147-148.

1唐培和.Petri网可达树的构造与实现[J].广西工学院学报,2003,14(1):31-34. 被引量：5
2刘诗儒,冯秀芳.基于桌面的虚拟漫游系统的构造与实现[J].太原理工大学学报,2003,34(4):478-480. 被引量：5
3高晓平.虚拟示波器的模型构造与实现[J].空军雷达学院学报,2000,14(2):76-78.
4倾明,魏宗琴.图像检索中灰度共生矩阵的构造与实现[J].兰州石化职业技术学院学报,2009,9(1):26-28.
5靳同红,郑德亮,朱冬梅.虚拟场景的构造与实现[J].山东师范大学学报（自然科学版）,2008,23(1):46-48.
6张大波,王光兴.一个现场总线应用模型的构造与实现[J].微计算机信息,1996,12(5):8-10.
7戴跃洪,徐家俊.适合我国中小型企业的CAD系统开发模式——一个实用系统CLCAD[J].现代机械,1994(4):1-3.
8刘颖,朱元昌,张天辉,樊世友.虚拟测量工具的构造与实现[J].系统仿真学报,2005,17(7):1779-1781. 被引量：6
9杨有,李晓虹,尚晋.C＋＋中超长整型类型的构造与实现[J].计算机科学,2008,35(1):301-302. 被引量：1
10苗丛毅,许维平,宋广军.基于面向对象的C^(++)通讯流的构造与实现[J].计算机应用,1997,17(1):65-66.

河北大学学报（自然科学版）

2007年第2期

浏览历史

内容加载中请稍等...

基于DOM的Web信息抽取规则的构造与实现被引量：5

参考文献4

共引文献1

同被引文献42

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于DOM的Web信息抽取规则的构造与实现 被引量：5

参考文献4

共引文献1

同被引文献42

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于DOM的Web信息抽取规则的构造与实现被引量：5