基于XML和DOM技术的Web信息抽取模型被引量：1

Research on Web Information Extraction Model Based on XML and DOM Technologies

下载PDF

导出

摘要将XML技术应用于搜索引擎,提出一种基于XML和DOM技术的Web信息抽取模型,对模型的数据采集、页面优化处理、抽取规则生成和信息抽取四个阶段进行了详细分析,讨论了网页爬虫、NekoHTML、Xerces-J、JTree、Xpath以及XSLT技术在Web信息抽取中的应用,实现了Web信息抽取的半自动化. XML technology is applied in search engine, and a web information extraction model based on XML and DOM technology is proposed. The stages of data acquisition, web age optimization, extraction rule genera- tion and information extraction are analyzed in detail. The technologies of webpage reptile, NekoHTML, Xerc- es-J, JTree, Xpath and XSLT are applied in Web information extraction. Finally, semi-automation method of Web information extraction is realized.

作者李文郑邦习邓武

机构地区大连交通大学软件学院

出处《大连交通大学学报》 CAS 2013年第3期96-99,118,共5页 Journal of Dalian Jiaotong University

基金武汉大学软件工程国家重点实验室开放基金资助项目(SKLSE2012-9-27) 四川省重点实验基金资助项目(GK201202) 广西混杂计算与集成电路设计分析重点实验室基金资助项目

关键词信息抽取 XML技术 DOM技术 WEB页面 information extraction XML technology DOM technology Web page

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1陈佳,胡燕,轩艳艳.一种基于XML的Web信息抽取方法[J].计算机与数字工程,2007,35(6):101-103. 被引量：3
2冀高峰,汤庸,道炜,吴桂宾,黄帆,王鹏.基于XML的自动学习Web信息抽取[J].计算机科学,2008,35(3):87-90. 被引量：10
3JOHNSON E J,KUNZE A R.IXP2400/2800 program-ming-the complete micro engine coding guide[M].[s.l.]:Intel Press,2003.
4DAVID W E,YUANJ,DERMIS Y K NG.Record-Bound-ary Discovery in Web Documents.Proc of ACM SIGMODInternational Conference on Management of Data[C].USA:Pennsylvania,1999:467-478.
5CHRISTINA Y C,MICHAEL G,NEEL S.Reverse engi-neering for web data:From visual to semantic structures:Proc of the 18th International Conference on data Engi-neering[C].California:San Jose,2002:53-63.
6ROBERT BAUMGARTNER,SERGIO FIESCA,GEORGGOTTLOB.Supervised wrapper generation with lixto:Proceedings of 27th international Conference on VeryLarge DatabaseRomaItaly[C].[s.1.]:[s.n.],2001:1-2.
7LLUL PU C,HAN W.XWRAP:P:An XML-enabledwrapper construction system for Web Informationsources:Proceedings of the International Conference onData Engineering[C].[s.l.]:SanDiego,2000:611-621.
8王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
9黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
10CHANG C H,KAYEDM,GIRGIS M R,et al.A surveyof Web information extraction systems[J].IEEE Trans-actions on Knowledge and Data Engineering,2006,18(10):1411-1428.

二级参考文献34

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2O Buyukkokten, H Garcia-Molina, A Paepcke. Accordion summarization for end-game browsing on PDAs and cellular phones. In: Proc of ACM Conf on Human Factors in Computing Systems(CHI 2001). New York: ACM Press, 2001. 213～220
3Wang Tengjiao, Tang Shiwei, Yang Dongqing, et al. COMIIX:Towards effective WEB information extraction, integration and query answering. In: Proc of SIGMOD' 02. New York: ACM Press, 2002. 620
4Liu Ling, Pu Calton, Han Wei. XWRAP: An XML-enabled wrapper construction system for Web information sources. In:Proc of the 16th Int'l Conf on Data Engineering. Washington:IEEE Computer Society Press, 2000. 611～621
5R Baumgartner, S Flesca, G Gottlob. Visual Web information extraction with Lixto. In: Proc of the 27th Int'l Conf on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001. 119～ 128
6D Freitag. Machine learning for information extraction in information domains. Machine Learning, 2000, 39 (2-3): 169 ～202
7S SoderLan. Learning information extraction rules for semistructured and free text. Machine Learning, 1999, 34(1-3): 233～ 272
8R D Doorenbos, O Etzioni, D S Weld. A scalable comparasonshopping agent for the World-Wide Web. In: ACM Agents' 97.New York: ACM Press, 1997. 39～48
9D W Embley, et al. Conceptual-model-based data extraction from multiple-record Web pages. Data and Knowledge Engineering,1999, 31(3): 227～251
10A Finn, A Kushmerick, B Smyth. Fact or fiction: Content classification for digital libraries. The 2nd DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, Dublin, Ireland, 2001

共引文献141

1赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
2明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
3胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
4GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
5李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
6李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
7刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
8程渤,浮花玲,杨国纬.基于工作流及集成中间件技术的电力信息一体化设计及实现[J].电力系统自动化,2004,28(19):80-83. 被引量：15
9许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
10张阔,徐鹏,李涓子,王克宏.基于优化层次聚类的文档逻辑结构抽取[J].清华大学学报（自然科学版）,2005,45(4):471-474. 被引量：2

同被引文献7

1王贤.基于统计的网页正文信息抽取方法的研究[J]中文信息学报,2004(05):17-22.
2GUPTA S,KAISER G. DOM-based content extraction of HTML documents[A].New York：ACM Presses,2003.207-214.
3Deng Cai,Shipeng Yu,Ji-Rong Wen,Wei-Ying Ma. VIPS：A Vision-based Page Segmentation Algorithm. Microsoft Technical Report, MSR-TR-2003-79[R].2003.
4石倩,陈荣,鲁明羽.基于规则归纳的信息抽取系统实现[J].计算机工程与应用,2008,44(21):166-170. 被引量：19
5那赫.基于DOM的Web主题信息提取系统的设计与实现[J].计算机与网络,2010,36(7):30-31. 被引量：1
6刘军,张净.基于DOM的网页主题信息的抽取[J].计算机应用与软件,2010,27(5):188-190. 被引量：19
7詹沐清,朱颖.基于Web的信息抽取技术探讨[J].中国科技信息,2013(4):69-70. 被引量：2

引证文献1

1向程冠,熊世桓.基于CSS视觉分块的Web碎片信息抽取算法[J].计算机光盘软件与应用,2013,16(16):63-65.

1陈彩红.DOM技术及其发展[J].科学之友（下）,2008(10):131-131.
2夏秀峰,张悦,周大海.基于XML的异种数据库间数据交换技术[J].微处理机,2005,26(5):31-35. 被引量：7
3陈焕英,李冰.基于DTD/DOM的XML技术的应用研究[J].河南城建学院学报,2012,21(1):54-56.
4郭翠英.利用DOM技术实现分页显示XML文档数据[J].电脑编程技巧与维护,2011(23):22-24.
5王文广,冉春玉,万书振,王伟,曾高阳.一种基于．NET平台的Web信息提取方法[J].软件导刊,2007,6(1):62-64.
6张军,王红玲.DOM技术在制作HTML页面菜单中的应用[J].中国科技信息,2005(12C):17-17. 被引量：1
7李娟.基于NekoHTML的Web信息采集研究[J].现代计算机,2014,20(5):77-80.
8秦燕,李志蜀,陈伟鹏.异构数据库数据交换的安全解决方案[J].四川大学学报（自然科学版）,2006,43(5):1014-1017. 被引量：5
9丁月华,杨敏,文贵华,李坚,林嘉亮.基于XML的异构数据源集成与交换的实现[J].计算机应用与软件,2006,23(10):134-135. 被引量：20
10王平根.基于DOM的动态网页信息抽取方法[J].科技信息,2010(31). 被引量：1

大连交通大学学报

2013年第3期

浏览历史

内容加载中请稍等...

基于XML和DOM技术的Web信息抽取模型被引量：1

参考文献13

二级参考文献34

共引文献141

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于XML和DOM技术的Web信息抽取模型 被引量：1

参考文献13

二级参考文献34

共引文献141

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于XML和DOM技术的Web信息抽取模型被引量：1