基于Nutch的XML网站全文搜索引擎实现被引量：5

Implementation of XML Website Complete Text Search Engine Based on Nutch

下载PDF

导出

摘要普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。 General search engine spiders can understand only common HTML tags, and can＇t parser information from XML Web sites efficiently. This paper proposes a strategy of using XSL to help spiders to understand the structure of XML pages. Based on this strategy, a pure XML Website is set up, and a search engine based on Nutch which is able to parse XML Website content correctly is realized.

作者吴敏琦丁岳伟

机构地区上海理工大学计算机工程学院

出处《计算机工程》 CAS CSCD 北大核心 2008年第15期95-96,107,共3页 Computer Engineering

关键词 XML信息检索可扩展样式表语言转换基于Nutch的搜索引擎 XML information retrieval eXtensible Stylesheet Language Transformations（XSLT） search engine based on Nutch

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Trotman A, Geva S. Relevance in XML Retrieval: The User Perspective[C]//Proceedings of the SIGIR Conference on XML Element Retrieval Methodology. Washington, Seattle, USA: ACM Press, 2006.
2Kamps J, Marx M, Rijke M D, et al. Structured Queries in XML Retrieval[C]//Proceedings of the 14th ACM Conference on Information and Knowledge Management, [S. l.]: ACM Press, 2005,
3Kamps J, Marx M, Rijke M D, et al. Best-match Querying from Document-centric XML[C]//Proceedings of the 7th International Workshop on the Web and Databases. New York, USA: ACM Press, 2004.
4Cafarella M, Cutting D. Building Nutch: Open Source Search[Z]. 2004.
5韩毅.基于DTD的XML文档内容检索研究[J].情报科学,2006,24(3):409-412. 被引量：1

二级参考文献7

1樊小华,庞引明,张谧,汪卫,陈金海,施伯乐.优化的XML查询匹配:基于B^+-Tree索引的包含段的结构化联接算法[J].计算机科学,2004,31(6):72-75. 被引量：2
2Extensible Markup Language(XML)[EB/OL].http://www.w3.org/XML/(Available Oct 18,2004) ,2005 -08- 20.
3XML and aearch[EB/OL]. Imp://www. searchtools. com/related/xml.html (Availalale Oct 18,2004),2005- 08- 20.
4Goxml [ EB/OL].http://www.goxml.com(Available Oct 18,2004),2005-08-20.
5石塚英弘，李颖．未来网络的基磐技术-XML的理论与应用[M]．北京：华艺出版社,2001．55—86．
6路燕,张亮,汪卫,段起阳,施伯乐.XML查询中DTD的排序技术[J].计算机研究与发展,2003,40(11):1579-1585. 被引量：6
7韩毅.数字图书馆中基于XML的搜索引擎设计[J].情报科学,2003,21(12):1320-1322. 被引量：1

同被引文献30

1欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
2吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10
3张进军,张维勇,薛来文.一种基于插件的软件体系结构[J].合肥工业大学学报（自然科学版）,2005,28(4):398-401. 被引量：8
4陈永明.自然语言理解的方法和途径[J].心理学报,1989,21(3):290-298. 被引量：2
5刘兴平,马燕,杜利峰.插件技术研究初探[J].延安大学学报（自然科学版）,2006,25(1):24-25. 被引量：21
6鲍亮,陈平.基于插件技术的异构数据集成[J].计算机工程,2006,32(20):86-88. 被引量：10
7尚宗敏,王海洋.智能流程应用模式下基于流程语义库的需求获取[J].通信学报,2006,27(11):73-77. 被引量：4
8董旻,方曙,杨志萍.使用JTree和XPath构建动态网页信息抽取系统[J].情报杂志,2007,26(6):73-75. 被引量：1
9OpenQA org. Selenium Document[EB/OL]. (2008-09-23). http:// selenium.openqa.org/index.html.
10CUTTING D.Nutch official websiteEEB/OL].[2009-10-01].http://lucene.apache.org/nutch/.

引证文献5

1方宏,吕太之.动态网页信息提取技术在求职搜索中的应用[J].计算机工程,2009,35(24):265-267. 被引量：2
2夏天.Nutch的插件机制分析[J].广西师范大学学报（自然科学版）,2010,28(1):105-108.
3刘强国,高媛媛,左由兵.化工行业信息搜索技术的研究[J].四川理工学院学报（自然科学版）,2011,24(1):71-73.
4沈雷明.基于Nutch海关主题搜索引擎的研究与设计[J].社科纵横（新理论版）,2012(4):52-53.
5王美霞.智能语义搜索引擎的探究[J].电脑知识与技术,2009,5(4X):3219-3220. 被引量：2

二级引证文献4

1范为宇,张晶,彭莉,储戟农.网络时代与中医药学主题词表的发展[J].国际中医中药杂志,2010,32(4):343-344. 被引量：2
2赵鑫.基于语义Web的智能搜索的研究[J].科技视界,2012(32):27-27.
3郑永爱,李凤盼.从招聘信息看IT人才需求[J].电脑知识与技术,2017,13(7):104-106. 被引量：1
4李亚娟,吴彦海,秦爽,陈岩,王瑶.探究ASP技术在动态网页中的运用[J].计算机产品与流通,2019,0(6):89-89.

1沈丹丹.基于XML网站的设计与实现[J].湖州职业技术学院学报,2004,2(z1):146-148.
2杜旭升.基于Nutch的搜索引擎的研究[J].电子技术与软件工程,2016(6):70-70.
3於良伟,袁泉,霍剑青,王晓蒲.基于XML和XSLT的模型驱动构架[J].计算机工程,2010,36(6):49-51. 被引量：11
4魏武华.基于XML网站的设计与实现[J].计算机系统应用,2004,13(2):25-27.
5胡涛,路红英.基于Nutch的搜索引擎的研究[J].计算机时代,2007(1):57-59. 被引量：16
6程森,付红阁.基于Nutch的搜索引擎与HBase的结合在大数据时代的应用探究[J].计算机光盘软件与应用,2014,17(12):59-59.
7马睿,黄穗.基于补偿的Nutch搜索引擎的设计与实现[J].科学技术与工程,2011,11(34):8619-8623.
8孙晓霞,刘晓霞.用Java扩展XSLT[J].微机发展,2005,15(8):30-33.
9王仕仲,宁龙兵.基于Nutch的中文搜索引擎的研究与实现[J].电脑开发与应用,2009,22(7):76-76. 被引量：3
10饶文碧,张丽,易健康,甘泉.面向普适计算的界面自适应的研究[J].计算机工程与设计,2006,27(16):3007-3009.

计算机工程

2008年第15期

浏览历史

内容加载中请稍等...

基于Nutch的XML网站全文搜索引擎实现被引量：5

参考文献5

二级参考文献7

同被引文献30

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Nutch的XML网站全文搜索引擎实现 被引量：5

参考文献5

二级参考文献7

同被引文献30

引证文献5

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Nutch的XML网站全文搜索引擎实现被引量：5