基于聚类算法的垂直搜索引擎技术研究被引量：1

Research of vertical search engine technology based on clustering algorithm

下载PDF

导出

摘要设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。 A vertical search engine is designed and implemented based on similar clustering algorithm. By using web crawler NWebCrawler and the custom regular expressions, useful URLs is crawled efficiently. Through analyzing the information of URL, structured data are extracted. The key words are segmented by using positive maximum matching algorithm and the value of the searching results is clustered by using VSM （vector space model）. Finally, index is created based on Lucene and information is retrieved. The experimental results show that the vertical search engine based on similar clustering algorithm is higher on the rate of accuracy and recall. Compared with the ordinary vertical search engine, it has a function of inquiring similar products.

作者苗海张仰森岳明

机构地区北京信息科技大学计算机学院

出处《北京信息科技大学学报（自然科学版）》 2013年第1期38-41,共4页 Journal of Beijing Information Science and Technology University

基金国家自然科学基金资助项目(60873013 61070119) 北京大学计算语言学教育部重点实验室开放课题基金资助项目(KLCL-1005) 北京市属市管高等学校人才强教计划资助项目(PHR201007131)

关键词搜索引擎爬虫聚类正则表达式 search engine reptile clustering regular expression

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1张磊.搜索引擎综述[J].泰州科技,2008,0(8):33-37. 被引量：4
2罗丽姗.垂直搜索引擎发展概述[J].图书馆学研究,2006(12):68-70. 被引量：22
3郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
4庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
5S.Chakrabarti,M.van den Berg,B.Dom.Foeused crawling:a new approach to topspecificWeb resource discovery[J].ComputerNetworks,1999,31:1623-1640.

二级参考文献23

1张晓宁.走近垂直搜索[J].电子商务世界,2006(2):102-103. 被引量：7
2黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
3鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
4卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
5黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
6鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
7卜东波，博士学位论文，2000年
8Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页
9Yang Yiming，J Information Retrieval，1999年，1卷，1/2期，67页
10Lucene Open Source Material[Z].http://jakarta.apache.org/lucene.

共引文献382

1吴泽彬,魏洁,李蔚清,吴慧中.面向服务架构的全文检索研究[J].华中科技大学学报（自然科学版）,2007,35(S1):202-205. 被引量：3
2安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
3蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
4于静波,余敦一,陈秋月,胡文学.互联网新闻搜索设计[J].计算机系统应用,2008,17(7):18-20.
5李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
6蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
7孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
8杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
9刘小强.二手转让及房产租售垂直搜索引擎的设计与实现[J].三门峡职业技术学院学报,2010,9(3):107-110. 被引量：2
10李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.

同被引文献10

1王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
2刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：131
3李清泉,杨必胜,郑年波.时空一体化GIS-T数据模型与应用方法[J].武汉大学学报（信息科学版）,2007,32(11):1034-1041. 被引量：20
4L1 W W, YANG C W, YANG C J. An active crawler for discovering geospatial Web services and their distri- bution pattern - A case study of OGC Web Map Scrv- iee[J]. International Journal of Geographical Informa- tion Science, 2010,24(8) : 1127-1147.
5唐旭日,陈小荷,张雪英.中文文本的地名解析方法研究[J].武汉大学学报（信息科学版）,2010,35(8):930-935. 被引量：41
6杨小晴,罗畏,黄文嘉.基于Google Map的楼盘信息发布系统的设计与实现[J].测绘工程,2011,20(2):49-52. 被引量：3
7张春菊,张雪英,朱少楠,徐希涛.基于网络爬虫的地名数据库维护方法[J].地球信息科学学报,2011,13(4):492-499. 被引量：24
8牛永洁,张成.多种字符串相似度算法的比较研究[J].计算机与数字工程,2012,40(3):14-17. 被引量：36
9武昊,廖安平,何超英,侯东阳.基于主题相关度的地理信息Web服务爬虫研究[J].地理与地理信息科学,2012,28(2):27-30. 被引量：12
10白玉琪,杨崇俊.空间信息搜索引擎研究[J].中国矿业大学学报,2004,33(1):90-94. 被引量：10

引证文献1

1陈睿嘉,康志忠,张卫涛.基于网络爬虫的导航深度服务信息自动采集[J].测绘工程,2015,24(1):17-24. 被引量：8

二级引证文献8

1曾李阳,齐华,谭明建,刘建川,严林.基于天地图的POI数据采集系统设计与实现[J].测绘与空间地理信息,2016,39(3):55-58. 被引量：8
2蓝振家,郭庆胜,董慧娟,刘晴,尹航.基于海量POI数据的城市小学教育资源信息的提取与分析[J].测绘工程,2016,25(10):59-63. 被引量：8
3严宏基,李兵,詹伟,舒红,耿晴,赵晶.基于众包模式的POI数据采集方案研究[J].地理空间信息,2017,15(12):41-44. 被引量：10
4李涛,冯仲科,孙素芬,程文生.基于Hadoop的气象大数据分析GIS平台设计与试验[J].农业机械学报,2019,50(1):180-188. 被引量：21
5刘达,房龙,姜健.基于网络文本信息检索的地理信息变化自动发现研究[J].测绘与空间地理信息,2019,42(6):100-101. 被引量：3
6杨宇,孙亚琴,闫志刚.网络爬虫的专题机构数据空间信息采集方法[J].测绘科学,2019,44(7):122-127. 被引量：13
7姜代炜.基于数据挖掘的地理信息服务聚合研究[J].测绘与空间地理信息,2019,42(11):78-81. 被引量：4
8宋婷婷.基于主题的多线程网络爬虫系统的研究[J].现代信息科技,2020,4(7):83-85.

1杨锡阶,张洪明.参数化技术在计算机辅助设计中的应用研究[J].科技资讯,2006,4(9):10-10. 被引量：3
2孙永健.参数化技术在计算机辅助设计中的应用研究[J].科技创新导报,2007,4(32):28-28.
3黄微,高俊峰.基于概念格的Web学术信息搜索结果的二次组织[J].现代图书情报技术,2010(5):8-12. 被引量：6
4陈永超,刘贵全.一种基于命名实体的搜索结果聚类算法[J].计算机工程,2009,35(7):46-48. 被引量：6
5章成志.一种基于组合策略的聚类描述方法及其应用[J].情报科学,2009,27(7):1079-1084.
6沙芸,张国英.基于词汇图的搜索结果聚类算法[J].计算机研究与发展,2007,44(z2):135-139.
7卢广顺,董小雷,王新.基于数据库的全参数化CAD系统的应用[J].河北理工学院学报,2004,26(2):30-33.
8于洪,谌强.一种结合K-Means的层次化的搜索结果聚类方法[J].重庆邮电大学学报（自然科学版）,2010,22(3):355-359.
9沙芸,张国英.基于词间语义相关度的搜索结果聚类算法[J].郑州大学学报（理学版）,2009,41(1):73-76. 被引量：2
10刘强,吴雨桐,郎非.企业级搜索引擎中结果聚类和查询补全技术[J].哈尔滨理工大学学报,2012,17(4):92-96.

北京信息科技大学学报（自然科学版）

2013年第1期

浏览历史

内容加载中请稍等...

基于聚类算法的垂直搜索引擎技术研究被引量：1

参考文献5

二级参考文献23

共引文献382

同被引文献10

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于聚类算法的垂直搜索引擎技术研究 被引量：1

参考文献5

二级参考文献23

共引文献382

同被引文献10

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于聚类算法的垂直搜索引擎技术研究被引量：1