基于Web的DCI垂直搜索引擎的研究与设计被引量：7

Research and design of vertical search engine for DCI based on web

下载PDF

导出

摘要为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎。首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎。实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率。 In order to solve the users＇ problem for searching digital works information quickly and correctly, a vertical search engine about digital work＇s Copyright Identifier is analyzed and designed. In the first place, based on the Heritrix web crawler, the network digital work＇s data acquisition and text information extraction are presented and the extracted data is saved to the local; In the second place, on the basis of the Lucene＇s full-text retrieval toolkit, segmentation, inverted index, index retrieval and im- proved sorting algorithm technology are taken to handle the collected data. a general and extensible DCI vertical search engine is designed and achieved. The experimenal results show that this search engine does enhance web page information extraction accuracy and data indexing efficiency in great degree.

作者吴洁明冀单单韩云辉

机构地区北方工业大学信息工程学院

出处《计算机工程与设计》 CSCD 北大核心 2013年第4期1481-1487,共7页 Computer Engineering and Design

基金国家科技部支撑计划课题基金项目(2012BAH04f03)

关键词数据采集倒排索引垂直搜索引擎信息抽取相关度排序 data acquisition inverted index vertical search engine information acquisition relevance sorting algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1李雪莲.IDC:数字信息大爆炸2020年总量将达35ZB[EB/OL].[2010-05-10].http://tech.hexun.com/2010-05-10/123653027.html.
2Huelmarc.DCI百度百科[EB/OL].[2011-12-02].http://baike.baidu.com/view/1733861.htm.
3付强.基于Lucene的高校图书垂直搜索引擎的研究与实现[J].太原师范学院学报（自然科学版）,2011,10(4):104-107. 被引量：8
4崔晓波.SOA概览[EB/OL].[2006-01-05].http://biog.csdn.net/byfq/artide/details/2411442.
5赵珂,逯鹏,李永强.基于Lucene的搜索引擎设计与实现[J].计算机工程,2011,37(16):39-41. 被引量：26
6蒋一峰,王华,张玉红,黄少林.基于Lucene的语义检索系统的设计和实现[J].计算机工程与设计,2008,29(20):5336-5337. 被引量：7
7Otis Gospodnetic, Erik Hatcher. Lucene IN ACTION 中文版[M].谭鸿,译.北京:电子工业出版社,2007.
8王欢,孙瑞志.基于领域本体和Lucene的语义检索系统研究[J].计算机应用,2010,30(6):1655-1657. 被引量：20

二级参考文献23

1张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
2李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
3黄果,周竹荣,周亭.基于领域本体的语义相似度计算研究[J].计算机工程与科学,2007,29(5):112-117. 被引量：21
4马晖男,吴江宁,潘东华.一种基于同义词词典的模糊查询扩展方法[J].大连理工大学学报,2007,47(3):439-443. 被引量：17
5TVERSKY A.Features of similarity[J].Psychological Review,1997,84(4):327-352.
6RESNIK P.Semantic similarity in a taxonomy:An information-based measure and its application to problems of ambiguity and natural language[J].Journal of Artificial Intelligence Research,1999,11:95-130.
7LEACOCK C,CHODOROW M.Combining local context and wordnet similarity for word sense identification[M].Cambridge,MA:MIT Press,1998:265-283.
8谭呜.基于Lucene技术的垂直搜索引擎的研究与实现[D].南昌:江西理工大学,2008:10-11.
9钱春江.Lucene全文搜索引擎的应用[D].上海:上海理工大学,2009.:28-35.
10Lucene open source material[EB/OL], http://jakarta.apache.org/ lucene.

共引文献55

1毛布,谢汶.一种基于博弈论的死锁检测机制研究[J].成都电子机械高等专科学校学报,2010,13(4):39-41. 被引量：1
2周锦程,王丹,余泉,张维.基于Lucene的全文检索系统的研究与实现[J].计算机技术与发展,2011,21(3):67-71. 被引量：10
3黄承慧,印鉴,陆寄远.一种改进的Lucene语义相似度检索算法[J].中山大学学报（自然科学版）,2011,50(2):11-15. 被引量：13
4姜鑫,余平.基于Lucene的音视频资源检索系统的研究与实现[J].计算机应用与软件,2011,28(11):245-248. 被引量：5
5陈忱.Lucene排序算法的个性化改进[J].科技与企业,2012(2):62-62. 被引量：2
6杨元峰,赵敏涯,廖黎莉.基于Lucene的客服知识库系统结构设计[J].福建电脑,2012,28(1):10-11.
7石军伟.基于Lucene的图书垂直搜索引擎探析[J].科学时代,2012(5):144-145.
8葛彦强,汪向征,栗青生,宋世桢.基于Lucene的甲骨文全文检索系统构建[J].科技通报,2012,28(4):72-74. 被引量：3
9卢希.聚类搜索在电子商务中的应用研究[J].科技信息,2012(24):271-271. 被引量：1
10谌超,强保华,石龙.基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J].桂林电子科技大学学报,2012,32(4):307-312. 被引量：11

同被引文献61

1苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
2张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
3张李义,李亚子.基于反序词典的中文逆向最大匹配分词系统设计[J].现代图书情报技术,2006(8):42-45. 被引量：12
4张体首,蔡明.语义搜索引擎概念模型[J].微电子学与计算机,2007,24(3):171-173. 被引量：10
5杨丹波.应用Web数据挖掘的主题元搜索引擎设计与实现[D].北京:清华大学,2008.
6Park K, Jee H, Lee T, et al. Automatic extraction of user's search intention from web search togs [J]. Multimedia Tools and Applications, 2012, 61 (1): 145-162.
7Gupta V, Garg N, Gupta T. Search bot: Search intention based filtering using decision tree based technique [C] //Inter- national Conference on Intelligent Systems, Modelling and Simulation. IEEE, 2012 : 49-54.
8Gu C, Zhang S, Xue X. Network intrusion detection based on improved proximal SVM [J]. Advances in Information Sciences and Service Sciences, 2011, 3 (4): 132-140.
9Liu L, Yang S, Wang D. Particle swarm optimization with composite particles in dynamic environments [J]. IEEE Tran- sactions on Systems, Man, and Cybernetics, Part B: Cyber- netics, 2010, 40 (6): 1634-1648.
10Ojeda F, Suykens J A K, De Moor B. Low rank updated LS- SVM classifiers for fast variable selection [J]. Neural Net- works, 2008, 21 (2).. 437-449.

引证文献7

1陈臣.一种大数据时代基于读者体验视角的数字图书馆个性化搜索引擎[J].四川图书馆学报,2013(6):27-30. 被引量：12
2齐富民,谢晓尧,吴静.网络搜索中用户搜索意图识别的研究[J].计算机工程与设计,2014,35(4):1285-1292. 被引量：2
3王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案[J].计算机系统应用,2018,27(12):18-24.
4闫江豪.大数据环境下Web图片检索应用与研究[J].濮阳职业技术学院学报,2015,28(4):144-145.
5杨成龙,李德识.面向物联网的传感器实体搜索系统[J].计算机工程与设计,2015,36(10):2823-2827. 被引量：2
6朱宇峰,兰小机,康俊锋.旅游地理信息垂直搜索引擎及应用研究[J].测绘科学,2016,41(5):152-156. 被引量：2
7张克君,任鹏,钱榕,居荣斌,姜琛,张国亮.一种基于聚类技术的全文检索与推介系统的构建[J].计算机科学,2015,42(S1):489-490 512.

二级引证文献18

1杨雁.公共图书馆应用大数据的理性思考[J].图书馆学刊,2014,36(7):5-8. 被引量：10
2白薇.大数据与图书馆数字资源组织建设[J].图书馆界,2014(5):72-74. 被引量：4
3赵琨.大数据环境下图书馆实体音视频资源建设探讨[J].图书馆工作与研究,2015(2):48-52. 被引量：8
4王亚辉.用户搜索意图视角下的Web网页动态泛化研究[J].信息通信,2014,27(12):108-109. 被引量：1
5高蕴梅,薛凯华,谢从华.大数据时代的数字图书馆建设[J].农业图书情报学刊,2016,28(11):85-87. 被引量：5
6郑丽娟,高文华,关萍.大数据时代图书馆数字资源整合研究[J].绥化学院学报,2016,36(12):136-138.
7曹锐.公共图书馆声像资料服务方式研究——以湖北省图书馆为例[J].山西科技,2017,32(3):47-49. 被引量：2
8孙蕾蕾,孙军.挈领大数据要点,图书馆自我升华[J].文教资料,2017(14):51-52.
9孙雨生,于凡,孙肖妹,郝丽静.国内基于大数据的个性化服务研究进展——架构体系与关键技术[J].现代情报,2018,38(2):171-177. 被引量：10
10刘慧,欧尔格力.基于天地图的大美青海地图网研究与实现[J].青海师范大学学报（自然科学版）,2017,33(4):51-55.

1张选平,袁明轩,蒋宇,马琮,梁平.一种基于概念抽取的元搜索引擎[J].微电子学与计算机,2006,23(3):156-159.
2李玖栋,邓辉宇.上海光源PDM全文检索系统的改进[J].核技术,2011,34(10):721-725.
3吴洁明,周倩,许传祥.DCI体系下数字版权管理服务平台的设计[J].计算机应用与软件,2014,31(4):62-65. 被引量：4
4唐坚波.基于Bayes网络的信息检索研究[J].电脑知识与技术（过刊）,2010,0(15):4122-4124.
5吴洁明,韩云辉,冀单单.基于Lucene的数字作品搜索引擎的研究与设计[J].计算机工程与科学,2013,35(5):166-172. 被引量：10
6葛彦强,汪向征,栗青生,宋世桢.基于Lucene的甲骨文全文检索系统构建[J].科技通报,2012,28(4):72-74. 被引量：3
7宋永生,周建.基于Lucene的搜索关键词辅助系统的设计与实现[J].南通纺织职业技术学院学报,2011,11(1):23-26.
8杨晓军,王一莉.基于Compass的全文检索系统的研究与设计[J].煤炭技术,2010,29(6):157-159. 被引量：5
9贾志城.数字水印技术[J].甘肃科技纵横,2005,34(4):42-43. 被引量：1
10常瑞娜,穆晓敏,杨守义,齐林.基于人眼视觉特性的DCT域二值水印算法[J].微计算机信息,2008,24(27):189-191. 被引量：1

计算机工程与设计

2013年第4期

浏览历史

内容加载中请稍等...

基于Web的DCI垂直搜索引擎的研究与设计被引量：7

参考文献8

二级参考文献23

共引文献55

同被引文献61

引证文献7

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Web的DCI垂直搜索引擎的研究与设计 被引量：7

参考文献8

二级参考文献23

共引文献55

同被引文献61

引证文献7

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于Web的DCI垂直搜索引擎的研究与设计被引量：7