基于本体语义的定题爬虫被引量：11

Ontology based on focused crawler

下载PDF

导出

摘要定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性. Focused crawler can fetch large quantities of domain resources from the Web in a short time. It is very helpful in both foused search engines and data mining companies. In order to overcome the deficiency of topic filtering strategy based on keywords widly used nowadays, the paper proposed a topic filtering stratege based on concept elicited by concept congregation idea. The paper also proposed an authority modified weight calculation formula based on different importance of Web page information. By doing this, real time Web page filtering based on concept can be achieved. In the hope of improving focused crawler＇s work efficiency more, the paper also proposed a link forecast algorithm. At last, the comparative experiment shows that the strategies proposed in this paper are pratical.

作者郑健珍林坤辉周昌乐康恺

机构地区厦门大学软件学院厦门大学信息科学与技术学院

出处《山东大学学报（理学版）》 CAS CSCD 北大核心 2006年第3期106-110,共5页 Journal of Shandong University(Natural Science)

基金厦门大学985二期信息创新平台资助项目(0000-X07204)

关键词定题爬虫主题过滤本体语义链接分析 focused-crawler topic-filtering ontology-semantic-analyse hyperlink-analyse

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Marc Ehring, Mexander maedche. Ontology-focused crawling of Web documents[J], Proceedings of the 2003 ACM Symposium on Applied Computing, 2003, 1(3) :624 - 626.
2董振东，董强．Ontology和HowNet[EB／OL]．http://www．keenage.com/html/c-index.html., 2003-08/2006-02.
3Cutler M, Shih Y, Meng W. Using the structure of HTML documents to improve retrieval [A]. Proceedings of the USENIX Symposium on Intemet Technologies and Systems Monterey[C]. California: California Press, 1997. 241 - 251.
4Mdiligenti F Coetzee. Focused crawling using context graphs[A]. Proceedings of the 26th International Conference on Very Large Data Bases[C]. Cairo: Cairo Press, 2000. 527 - 534.
5Ricardo Baeza-yates, Berthier Ribeiro-neto. Modem Information Retrieval[M]. Beijing: China Machine Press, 2005.
6刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
7龙宇巍,王永成,许欢庆.定题搜索引擎Robot的设计与算法[J].计算机仿真,2004,21(4):69-72. 被引量：9

二级参考文献4

1[7]Page L,Brin S,Motwani R,et al. The PageRank citation ranking:Bringing order to the Web [ EB/OL]. http://www-db. stanford. edu/～ backrub/pageranksub. ps, 1998 -01 - 20/2003 - 03 - 25.
2[8]Brin S,Page L. The anatomy of a large-scale hypertextual web search engine [J]. Computer Networks and ISDN Systems, 1998,30:107 - 117.
3曹军.Google的PageRank技术剖析[J].情报杂志,2002,21(10):15-18. 被引量：70
4雷鸣,王建勇,陈葆珏,李晓明.Improved Relevance Ranking in WebGather[J].Journal of Computer Science & Technology,2001,16(5):410-417. 被引量：4

共引文献18

1梁循,杨健,陈华,曾月卿.互联网金融信息搜索[J].中国管理科学,2005,13(z1):240-246. 被引量：5
2张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
3王斌,谢庆生,刘丹,王晓.Web教学资源主题检索系统的设计与实现[J].现代图书情报技术,2006(1):62-65. 被引量：2
4刘德仿,王斌.面向教学领域的智能搜索引擎的研究与开发[J].电化教育研究,2007,28(5):48-51. 被引量：3
5李继宝,李庆忠,闫中敏.基于Deep Web的地图搜索系统的研究与实现[J].山东大学学报（理学版）,2007,42(11):59-61.
6魏文国,谢桂园.自适应最优搜索算法的网络蜘蛛的设计与实现[J].计算机应用,2007,27(11):2857-2859. 被引量：1
7徐照财,程显毅.基于多Agent系统的定题爬虫算法[J].计算机工程,2008,34(16):204-206. 被引量：4
8关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量：4
9郑国良,叶飞跃,林国俊,耿冬.基于领域本体的主题信息采集方法[J].计算机应用,2008,28(12):3274-3277. 被引量：7
10忻建,范建中.一种虚拟执行蜘蛛的设计与实现[J].电脑与电信,2009(6):61-63.

同被引文献124

1邱均平,徐蓓,李江.BlogRank算法及其在图书馆博客中的应用[J].图书情报知识,2008,25(1):68-71. 被引量：16
2凌妍妍,刘伟,王仲远,艾静,孟小峰.Deep Web数据集成中的实体识别方法[J].计算机研究与发展,2006,43(z3):46-53. 被引量：4
3郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
4刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
5朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
6李荣,杨冬,刘磊.基于本体的概念相似度计算方法研究[J].计算机研究与发展,2011,48(S3):312-317. 被引量：12
7曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
8黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
9汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
10汪涛,樊孝忠.链接分析对主题爬虫的改进[J].计算机应用,2004,24(B12):174-176. 被引量：12

引证文献11

1关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量：4
2陈方,谭爱平,成亚玲,文益民.主题爬虫技术研究综述[J].湖南工业职业技术学院学报,2008,8(5):13-16. 被引量：5
3金明珠,丁岳伟.基于动态主题库的主题爬虫[J].计算机应用,2009,29(B12):44-46. 被引量：4
4刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13
5张素智,李宝燕,樊得强.面向用户的本体爬虫研究与设计[J].郑州轻工业学院学报（自然科学版）,2010,25(6):62-66.
6王帅,周国民,王健.主题爬虫相关度算法研究综述[J].计算机与现代化,2013(4):27-30. 被引量：6
7张健,冯飞,刘宇,马红烨.基于本体概念相似度的网页排序算法研究[J].情报学报,2013,32(11):1174-1183. 被引量：1
8韦丽红.语义网专题爬虫算法的研究与改进[J].黑龙江科技信息,2013(34):171-171.
9赵永霄,哈力旦.阿布都热依木,张振东.面向增量同生主题的维吾尔文爬虫的研究[J].计算机应用研究,2014,31(11):3269-3272. 被引量：1
10韩牧哲,李秀霞,张艺蔓.我国网络计量学研究的知识扩散可视化分析[J].图书情报研究,2016,9(4):82-88. 被引量：5

二级引证文献41

1彭攀峰,刘波.基于农业信息化的垂直搜索引擎的分析与设计[J].农机化研究,2012,34(5):95-99. 被引量：1
2郑志高,刘庆圣,陈立彬.基于主题网络爬虫的网络学习资源收集平台的设计[J].中国教育信息化（高教职教）,2010(1):36-38.
3陈一峰,赵恒凯,余小清,万旺根.基于遗传算法的主题爬虫策略改进[J].计算机仿真,2010,27(10):87-90. 被引量：4
4高伟锋.基于Heritrix的主题网络爬虫设计与实现[J].南宁职业技术学院学报,2011,16(1):97-100. 被引量：3
5黄轩.辛亥革命史主题爬虫的设计与实现[J].电脑知识与技术,2011,7(5):3009-3010.
6张睿涵,林振荣,李建民,衷湾.基于主题定制的专利网络爬虫的设计与实现[J].计算机与现代化,2011(7):52-55. 被引量：2
7张安妮,姜华,郝相莲.面向主题的快速搜索引擎的设计与研究[J].淮阴工学院学报,2011,20(3):12-15. 被引量：1
8叶昭晖,曾琼,李强.基于搜索引擎的网络舆情监控系统设计与实现[J].广西大学学报（自然科学版）,2011,36(A01):302-307. 被引量：15
9王鲁荣.基于主题网络爬虫的高校网络信息动态搜索策略研究[J].四川师范大学学报（自然科学版）,2011,34(6):919-921. 被引量：3
10左红霞,包兴昌,李作汉,赵薛旭.急性脑血管病患者血浆、脑脊液生长抑素水平的研究[J].临床神经病学杂志,2000,13(1):34-36. 被引量：5

1孙玲芳,黎维良.基于定题爬虫的网页分类的多级判定算法[J].科学技术与工程,2009,9(18):5534-5537. 被引量：1
2王福海.基于PageRank的主题过滤算法改进[J].科技信息,2011(15). 被引量：3
3李韩,孙永杰.SQL数据库的安全管理和性能优化[J].科技创新与应用,2016,6(31):108-108. 被引量：7
4孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].软件导刊,2010,9(5):47-49. 被引量：5
5龚静,胡平霞,李春媚.一种用于文本分类的特征项权值计算方法的研究[J].惠州学院学报,2013,33(6):78-81.
6袁鑫.浅析数字信号处理技术在计量测试中的应用[J].中国电子商情（科技创新）,2014(6):11-11. 被引量：1
7张囡囡.一个高效的垃圾短信实时过滤系统的设计[J].品牌（理论月刊）,2015(2):178-178. 被引量：1
8徐照财,程显毅.基于多Agent系统的定题爬虫算法[J].计算机工程,2008,34(16):204-206. 被引量：4
9桑书娟,周晏.一种基于词长的TFIDF特征项权值计算方法[J].电脑知识与技术（过刊）,2011,17(11X):7996-7997.
10龚静,田小梅.基于文本表示的特征项权值计算方法[J].电脑开发与应用,2008,21(2):46-48. 被引量：4

山东大学学报（理学版）

2006年第3期

浏览历史

内容加载中请稍等...

基于本体语义的定题爬虫被引量：11

参考文献7

二级参考文献4

共引文献18

同被引文献124

引证文献11

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于本体语义的定题爬虫 被引量：11

参考文献7

二级参考文献4

共引文献18

同被引文献124

引证文献11

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于本体语义的定题爬虫被引量：11