基于语景图的主题爬取器的初步设计

Preliminary Design of A Context-Graph-based Focused Crawler

下载PDF

导出

摘要介绍了一个基于语景图的Web主题爬取器的初步设计。描述了NB分类器的文本学习的向量空间模型——Bernoulli模型及NaiveBayes分类器设计提出了简化的前端队列优先排序的设计方案,即下载文档的归一化文档向量与查询向量的余弦相似度,作为层内下载文档的排序准则,以便与各层队列中文档的类似然率得分排序进行对比。介绍了自动实现爬取结果与主题分类目录的集成设想。 This paper designes a focused crawler using context graph. The crawler is based on a set of Naive Bayes classifiers, which adopt both VSM and probability model for design comparison purpose. The frontier priority queue within a layer of the context graph is sorted by the cosine similarity between a downloaded normalized document vector and the query vector. An approach to classifying search results into a pre-defined category is presented.

作者李道生赵强

机构地区中国工程物理研究院计算机应用研究所

出处《计算机工程》 EI CAS CSCD 北大核心 2006年第12期208-209,228,共3页 Computer Engineering

关键词主题爬取机器学习语景图 Focused crawling Machine learning Context graph

分类号 TP393.07 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Cho J.Efficient Crawling Through URL Ordering[C].Proceedings of the 7^th International WWW Conference,Brisbane,Australia,1998-04.
2庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
3Din M.Focused Crawling Using Context Graphs[C].Proceedings of the 26^th International Conference on Very Large Databases,Cairo,Egypt,2000-09.
4Salton G,Michael J.Introduction to Modern Information Retrieval[M].McGraw-Hill,1983.
5Chakrabarti S.Data Mining for Hypertext a Tutorial Survey[J].ACM SIGKDD Explorations Newsletter,2000,1(1):1-11.
6Chakrabarti S.Using Discriminates and Signatures for Navigating in Text Databases[C].Proceedings of the 23rd VLDB Conference,1997:446-455.
7Ristard E S.A Natural Law of Succession[R].Princeton University,TR CS-TR-495-95,1995-07.
8Baldi P.Internet and Web Modeling― Probability Methods and Algorithms[M].Wiley Publishing House,1999.
9Koller D,Sahami M.Hierarchically Classifying Documents Using Very Few Words[C].Proceedings of International Conference on Machine Learning,1997.

二级参考文献8

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
5鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
6卜东波，博士学位论文，2000年
7Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页
8Yang Yiming，J Information Retrieval，1999年，1卷，1/2期，67页

共引文献292

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

1周前,肖建华.全文检索中的文本学习技术研究[J].湖南工程学院学报（自然科学版）,2001,11(2):64-67. 被引量：1
2郭辉,蔡庆生.Web主题信息监控系统设计与实现[J].计算机应用,2003,23(8):41-43. 被引量：1
3刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
4杨俊,李志蜀.基于DOM的WEB主题信息抽取[J].四川大学学报（自然科学版）,2008,45(5):1077-1080. 被引量：11
5王振霖.让数据驱动决策——建立有效的决策支持系统[J].中国计算机用户,2004(28):47-47. 被引量：1
6王晓飞,郭敏.结合边缘与区域信息的超声图像分割方法[J].计算机工程与应用,2011,47(9):185-187. 被引量：2
7方艳红,王梁,吴斌.多图像融合的连续腹腔影像图像分割[J].电子技术应用,2014,40(8):126-128. 被引量：1
8李英,李劲华.基于用户会话Web应用程序测试的新方法[J].青岛大学学报（自然科学版）,2015,28(4):61-65. 被引量：1
9李艳生,汪自云.基于遗传算法的Web主题库成长技术研究[J].湖北师范学院学报（自然科学版）,2010,30(4):38-42. 被引量：1
10张圣迪,高建华.针对事件驱动软件的测试集排序准则[J].计算机工程与设计,2015,36(12):3250-3257. 被引量：1

计算机工程

2006年第12期

浏览历史

内容加载中请稍等...

基于语景图的主题爬取器的初步设计

参考文献9

二级参考文献8

共引文献292

相关作者

相关机构

相关主题

浏览历史