基于维吾尔文的聚焦策略爬虫技术研究

Study on Focused Crawler for Uyghur langange

下载PDF

导出

摘要随着网络资源的不断丰富,人们获取信息的途径已被网络代替。维吾尔文,在语言信息处理,WEB应用等领域有了迅速的发展。文章针对网络爬虫的工作原理以及聚焦爬虫策略进行阐述,在此基础上结合维吾尔语信息提取的相关研究,研究了维吾尔文的网络爬虫技术的结构和策略,从而为维吾尔文搜索引擎的网页数据库建设和维吾尔文网络舆情分析研究提供海量的语料。 The way people getting various information have gradually been replaced by the vast growing Inter-net,along with rich online resources. as for this, Uyghur language have developed very fast in many research fields, in which natural language processing and Web application. This paper, mainly presented basic theory of web crawl-er and strategy of focused carawler, on the basis of study on Uyghur information extraction. Then discussed Uyghur web crawler in both structural and strategic way. Thus, massively provided large rage corpus for Uyghur search en-gine and Uyghur public network analysis.

作者阿依努尔.阿布瓦依提

机构地区新疆师范大学信息管理中心

出处《新疆师范大学学报（自然科学版）》 2014年第4期75-78,共4页 Journal of Xinjiang Normal University(Natural Sciences Edition)

关键词网络爬虫维吾尔文聚焦策略维吾尔文搜索引擎 Web crawler Uyghur Web crawler Uyghur search engine

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
2李盛韬,余智华,程学旗,白硕.Web信息采集研究进展[J].计算机科学,2003,30(2):151-157. 被引量：25

二级参考文献32

1刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报（自然科学版）,2006,23(3):59-62. 被引量：15
2[8]Cho,Molina. Synchronizing a database to improve freshness. In:Junghoo Cho, Hector Garcia-Molina, eds. Proc. of 2000 ACM Intl. Conf. on Management of Data(SIGMOD),May 2000
3[9]Cho, Molina, Page. Efficient Crawling Through URL Ordering.In: Junghoo Cho,Hector Garcia-Molina and Lawrence Page, eds.Proc. of the Seventh Intl. World Wide Web Conf. Toronto,Canada,May 1999
4[10]Edwards,et al. An Adaptive Model for Optimizing Performance of an Incremental Web Crawler. In: J. Edwards, K. McCurley, J.Tomlin,eds. Proc. of the 10th Intl. World Wide Web Conf. Hong Kong ,May 2001
5[11]Heydon ,Najork .Mercator:A Scalable,Extensible Web Crawler.A. Heydon and M. Najork. In World Wide Web Journal, Dec.1999. 219～229
6[12]Kamba T,Bharat K,Albers M. The Krakatoa Chronicle - An Interactive, Personalized, Newspaper on the Web. In: Proc. of WWW 4,Boston, USA,Dec. 1995
7[13]Kahle B. Preserving the Internet,Scientific American,March 1997
8[14]Koster M. The Web Robots Pages. 1999
9[15]Lawrence S,Giles C L. Accessibility of information on the Web.Nature, 1999,400(6740) :107～109
10[16]Letizia. An Agent That Assists Web Browsing. In:H. Lieberman,ed. Proc. of the Intl. Joint Conf. on AI,Montreal ,Canada,Aug.1995

共引文献34

1朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报（自然科学版）,2003,26(z1):657-661. 被引量：17
2熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量：1
3刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
4李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量：17
5杨宝森,来玲.面向学科的网络信息挖掘系统研究[J].情报理论与实践,2006,29(2):240-242. 被引量：3
6杨宝森.面向学科的Web数据挖掘研究[J].情报杂志,2006,25(3):19-21. 被引量：4
7祝宇,夏诏杰,聂峰光,郭力.支持向量机在化学主题爬虫中的应用[J].计算机与应用化学,2006,23(4):329-332. 被引量：8
8杨才峰,周彦辉.用元搜索引擎实现刑罚信息个性化检索[J].计算机应用,2006,26(B06):83-86.
9来玲,杨宝森.基于XML的大学图书馆知识管理系统研究[J].图书情报工作,2007,51(2):92-95. 被引量：5
10来玲,杨宝森.大学图书馆知识仓库体系架构及实现技术研究[J].情报杂志,2007,26(2):38-41. 被引量：2

1黄亿,王兴,李辉.一种新的高灵敏度聚焦评价函数[J].微计算机信息,2009,25(27):163-165. 被引量：2
2韩旭,史忠植,林芬.基于模型诊断的研究进展[J].高技术通讯,2009,19(5):543-550. 被引量：10
3胡涛,陈世哲,刘国栋,浦昭邦.大范围自动调焦快速搜索算法[J].光电子．激光,2006,17(4):464-467. 被引量：17
4喻琼.基于图像处理的显微镜自动聚焦系统的设计与实现[J].无线互联科技,2011,8(6):43-44.
5罗丽,杨鸣,李勇,卓薇.一种全自动显微镜快速聚焦方法[J].光学仪器,2009,31(1):25-29. 被引量：3
6周丽平,孙志峻,张泉.显微视觉系统的自动聚焦及控制[J].光学精密工程,2013,21(3):807-812. 被引量：22
7宗光华,孙明磊,毕树生,于靖军,余志伟.显微视觉自动聚焦研究[J].光学学报,2005,25(9):1225-1232. 被引量：21
8孙明磊,宗光华,余志伟,毕树生,于靖军.基于图像分析的显微视觉自动聚焦系统[J].北京航空航天大学学报,2005,31(2):192-196. 被引量：25
9王超,蒋远大,翟光杰,蔡世界.基于数字图像处理的自控显微镜聚焦算法研究[J].仪器仪表学报,2009,30(6):1290-1294. 被引量：15
10李勇滔,韩立.基于图像分析的SEM显微视觉自动聚焦技术研究[J].微细加工技术,2008(4):6-9. 被引量：3

新疆师范大学学报（自然科学版）

2014年第4期

浏览历史

内容加载中请稍等...

基于维吾尔文的聚焦策略爬虫技术研究

参考文献2

二级参考文献32

共引文献34

相关作者

相关机构

相关主题

浏览历史