彝文网页信息采集技术研究被引量：3

Research on Yi Language Web Information Acquisition Technology

导出

摘要本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。 this article through to the Chinese web pages to collect the analysis of the process,the basic principle of web crawler work,combined with the characteristics of the yi language web pages,studied the yi language web information collection technology,realized through focused web crawler yi language web page information collection,and accordingly to establish a comprehensive yi language web information repository.

作者张建营王嘉梅汤雪胡刚

机构地区云南民族大学电气信息工程学院

出处《网络安全技术与应用》 2014年第12期6-8,共3页 Network Security Technology & Application

基金 "云南跨境民族网络舆情信息挖掘关键技术研究"(2013年国家自然科学基金 61363085) "云南跨境民族语言网络敏感信息传播与分析-以彝文为例"(2013年云南省教育厅科学研究基金重大专项项目 ZD2013013) "云南省高校少数民族语言文字信息化处理工程研究中心"三年提升计划"项目"(2014年云南民族大学高水平民族大学建设科研项目) "云环境下基于东盟移动网络智能舆情预测与控制研究"(2014年云南省东南亚南亚西亚研究中心招标课题一般项目 DY2014YB01) "少数民族社交网络虚假信息识别技术研究-以泰文为例"(2014年云南民族大学研究生创新基金科研重点项目) 2013年国家语委重大科研项目"少数民族语言文化信息元表示及抽取方法研究"等基金项目支持 "云南省高校少数民族语言文字信息化处理工程研究中心"(云南省教育厅云教科[2007]13号) 云南民族大学省级科研创新团队等机构支持

关键词彝文网页网络爬虫信息采集 yi language web page Web crawler Information collection

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1吴丽辉,王斌,余智华.一种通用Web信息采集系统的设计与实现[J].计算机工程,2005,31(3):123-124. 被引量：11
2Carlos Cobos, Henry Munoz-Collazos, RicharUrbano-Munoz. Clustering of web search results based on the cuckoo searchalgorithm and Balanced Bayesian Information Criterion. Information Sciences 291 ( 2014 ) 24g-264.
3EnverKayaaslan, B, BarlaCambazoglu, CevdetAykanat.Docume nt replication strategies for geographically distributed websearch engines.Information Processing and Management 49 (2013) 51- 66.

二级参考文献4

1Cho J, Garcia-Molina H. Paraller Crawlers. Proceedings of the Eleventh International Conference on World Wide Web, 2002-05
2Aggarwal C, Al-Garawi F, Yu P. Intelligent Crawling on the World Wide Web with Arbitrary Predicates. In: Proceedings of the 10th International WWW Conference, 2003
3Menczer F, Pant G, Srinivasan P, et al. Evaluating Topic-Driven WebCrawlers. In: Proceedings of the 24th Annual International ACM/SIGIRConference, 2002
4Chakrabarti S, Van Den Berg M, Dom B. Focused Crawling: A New Approach to Topic-specific Web Resource Discovery. In: Proceedings of the 8th International WWW Conference, Toronto, Canada, 1999-05

共引文献10

1李海英.网络时代信息资源的采集、描述与质量控制——以东北林业大学重点学科导航库为例[J].图书馆学研究,2006(3):57-59. 被引量：12
2杨艺,代春艳.基于IOCC的定题Web信息发现机制研究[J].计算机工程与设计,2008,29(22):5906-5909. 被引量：1
3刘忠强,柳长安,李国栋.多策略网络信息采集系统的设计与实现[J].中国电力教育,2007(S3):225-227. 被引量：1
4杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
5金岳富,范剑英,冯扬.分布式Web信息采集系统的设计与实现[J].哈尔滨理工大学学报,2010,15(1):116-119. 被引量：7
6董亚则,王国春,张丽娟,彭馨仪.基于Web的个性化就业信息服务系统设计[J].长春工业大学学报,2011,32(6):548-553.
7王传清,毕强.政府危机信息管理联动系统模型构建[J].图书情报工作,2012,56(17):31-36. 被引量：12
8袁威,薛安荣,周小梅.基于Nutch的分布式爬虫的优化研究[J].无线通信技术,2014,23(3):44-47. 被引量：7
9刘志明,王琨.舆情监测系统中信息采集模块的设计与实现[J].南华大学学报（自然科学版）,2015,29(2):102-107.
10吕何新,朱斌,冯淑娟.基于混合架构的高校就业管理系统的设计与实现[J].浙江树人大学学报（自然科学版）,2006,6(3):1-5.

同被引文献46

1蔡夏.机器翻译视角下规范彝文文本分词歧义类型探究[J].民族翻译,2020,0(1):81-86. 被引量：1
2吴兵,史军,刘玉萍,张楠,王莉.基于Linux系统的彝文输入动态挂接[J].西南民族大学学报（自然科学版）,2005,31(4):606-610. 被引量：5
3尉迟治平,汤勤.论中文字符集、字库及输入法的研制[J].语言研究,2006,26(3):63-66. 被引量：16
4朱志宁,黄青松.快速的中文网页分类方法实现[J].山西电子技术,2008(4):7-9. 被引量：1
5陈顺强.在Windows平台下四川古彝文系统的设计与开发[J].毕节学院学报（综合版）,2008,26(5):26-31. 被引量：1
6吐尔洪.吾司曼,维尼拉.木沙江.维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现[J].新疆大学学报（自然科学版）,2009,26(1):103-106. 被引量：2
7陈顺强,张阳,熊剑.四川古彝文字库设计及其字符集的编码[J].西南民族大学学报（自然科学版）,2009,35(4):913-918. 被引量：4
8江涛,于洪志,徐涛.互联网藏文内容安全检测过滤系统研究[J].信息网络安全,2009(10):47-48. 被引量：4
9冯浩,王辉,王嘉梅.基于自由拆分模式的彝文输入法设计与实现[J].计算机应用,2010,30(A01):306-308. 被引量：6
10吴勰.通用彝文信息化字库建设[J].毕节学院学报（综合版）,2010,28(9):23-26. 被引量：2

引证文献3

1王清,李炳泽,王嘉梅.面向彝文网页的敏感内容分级系统研究[J].云南民族大学学报（自然科学版）,2019,28(2):177-185. 被引量：4
2曾庆雅,王成平.基于CiteSpace彝文信息处理研究的知识图谱分析[J].中央民族大学学报（自然科学版）,2023,32(2):51-60.
3罗锦才.网页信息表格化提取程序[J].课程教育研究,2017,0(10):229-230.

二级引证文献4

1朴承哲.基于改进深度学习的网络敏感信息快速过滤研究[J].宁夏师范学院学报,2021,42(1):85-90. 被引量：2
2张维,蒋颖,楼斐,王庆娟,陈齐瑞.基于机器学习的生活号敏感内容感知与预警系统设计[J].微型电脑应用,2021,37(11):104-107.
3石小兵.基于K近邻分类算法的网络敏感信息自动过滤[J].河北北方学院学报（自然科学版）,2021,37(11):1-6. 被引量：2
4袁斐洋,普尺,倪胜巧,扎西多吉.基于谷歌浏览器的藏文敏感信息拦截扩展的设计与实现[J].电脑知识与技术,2022,18(3):51-52.

1杨靖韬,陈会果.对网络爬虫技术的研究[J].科技创业月刊,2010,23(10):170-171. 被引量：5
2王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
3张小集,白清源.可自定规则的Ajax网页信息采集框架的开发[J].电脑开发与应用,2014,27(10):29-31. 被引量：2
4刘相琴,孟繁疆.大豆垂直搜索引擎的研究与设计[J].农机化研究,2013,35(5):200-203. 被引量：2
5孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：135
6何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报（理学版）,2010,42(1):82-85. 被引量：27
7邹海亮,孙莉.可定制的聚焦网络爬虫[J].电子科技,2009,22(1):47-50. 被引量：4
8曹毅,袁保社.基于元搜索引擎的维吾尔文信息检索处理系统[J].现代计算机,2008,14(10):40-42.
9高庆宁,吴鹏,张晶晶.基于文档对象模型与行块分布算法的网页信息抽取[J].情报理论与实践,2016,39(4):133-137. 被引量：9
10代鹏.基于Nutch的增量网页信息采集系统的设计与实现[J].软件,2015,36(11):100-104. 被引量：3

网络安全技术与应用

2014年第12期

浏览历史

内容加载中请稍等...

彝文网页信息采集技术研究被引量：3

参考文献3

二级参考文献4

共引文献10

同被引文献46

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

彝文网页信息采集技术研究 被引量：3

参考文献3

二级参考文献4

共引文献10

同被引文献46

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

彝文网页信息采集技术研究被引量：3