摘要
本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库。
this article through to the Chinese web pages to collect the analysis of the process,the basic principle of web crawler work,combined with the characteristics of the yi language web pages,studied the yi language web information collection technology,realized through focused web crawler yi language web page information collection,and accordingly to establish a comprehensive yi language web information repository.
出处
《网络安全技术与应用》
2014年第12期6-8,共3页
Network Security Technology & Application
基金
"云南跨境民族网络舆情信息挖掘关键技术研究"(2013年国家自然科学基金
61363085)
"云南跨境民族语言网络敏感信息传播与分析-以彝文为例"(2013年云南省教育厅科学研究基金重大专项项目
ZD2013013)
"云南省高校少数民族语言文字信息化处理工程研究中心"三年提升计划"项目"(2014年云南民族大学高水平民族大学建设科研项目)
"云环境下基于东盟移动网络智能舆情预测与控制研究"(2014年云南省东南亚南亚西亚研究中心招标课题一般项目
DY2014YB01)
"少数民族社交网络虚假信息识别技术研究-以泰文为例"(2014年云南民族大学研究生创新基金科研重点项目)
2013年国家语委重大科研项目"少数民族语言文化信息元表示及抽取方法研究"等基金项目支持
"云南省高校少数民族语言文字信息化处理工程研究中心"(云南省教育厅
云教科[2007]13号)
云南民族大学省级科研创新团队等机构支持
关键词
彝文网页
网络爬虫
信息采集
yi language web page
Web crawler
Information collection