摘要
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.
In order to solve the poor performance problem of traditional web text classification approaches in dealing with large-scale data, a web text classification system based on Hadoop was designed. The constructed system mainly includes text preprocess, vector representation, classification and result evaluation. Comparative experiments on the authentic dataset verified the effectiveness of the constructed system.
出处
《兰州大学学报(自然科学版)》
CAS
CSCD
北大核心
2014年第6期892-896,共5页
Journal of Lanzhou University(Natural Sciences)
基金
国家自然科学基金项目(61202311)
山西省高等学校科技创新项目(2014142)
全国教育信息技术研究十二五规划课题项目(146241697)