-
题名基于Hadoop平台的海量文本分类的并行化
被引量:35
- 1
-
-
作者
向小军
高阳
商琳
杨育彬
-
机构
南京大学计算机科学与技术系
-
出处
《计算机科学》
CSCD
北大核心
2011年第10期184-188,共5页
-
基金
国家自然科学基金项目(61035003
60875011)
+1 种基金
科技部国际科技合作计划项目(2010DFA11030)
江苏省自然科学基金项目(BK2010054)资助
-
文摘
文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。
-
关键词
文本分类
并行化
海量数据
HADOOP
-
Keywords
Text categorization
Parallelization
Massive data
Hadoop
-
分类号
N532
[自然科学总论]
-
-
题名面向服务的云数据挖掘引擎的研究
被引量:21
- 2
-
-
作者
余永红
向晓军
高阳
商琳
杨育彬
-
机构
南京大学计算机软件新技术国家重点实验室
南京邮电大学通达学院
-
出处
《计算机科学与探索》
CSCD
2012年第1期46-57,共12页
-
基金
国家自然科学基金(61035003)
科技部国际科技合作项目(2010DFA11030)
江苏省自然科学基金(SBK201150103)~~
-
文摘
数据挖掘算法处理海量数据时,扩展性受到制约。在商业和科学研究的各个领域,知识发现的过程和需求差异较大,需要有效的机制来设计和运行各种类型的分布式数据挖掘应用。提出了一种面向服务的云数据挖掘引擎的框架CloudDM。不同于基于网格的分布式数据挖掘框架,CloudDM利用开源云计算平台Hadoop处理海量数据的能力,以面向服务的形式支持分布式数据挖掘应用的设计和运行,并描述面向服务的云数据挖掘引擎系统的关键部件和实现技术。依据面向服务的软件体系结构和基于云平台的数据挖掘引擎,可以有效解决海量数据挖掘中的海量数据存储、数据处理和数据挖掘算法互操作性等问题。
-
关键词
云计算
HADOOP
数据挖掘
面向服务的体系结构(SOA)
-
Keywords
cloud computing
Hadoop
data mining
service-oriented architecture (SOA)
-
分类号
N532
[自然科学总论]
-
-
题名并行化的情感分类算法的研究
被引量:4
- 3
-
-
作者
余永红
向小军
商琳
-
机构
南京邮电大学通达学院南京
南京大学计算机科学与技术系南京
-
出处
《计算机科学》
CSCD
北大核心
2013年第6期206-210,共5页
-
基金
国家自然科学基金项目(61035003)
科技部国际科技合作计划项目(2010DFA11030)
江苏省自然科学基金项目(BK2010054)资助
-
文摘
在海量数据集上执行情感分类任务时,传统的单机情感分类算法的扩展性成为系统的瓶颈。在云计算平台Hadoop上,实现了情感分类任务中特征提取、特征向量加权和情感分类等算法的MapReduce化。在情感语料数据集上,对各种子步骤组合下情感分类算法的精度及每种算法的时间开销进行了对比分析。实验结果验证了实现的并行化情感分类算法的有效性,同时它为用户选择合适算法实现情感分类任务提供了有价值的参考信息。
-
关键词
情感分类
HADOOP
云计算
MAPREDUCE
-
Keywords
Sentiment classification, Hadoop, Cloud computing, MapReduce
-
分类号
N532
[自然科学总论]
-
-
题名面向服务的云数据挖掘技术研究
- 4
-
-
作者
杨青
孟娟
-
机构
驻马店职业技术学院
-
出处
《辽宁广播电视大学学报》
2016年第2期34-35,共2页
-
文摘
云计算平台下网络数据的海量发展,迫切需要数据挖掘技术满足用户需求。而面向服务的云数据挖掘技术不同于一般网格的分布式数据挖掘框架,需要利用有效机制完成对分布式数据挖掘应用的设计和运行,并从关键技术、关键部件描述中有效解决海量数据挖掘中的海量数据存储、挖掘算法、数据处理的互操作性等问题。
-
关键词
云计算
数据挖掘
面向服务体系结构
分布式数据挖掘
-
分类号
N532
[自然科学总论]
-