-
题名Yarn架构下基于GA的Web日志挖掘技术
被引量:2
- 1
-
-
作者
李静梅
张宝权
丁楠
-
机构
哈尔滨工程大学计算机科学与技术学院
清华大学计算机系
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第11期3388-3391,共4页
-
基金
国家自然科学基金资助项目(61003036)
黑龙江省自然科学基金资助项目(F201124)
黑龙江省教育厅科学技术研究基金资助项目(12513048)
-
文摘
提出了一种面向TB级别日志文件挖掘需求的日志挖掘技术。采用MapReduce编程模型设计并实现了一种基于子种群联姻策略的GA,并部署到Yarn架构上,使Yarn架构与GA有效结合。在算法Partition阶段,采用Round-Robin策略代替原有的哈希方法,使各个子种群基因更加趋向均匀分布,增加了子种群收敛效率和结果准确性,同时均衡各个节点运行负载,提高了系统性能。经测试,应用该技术的挖掘结果平均准确度达到93%以上,效率提升接近33%。
-
关键词
yarn架构
日志挖掘
遗传算法
并行计算
-
Keywords
yarn
log mining
genetic algorithm(GA)
parallel computing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-