-
题名YARN平台上的并行主题标引算法
被引量:2
- 1
-
-
作者
李瑞轩
廖东杰
辜希武
文坤梅
赵铄乂
董新华
-
机构
华中科技大学计算机科学与技术学院
-
出处
《计算机科学与探索》
CSCD
2014年第12期1409-1421,共13页
-
基金
国家自然科学基金
国家高技术研究发展计划(863计划)
华中科技大学自主创新基金~~
-
文摘
文档主题标引是当前个性化智能检索的重要前提,但面对大规模海量数据资源时,主题标引也成为性能瓶颈。当前在Map Reduce框架上设计实现的主题标引算法,通常存在启动任务耗时长,中间数据过多地进行磁盘IO等缺陷。为了解决此类问题,采用YARN(yet another resource negotiator)作为底层分布式资源管理平台,选择更加合适的计算框架来改善计算性能。针对文档主题标引算法计算步骤多、阶段性强的特点,选择有向无环图(directed acyclic graph,DAG)计算模型进行算法实现,避免不必要的作业拆分,从而减少中间结果的磁盘IO。另外,考虑到Map Reduce的排序策略耗时较多,而有些计算无需对结果排序,故可以改用基于Hash的数据归约策略来提高计算性能,但这又会带来随机读的问题。利用固态硬盘高速随机读的特性,设计相应的优化计算策略来解决随机读的问题。通过实验对比发现,以YARN为底层管理平台,在此基础上选择合适的计算框架并加以优化,可以有效改善分布式计算的性能。
-
关键词
主题标引
YARN平台
有向无环图计算框架
固态硬盘
-
Keywords
subject indexing
YARN platform
directed acyclic graph (DAG) computation
solid state disk
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-