-
题名基于Hadoop的业务过程模型管理方法研究
- 1
-
-
作者
卢厅
刘建勋
文一凭
周栋
石敏
陈聪阳
-
机构
湖南科技大学计算机科学与工程学院知识处理与网络化制造湖南省普通高校重点实验室
-
出处
《计算技术与自动化》
2015年第4期115-121,共7页
-
基金
国家自然科学基金项目(61402167
61402168
+3 种基金
61272063
61300129)
湖南省科学计划项目(2014GK3004)
湖南科技大学研究生创新基金项目(S130023)
-
文摘
目前现有业务过程模型研究的共同特点便是基于单机环境来构建业务过程库,并基于传统关系数据库来管理业务过程模型,完成相关的检索、存储等操作。为提高大规模业务过程模型检索与存储的效率,本文提出一种新的业务过程模型管理方法。该方法采用基于Hadoop大数据处理平台对业务过程模型进行管理,并采用Map/Reduce编程框架和HDFS文件系统分别对业务过程模型进行检索和存储,提高了业务过程模型存储效率,减少了模型检索匹配的时间。通过原型系统进行试验验证评估,证明了所提方法在存储和检索效率方面高于单机环境。
-
关键词
业务过程模型管理
HADOOP
检索
存储
效率
-
Keywords
business process model management
Hadoop
retrieval
storage
efficiency.
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于协程模型的分布式爬虫框架
被引量:5
- 2
-
-
作者
杨济运
刘建勋
姜磊
彭桃
文一凭
卢厅
-
机构
湖南科技大学计算机科学与工程学院知识处理与网络化制造湖南省普通高校重点实验室
-
出处
《计算技术与自动化》
2014年第3期126-133,共8页
-
基金
国家自然科学基金项目(61272063
61100054)
+4 种基金
教育部新世纪优秀人才支持计划项目(NCET-10-0140)
教育部人文社科基金项目(12YJCZH084)
湖南省教育厅资助项目(12C0119)
湖南省科技计划项目(2013FJ3002)
湖南科技大学资助项目(E51368)
-
文摘
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。
-
关键词
协程
分布式
高性能
爬虫
-
Keywords
coroutine
distribution
high-performance
web crawler
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-