期刊文献+

基于Flume的XML数据自动收集系统 被引量:2

Automatic XML Data Collection System Based on Flume
下载PDF
导出
摘要 针对分布式系统中的数据收集,提出了一种基于Flume的XML数据自动收集系统。根据实际需求,系统设计了一种新型的多层星状拓扑结构,以满足数据收集实时性的要求。该系统能够自动检测指定存储位置的XML数据更新,解析XML文本后存储到HBase数据库中。在测试中,该系统中各机器的平均处理速度能够达到550 Kb/s,系统总处理平均速度能够达到1 650 Kb/s。 For data collection in distributed system,a XML data automatic collecting system based on Flume is put forward.According to actual demands on real-time,a new multilayer star topology structure is designed in the system.The data collection system can detect automatically updates of XML data in specific locations,deserialize XML and store in database of HBase.In experiment,average process speed of any computer of the system can reach 550 Kb/s,and total average process speed can reach 1 650 Kb/s.
作者 张晓龙
出处 《科学技术与工程》 北大核心 2013年第30期9061-9065,共5页 Science Technology and Engineering
关键词 FLUME XML 数据收集 HBASE Flume XML data collection HBase
  • 相关文献

参考文献9

  • 1Ian Foster Y, Zhao I, Raicu S L. Cloud computing and grid compu- ting 360-degree compared. IEEE Grid Computing Environments Workshop, 2008 : 1-10.
  • 2Apache Hadoop. http://hadoop, apache, org/. 2013.
  • 3Apache Flume. http ://flume. apache, org/. 2013.
  • 4W3C XML. http://www, w3. org/XMlM. 2013.
  • 5陈玉芳,葛燧和.一个基于XML的WEB数据收集模型的研究[J].计算机工程与应用,2004,40(10):150-152. 被引量:18
  • 6Apache HBase. http://hbase, apache, org/. 2013.
  • 7Fox A, Gribble S D, Chawathe Y, et al. Cluster-based scalable net- work services. ACM Press, 1997:78-91.
  • 8Groth D, Skandier T. Network + Study Guide, Fourth Edition. Sybex, Inc, 2005.
  • 9George L. HBase: The Definitive Guide. OReilly Media, 2011.

二级参考文献11

  • 1Jussi Myllymak.Effective Web Data Extraction with standard XML Technologies.http://www.research.ibm.com/people/j/jussi/papers/ANDES/ANDES.pdf.
  • 2Raymond Kosala,Heodrid Blocked.Web Mining Research :A Survey.ACM SIGKDD,2000-07.
  • 3Oualnid H,Karmouch A.Converting Web pages into well-formed XML documents.Communications,1999,ICC'99,1999 IEEE International Conference on,1999; 1:676~680.
  • 4W3C.Extensible Markup Language(XML).http://www.w3.org/xml/156 2004.10计算机工程与应用.
  • 5W3C.Resource Description Framework(RDF) Schema Specification 1.0.http://www.w3.org/TR/2000/CR-rdf-schema20000327,2000-03-27.
  • 6Stefan Haustein.Utilisting an Ontology Based Repository to Connect Web Miners and Application Agents.http://www-ai.cs.uni-dortmund.de.
  • 7DaveMercer著 袁鹏飞译.XML编程起步[M].人民邮电出版社,2001..
  • 8王继成,邹涛,杨小江,潘金贵,张福炎.基于Internet的信息资源发现技术与实现[J].计算机研究与发展,1999,36(11):1369-1374. 被引量:35
  • 9张志强,李建中,周立柱.传统事务模型的并行性[J].计算机科学,2001,28(9):1-4. 被引量:1
  • 10宋爱波,董逸生,吴文明,孙志挥.Web挖掘研究综述[J].计算机科学,2001,28(11):13-16. 被引量:31

共引文献17

同被引文献2

引证文献2

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部