期刊文献+

基于CSS模板的职位信息并行抽取系统设计 被引量:1

Research on and Implementation of the Parallel Information Extraction System on Recruitment with CSS Template
下载PDF
导出
摘要 针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高。 A parallel position information extraction method based on CSS template is proposed to address the high redundancy and low efficiency due to the lack of adaptability and parallelism by existing position information extraction method. The information extraction that employs the CSS path builds the extraction template according to the structure of the job web page, thus guaranteeing the accuracy and adaptability. The parallel extraction is based on the MapReduce. The MD5 algorithm is used to compute the value of extracted information, and the values are used in the Reduce function to reduce the duplicate position information. Finally, the position information is saved in HBase, a distributed column-oriented database. Experimental results on a set of data show that the proposed approach offers better extraction efficiency and the speed than the non-parallel extraction programming model.
出处 《电子科技》 2016年第10期93-96,共4页 Electronic Science and Technology
基金 江苏省科技型企业创新基金资助项目(BC2014212) 江苏省普通高校研究生科研创新计划基金资助项目(SJLX_0470)
关键词 信息抽取 MAPREDUCE CSS模板 MD5算法 分布式数据库HBase information extraction MapReduce CSS template MD5 algorithm HBase
  • 相关文献

参考文献12

  • 1Gkotsis G, Stepanyan K, Cristea A I, et al. Self - super-vised automated wrapper generation for weblog data extrac-tion [J ]. Lecture Notes in Computer Science, 2013, 79(4):292-302.
  • 2安增文,王超,徐杰锋.基于机器学习的网页正文提取方法[J].微型机与应用,2010,29(12):4-6. 被引量:7
  • 3祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量:12
  • 4Giuseppe Della Penna,Daniele Magazzeni, Sergio Orefice.Visual extraction of information from web pages original re-search article [ J]. Journal of Visual Languages & Compu-ting, 2010(21) :23 -32.
  • 5安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量:13
  • 6Xu Hongzhen,Li Lihua. A Web information extraction meth-od based on DOM tree structure and information entropy[ J].WIT Transactions on Information and Communication Tech-nologies, 2014(55) :477 -484.
  • 7常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量:15
  • 8罗刚.自己动手写网络爬虫[M].北京:清华大学出版社,2013.
  • 9White T. Hadoop: The Definitive Guide [ J ]. 0 ’ reillyMedia Inc Gravenstein Highway North,2010,215 ( 11 ) : 1 -4.
  • 10Andrew Taggart. Hadoop mapreduce[ EB/OL]. (2011 - 07-14) [ 2015 -10-14] http://wiki. apache, org/hadoop/HadoopMapRduce.

二级参考文献30

共引文献43

同被引文献13

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部