基于CSS模板的职位信息并行抽取系统设计被引量：1

Research on and Implementation of the Parallel Information Extraction System on Recruitment with CSS Template

下载PDF

导出

摘要针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高。 A parallel position information extraction method based on CSS template is proposed to address the high redundancy and low efficiency due to the lack of adaptability and parallelism by existing position information extraction method. The information extraction that employs the CSS path builds the extraction template according to the structure of the job web page, thus guaranteeing the accuracy and adaptability. The parallel extraction is based on the MapReduce. The MD5 algorithm is used to compute the value of extracted information, and the values are used in the Reduce function to reduce the duplicate position information. Finally, the position information is saved in HBase, a distributed column-oriented database. Experimental results on a set of data show that the proposed approach offers better extraction efficiency and the speed than the non-parallel extraction programming model.

作者薛安荣王丹黄祖卫

机构地区江苏大学计算机科学与通信工程学院

出处《电子科技》 2016年第10期93-96,共4页 Electronic Science and Technology

基金江苏省科技型企业创新基金资助项目(BC2014212) 江苏省普通高校研究生科研创新计划基金资助项目(SJLX_0470)

关键词信息抽取 MAPREDUCE CSS模板 MD5算法分布式数据库HBase information extraction MapReduce CSS template MD5 algorithm HBase

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Gkotsis G, Stepanyan K, Cristea A I, et al. Self - super-vised automated wrapper generation for weblog data extrac-tion [J ]. Lecture Notes in Computer Science, 2013, 79(4):292-302.
2安增文,王超,徐杰锋.基于机器学习的网页正文提取方法[J].微型机与应用,2010,29(12):4-6. 被引量：7
3祝伟华,卢熠,刘斌斌.基于HMM的Web信息抽取算法的研究与应用[J].计算机科学,2010,37(2):203-206. 被引量：12
4Giuseppe Della Penna,Daniele Magazzeni, Sergio Orefice.Visual extraction of information from web pages original re-search article [ J]. Journal of Visual Languages & Compu-ting, 2010(21) :23 -32.
5安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
6Xu Hongzhen,Li Lihua. A Web information extraction meth-od based on DOM tree structure and information entropy[ J].WIT Transactions on Information and Communication Tech-nologies, 2014(55) :477 -484.
7常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
8罗刚.自己动手写网络爬虫[M].北京:清华大学出版社,2013.
9White T. Hadoop: The Definitive Guide [ J ]. 0 ’ reillyMedia Inc Gravenstein Highway North,2010,215 ( 11 ) : 1 -4.
10Andrew Taggart. Hadoop mapreduce[ EB/OL]. (2011 - 07-14) [ 2015 -10-14] http://wiki. apache, org/hadoop/HadoopMapRduce.

二级参考文献30

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
3黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
4林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6钱云涛,谢维信.一种由模糊逻辑神经元网络实现的聚类分析方法[J].西安电子科技大学学报,1995,22(1):1-7. 被引量：12
7钟敏娟,郝谦,刘云中.基于多模板隐马尔可夫模型的文本信息抽取算法[J].计算机工程,2006,32(2):203-205. 被引量：9
8傅骞,温晓辉.开放式Web信息抽取系统研究与实现[J].北京师范大学学报（自然科学版）,2005,41(6):594-598. 被引量：3
9吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
10王雷,陈治平,李志成.基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J].山东大学学报（理学版）,2006,41(3):25-28. 被引量：4

共引文献43

1范纯龙,夏佳,肖昕,吕红伟,徐蕾.基于功能语义单元的博客评论抽取技术[J].计算机应用,2011,31(9):2417-2420. 被引量：3
2朱梦麟,李光耀,周毅敏.基于树比较的Web页面主题信息抽取[J].微型机与应用,2011,30(19):67-69.
3李荣,胡志军,郑家恒.基于遗传算法和隐马尔可夫模型的Web信息抽取的改进[J].计算机科学,2012,39(3):196-199. 被引量：8
4陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
5胡晟.基于网络爬虫的Web挖掘应用[J].软件,2012,33(7):145-147. 被引量：8
6邹丽娜,凌捷.一种基于特征提取的二级文本分类方法[J].广东工业大学学报,2012,29(4):65-68. 被引量：1
7申晨,周辉.基于区域分块的微内容类网页正文提取技术[J].海南大学学报（自然科学版）,2013,31(1):31-36. 被引量：2
8胡晟,季志远,程晓荣.基于数据挖掘的主题种子站点提取器的研究[J].软件,2013,34(2):56-57. 被引量：6
9肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
10朱毅华,张超群,曾通,吴龙凤,徐玛丽,王东波,李晓晖.基于子树相似度计算的网页评论提取算法研究[J].现代图书情报技术,2013(11):52-59. 被引量：5

同被引文献13

1蔡维,袁翔,刘澜涛.基于IEC61850的电能质量数据集成系统设计[J].电网与清洁能源,2016,32(6):101-107. 被引量：5
2邢庭炜.RS232串口通信在PC机与单片机通信中的应用[J].信息系统工程,2016,29(8):110-111. 被引量：12
3韩榕生,刘志红.一种缺失值填充方法的研究[J].黑龙江生态工程职业学院学报,2016,29(5):30-31. 被引量：2
4强明辉,李东蔚.基于W5300在测试系统通信接口的应用研究[J].工业仪表与自动化装置,2016,0(5):49-51. 被引量：7
5刘瑛.试论电力营销业扩报装流程规范化管理措施及意义[J].山东工业技术,2016(22):161-161. 被引量：8
6高天宇,李焕良,邵立福,王鹏飞.基于单片机与ZigBee的轮式装载机载荷数据采集系统[J].仪表技术与传感器,2016(10):69-72. 被引量：2
7陈城,李瑞祥,刘婷婷,刘毅.基于nRF24L01的无线数据传输系统研究[J].电子科技,2016,29(11):22-24. 被引量：10
8李晓晗,李峰,高鹏宇,逯瑜娇,张翠霞.基于LD3320语音识别和NRF2401无线通信的家居节能照明开关[J].电子世界,2017,0(2):110-111. 被引量：7
9古忻艳.网络计算机模型下海量大数据存储系统设计[J].计算机测量与控制,2017,25(6):246-249. 被引量：7
10罗曦,张淼,杨晓虎.贵州省涉农网络信息抽取系统的研究与应用[J].中国科技成果,2017,0(13):50-54. 被引量：1

引证文献1

1刘喆成,田晓霞,尚凡,郭莹.电力企业业扩报装冗余信息抽取系统设计[J].自动化与仪器仪表,2020,0(2):174-177. 被引量：1

二级引证文献1

1梁捷,梁广明.基于FMEA分析的电力企业营销业务风险管理研究[J].青海电力,2020,39(3):25-29. 被引量：2

1韩鹏.百度空间挂马实录[J].网友世界,2009(6):61-61.
2林江毅,傅文城.基于Solr的人才职位搜索系统[J].福建电脑,2016,32(8):5-7. 被引量：1
3王茜.ETL多数据流并行抽取中监控的研究与设计[J].微计算机信息,2011,27(3):200-201.
4崔英敏,魏文国,谢桂园.ETL多数据流并行抽取系统的设计与实现[J].广东技术师范学院学报,2015,36(8):47-50. 被引量：2
5吴勇军.JSP为开发语言的个人职位信息管理系统研究[J].信息系统工程,2015,28(3):54-54.
6肖大薇,唐琳,王颖.分布式存储系统中基于MPI的并行计算编程模型[J].价值工程,2012,31(36):199-200.
7关于图片上传后找路径[J].黑客防线,2005(9):140-140.
8邓杰英.浅谈组建Intranet及其应用[J].华南金融电脑,2002(10):100-101.
9李保滨,张怀.超大规模地学数据多尺度并行抽取与远程可视化实现[J].中国科学院大学学报（中英文）,2013,30(4):516-522. 被引量：1
10姜孟晋,周雅倩,黄萱菁.基于同义实体扩展的冗余信息去重[J].中文信息学报,2012,26(1):42-50. 被引量：3

电子科技

2016年第10期

浏览历史

内容加载中请稍等...

基于CSS模板的职位信息并行抽取系统设计被引量：1

参考文献12

二级参考文献30

共引文献43

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于CSS模板的职位信息并行抽取系统设计 被引量：1

参考文献12

二级参考文献30

共引文献43

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于CSS模板的职位信息并行抽取系统设计被引量：1