基于深度学习的简历信息实体抽取方法被引量：7

Entity extraction method of resume information based on deep learning

下载PDF

导出

摘要针对传统的简历信息实体抽取方法泛化能力差、难以维护的问题,提出一种基于深层神经网络的简历信息实体抽取方法。经过数据清洗、分词等预处理将非结构化的简历文本信息处理为词序列,通过由Word2Vec在大规模语料库以无监督方式训练得到的词向量表,将每个词映射为低维实数向量,由双向LSTM层融合待标注词所处的语境信息,输出所有可能标签序列的分值给CRF层,由其引入前后标签之间的约束求解最优标签序列,以随机梯度下降法训练该模型,辅以Dropout防止过拟合。实验结果表明,该方法提升了相应的解析标注性能,提高了泛化能力。 The traditional information entity extraction methods of the resume(ERIE)are hard to be maintained because of poor generalization ability.To tackle above problems,an ERIE method based on deep neural network was proposed.After data clea-ning and word segmentation,the unstructured resume text information was represented as a word sequence.Each word was mapped into a low-dimensional real vector,which was trained by using an unsupervised method Word2Vec based on a large-scale corpus.The bidirectional LSTM layer was used to fuse the contextual information of the words to be marked,and the values of all possible tag sequences were exported to the CRF layer.The constraint between the front and rear tags was introduced to solve the optimal tag sequence.The model was trained using the stochastic gradient descent method,and the dropout was used to prevent overfitting.Experimental results show that the proposed method produces better parsing performance and improves the generalization ability.

作者黄胜李伟张剑 HUANG Sheng;LI Wei;ZHANG Jian(Key Laboratory of Optical Communication and Networks, Chongqing University of Posts and Telecommunications,Chongqing 400065, China;Peking University Shenzhen Institute, Shenzhen 518057, China)

机构地区重庆邮电大学光通信与网络重点实验室北京大学深圳研究院

出处《计算机工程与设计》北大核心 2018年第12期3873-3878,共6页 Computer Engineering and Design

基金国家自然科学基金项目(61371096) 深圳市科技计划基金项目(JCYJ20170307151743672)

关键词简历抽取信息实体序列标注长短期记忆条件随机场 resume extraction information entity sequence labeling long short term memory conditional random fields

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献78

1张秋颖,傅洛伊,王新兵.基于BERT-BiLSTM-CRF的学者主页信息抽取[J].计算机应用研究,2020,37(S01):47-49. 被引量：14
2黄紫菲.内容分析与知识发现的比较研究[J].情报理论与实践,2006,29(5):524-527. 被引量：8
3冯新民,王建冬.知识挖掘的概念困境与广义知识挖掘[J].情报杂志,2008,27(7):63-65. 被引量：18
4魏宇,黄登仕,王建琼,朱宏泉,余江,赖晓东.我国黄金现货市场的动态VaR预测模型研究[J].管理评论,2010,22(8):30-38. 被引量：12
5邱均平,周倩雯.数据挖掘与知识挖掘的比较研究[J].情报科学,2010,28(12):1862-1865. 被引量：10
6张宏,张丽.基于Web嵌入式的矿井远程监测系统的设计[J].煤炭技术,2011,30(10):98-100. 被引量：8
7席庆祥,雷志鹏.综采面刮板输送机状态监测及故障诊断系统设计[J].煤炭科学技术,2011,39(10):72-76. 被引量：31
8洪海燕.基于贝叶斯分类器的简历筛选模型[J].计算机技术与发展,2012,22(7):85-87. 被引量：6
9李劲,张华,辜希武.面向个人简历的事件抽取和检索框架[J].计算机科学,2012,39(7):154-160. 被引量：4
10李瑗,孙超.物联网中嵌入式控制器技术在煤炭产量远程监测系统中的应用[J].煤炭技术,2013,32(4):203-205. 被引量：3

引证文献7

1陈之翼,王聪,李敏.MOOC环境下领域知识点的多重滤波提取[J].计算机工程与设计,2020,41(12):3425-3431.
2刘浏,伊凡,王东波,汪磊,程书文,叶文豪.iSchools培养计划知识挖掘下的情报学教育及人才培养[J].情报理论与实践,2021,44(2):26-32. 被引量：7
3郭炜杰,包晓安.知识数据库中非结构化文本关键信息抽取模型[J].计算机仿真,2021,38(9):357-360. 被引量：4
4杨永秀,白宇,蔡东风,何佳蔚.面向科技人物简历的信息抽取方法[J].计算机工程与设计,2021,42(11):3099-3106. 被引量：1
5赵国瑞.智慧煤矿信息实体构建方法与综采输送设备监测系统设计[J].煤炭工程,2021,53(12):23-27. 被引量：5
6李小伟,舒辉,光焱,翟懿,杨资集.自然语言处理在简历分析中的应用研究综述[J].计算机科学,2022,49(S01):66-73. 被引量：6
7闵超,詹炜,张豫麒,吕建华,洪胜兵,董天豫,佘金惠,黄华姿.基于匈牙利算法和LSTM网络的储粮害虫轨迹跟踪及行为研究[J].中国粮油学报,2023,38(3):28-34. 被引量：2

二级引证文献25

1邓三鸿.数薮之研问渠之究——评《情报学教育和人才培养研究》[J].图书情报工作,2021,65(21):14-16.
2侯瑞丽.基于EMMD-RVM的煤矿采矿机械设备异常检测系统[J].能源与环保,2022,44(5):149-155. 被引量：3
3陈明红,何玲玲,李瑶瑶.基于实习招聘信息的信管专业人才岗位需求分析[J].情报探索,2022(8):47-54. 被引量：3
4周翔,刘杨.基于Bi-LSTM+CRF模型和多规则集成的证件信息识别[J].科技资讯,2022,20(17):11-13. 被引量：1
5付念.基于LSTM的自然语言处理校园新闻数据分析[J].电子技术与软件工程,2022(16):204-207.
6李政.基于物联网技术的煤矿用电安全智能监测研究[J].中国煤炭,2022,48(S01):56-61. 被引量：3
7周明丽.基于大数据分析的矿区施工安全监控系统[J].能源与环保,2023,45(1):129-133.
8曹捷,阙小生,李慎兴,范永学,李兴,宋文志.基于知识图谱技术的配电站房智能运检[J].吉林大学学报（信息科学版）,2023,41(3):474-483. 被引量：2
9陆苗.人工智能的自动语言处理系统在社交网络分析中的应用研究[J].互联网周刊,2023(15):43-45.
10施爱平,钱震威,李英豪,冯亮.基于GA-LSTM的酿酒葡萄霜霉病预测方法研究[J].中国农机化学报,2023,44(10):144-151.

1尹萍,李清宇.电离层E/F层闪烁对GPS TEC变化率的影响[J].中国民航大学学报,2018,36(5):12-18. 被引量：1
2宋毅,王家驷,孙良丽.无监督学习在临床实验室自动审核规则制定中的实践价值[J].国际检验医学杂志,2018,39(23):2941-2945. 被引量：5
3叶静,赵南希.基于核心构件的物流信息交换标准化研究与实例分析[J].中国标准化,2018(21):74-79. 被引量：1
4孙杰,吾守尔.斯拉木,热依曼.吐尔逊.基于CMN网络的低资源柯尔克孜语识别研究[J].现代电子技术,2018,41(24):132-136. 被引量：3
5郝烨,唐桥红,李佳戈,王浩,孟祥峰,任海萍.数据清洗技术在DICOM格式医学图像质控中的应用[J].中国医疗设备,2018,33(12):10-13. 被引量：7
6贾凯,段新涛,李宝霞,郭玳豆.基于双通道卷积神经网络的图像超分辨率增强算法[J].计算机应用,2018,38(12):3563-3569. 被引量：2
7Rafael G.Reyes-Morales,Alicia Sylvia Gijón-Cruz,Juan Luis Bautista-Martínez,Nadia Esteva-Duran.Impact of the Food Subsidy on the Academic Performance of Low-Income Primary Education Students in Mexico[J].Chinese Business Review,2018,17(8):411-420.
8弭博雯,田莹,王诗宁.基于优化卷积神经网络的人耳识别[J].辽宁科技大学学报,2018,41(4):299-307. 被引量：2
9石径,陈锋,方廷钰.中医国际学术会议译前准备的方式与作用[J].中国中医药现代远程教育,2018,16(24):38-41. 被引量：2
10刘天源,谢永慧,夏心磊,孙磊,刘铸锋,李杨,有志伟,李江.基于长短期记忆网络的阀门升程-功率预测[J].热力透平,2018,47(4):241-246. 被引量：3

计算机工程与设计

2018年第12期

浏览历史

内容加载中请稍等...

基于深度学习的简历信息实体抽取方法被引量：7

同被引文献78

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于深度学习的简历信息实体抽取方法 被引量：7

同被引文献78

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于深度学习的简历信息实体抽取方法被引量：7