基于潜在语义索引的职位描述聚类研究被引量：1

A Study of Job Description Clustering Based on Latent Semantics Index

下载PDF

导出

摘要本研究鉴于某公司职位描述存在的特点以及其所带来的问题,对其展开研究。由于职位描述中的文本字数少、数量多,特征维数较高,样本特征稀疏,不能很好的抽取出文本关键特征。针对这些问题,我们用潜在语义索引模型(LSI)对文本进行特征提取,分析潜在语文空间维度对聚类性能的影响,然后根据提取的特征进行K-means聚类,能有效降低简历匹配筛选过程中的职位类别数,提高了简历匹配的效率。 We start this research,in the view of the characteristics of the job description of a company and the problems it brings. Because the job descriptions have the characteristics of less text word,large quantity,sparse sample characteristics and high dimension,the text key characterstics cannot be extracted well. Thus,we use the latent semantic index（LSI） model for feature extraction to analyze the influence of latent semantic spatial dimensions on clustering performance,and the features of extraction are clustered with K-means algorithm,which effectively reduces the number of the job category in the process of resume screening and improve the efficiency of matching the resume.

作者黄鑫溢周维民

机构地区上海大学机电工程与自动化学院

出处《网络新媒体技术》 2017年第3期33-37,64,共6页 Network New Media Technology

关键词 IF-IDF 潜在语义索引 K-MEANS 职位描述 IF-IDF latent semantics index K-means job description

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1宗中.中文信息检索中词典机制分词算法的研究[J].计算机技术与发展,2014,24(4):118-121. 被引量：6
2马晓佳.基于潜在语义标引的文本聚类研究[J].情报探索,2010(7):3-5. 被引量：3
3傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
4许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
5He Tingting,Li Fang.Semantic Knowledge Acquisition from Blogs with Tag-Topic Model[J].China Communications,2012,9(3):38-48. 被引量：3
6陈燕红,刘风华.一种改进的潜在语义检索模型研究[J].计算机技术与发展,2014,24(9):120-124. 被引量：2

二级参考文献70

1陈苒,董占球.WWW信息搜索技术研究[J].计算机工程与应用,2001,37(14):62-64. 被引量：2
2马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
3赵顺,迟呈英.基于LSI和Rough集的文本分类研究[J].鞍山科技大学学报,2005,28(5):346-349. 被引量：2
4蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
6李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
7姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
8居斌.潜在语义标引在中文信息检索中的研究与实现[J].计算机工程,2007,33(5):193-196. 被引量：16
9Scat Deerwester,Susam T Dumais,George W Fuvnas. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Sciena, 1990,41 (6) : 391-407.
10Mirsky L. Symmetric gage functions and unitarily invariant norm[J]. Q J Math,1960,11:50-59.

共引文献35

1傅间莲,陈群秀.基于规则和统计的中文自动文摘系统[J].中文信息学报,2006,20(5):10-16. 被引量：21
2李生,赵铁军.Chinese Information Processing and Its Prospects[J].Journal of Computer Science & Technology,2006,21(5):838-846. 被引量：1
3胡珀,何婷婷.基于自适应聚类的文本潜在主题的自动发现[J].郑州大学学报（理学版）,2007,39(2):92-95. 被引量：4
4朱荷香,曲维光,卢俊之,李素建,邵艳秋.面向自动文摘的文本结构划分[J].南京大学学报（自然科学版）,2008,44(2):204-211. 被引量：2
5孔庆苹,刘宗田,廖涛.基于概念获取的多文档主题划分研究[J].计算机科学,2008,35(5):131-133. 被引量：6
6李伟通,皮德常.基于统计学习的自然语言对话系统的设计与实现[J].微计算机应用,2008,29(7):38-46.
7陈戈,段建勇,陆汝占.基于潜在语义索引和句子聚类的中文自动文摘[J].计算机仿真,2008,25(7):82-85. 被引量：5
8陈艳燕,许晓昕.模糊聚类算法EFCM及其在上下文广告关键词提取中的应用[J].计算机与现代化,2009(3):81-83. 被引量：1
9宋锐,林鸿飞.基于文档语义图的中文多文档摘要生成机制[J].中文信息学报,2009,23(3):110-115. 被引量：6
10施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218

同被引文献12

1洪海燕.基于贝叶斯分类器的简历筛选模型[J].计算机技术与发展,2012,22(7):85-87. 被引量：6
2李劲,张华,辜希武.面向个人简历的事件抽取和检索框架[J].计算机科学,2012,39(7):154-160. 被引量：4
3郭喜跃,何婷婷.信息抽取研究综述[J].计算机科学,2015,42(2):14-17. 被引量：84
4谷楠楠,冯筠,孙霞,赵妍,张蕾.中文简历自动解析及推荐算法[J].计算机工程与应用,2017,53(18):141-148. 被引量：6
5黄胜,李伟,张剑.基于深度学习的简历信息实体抽取方法[J].计算机工程与设计,2018,39(12):3873-3878. 被引量：7
6陈毅,符磊,代云霞,张剑.基于特征融合的中文简历解析方法研究[J].计算机工程与应用,2019,55(10):244-249. 被引量：3
7汪岿,刘柏嵩.文本分类研究综述[J].数据通信,2019,0(3):37-47. 被引量：21
8王爽,姜威,钟璐兵,周仁.基于离散选择模型的简历筛选研究——以山东科技大学为例[J].价值工程,2019,38(20):191-194. 被引量：2
9Ming Zhou,Nan Duan,Shujie Liu,Heung-Yeung Shum.Progress in Neural NLP:Modeling,Learning,and Reasoning[J].Engineering,2020,6(3):275-290. 被引量：11
10王煜,邓晖,李晓瑶,邓逸川.自然语言处理技术在建筑工程中的应用研究综述[J].图学学报,2020,41(4):501-511. 被引量：16

引证文献1

1李小伟,舒辉,光焱,翟懿,杨资集.自然语言处理在简历分析中的应用研究综述[J].计算机科学,2022,49(S01):66-73. 被引量：6

二级引证文献6

1付念.基于LSTM的自然语言处理校园新闻数据分析[J].电子技术与软件工程,2022(16):204-207.
2陆苗.人工智能的自动语言处理系统在社交网络分析中的应用研究[J].互联网周刊,2023(15):43-45.
3卜伟琼,陈益能,龚花.多元信息抽取技术在旅游本体构建中的应用研究[J].信息与电脑,2023,35(19):174-177.
4曹宇莲.教育经济学定量研究方法:回顾与前沿[J].教育与经济,2024,40(1):75-85.
5梁艳,王艺旋,李浩,郭嘉莉,冯涛.面向简历文本的端到端岗位推荐算法研究[J].应用科技,2024,51(3):105-113.
6刘永军,许攀,王斌文,李兴亮,关中南.基于自然语言的油田勘探大数据检索系统[J].大众科学,2024,45(1):4-8.

1王岩岩,李雪,张帆.基于市场需求的网络营销课程教学设计分析[J].教育界（高等教育）,2015,0(11):112-112.
2胡苏泰.SCSI控制LSI概要[J].电子计算机外部设备,1989(6):125-133.
3王爱民.图象处理LSI的发展动向[J].国际电子研究与发展,1993(3):1-7.
42007热点技术职位排行及点析(上)[J].程序员,2007(11):17-17.
52007热点技术职位排行及点析(下)[J].程序员,2007(12):17-17.
6宋启祥,张明玉,张锏.基于核聚类的MRI和PET医学图像分割方法[J].宿州学院学报,2005,20(1):88-90. 被引量：1
7朱燚.CSDN人才频道热点职位点析[J].程序员,2007(10).
8吕洪林.网络招聘系统设计与实现[J].信息与电脑,2016,28(14):89-90. 被引量：1
9张敬谊,张亚红,李静.基于词向量特征的文本分类模型研究[J].信息技术与标准化,2017(5):71-75. 被引量：7
10李侃,刘玉树.模糊核聚类的自适应算法[J].控制与决策,2004,19(5):595-597. 被引量：9

网络新媒体技术

2017年第3期

浏览历史

内容加载中请稍等...

基于潜在语义索引的职位描述聚类研究被引量：1

参考文献6

二级参考文献70

共引文献35

同被引文献12

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于潜在语义索引的职位描述聚类研究 被引量：1

参考文献6

二级参考文献70

共引文献35

同被引文献12

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于潜在语义索引的职位描述聚类研究被引量：1