面向排序学习的层次聚类特征选择算法被引量：3

A hierarchical clustering based feature selection algorithm for ranking learning

下载PDF

导出

摘要大型搜索系统对用户查询的快速响应尤为必要,同时在计算候选文档的特征相关性时,必须遵守严格的后端延迟约束。通过特征选择,提高了机器学习的效率。针对排序学习中快速特征选择的起点多为单一排序效果最好的特征的特点,首先提出了一种用层次聚类法生成特征选择起点的算法,并将该算法应用于已有的2种快速特征选择中。除此之外,还提出了一种充分利用聚类特征的新方法来处理特征选择。在2个标准数据集上的实验表明,该算法既可以在不影响精度的情况下获得较小的特征子集,也可以在中等子集上获得最佳的排序精度。 Large search systems are especially necessary for quick response to user queries.At the same time,strict backend delay constraints must be observed when calculating the feature relevance of candidate documents.Feature selection can improve the machine learning efficiency.Considering the characteristics that most of the initial points of fast feature selection in ranking learning start from the single feature,which has the best ranking effect,this paper first proposes an algorithm of generating initial points of fast feature selection by hierarchical clustering,and applies the algorithm to two existing fast feature selection algorithms.In addition,a new method that makes full use of clustering features is proposed to deal with feature selection.Experiments on two standard datasets show that the proposed algorithm can obtain a smaller feature subset without affecting the accuracy and obtain the best ranking accuracy on a medium subset.

作者孟昱煜陈绍立刘兴长 MENG Yu-yu;CHEN Shao-li;LIU Xing-chang(School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)

机构地区兰州交通大学电子与信息学院

出处《计算机工程与科学》 CSCD 北大核心 2019年第12期2211-2216,共6页 Computer Engineering & Science

基金甘肃省自然科学基金（1606RJZA003）甘肃省住房和城乡建设厅项目（JK2015-15）

关键词特征选择排序学习层次化聚类贪婪搜索 feature selection ranking learning hierarchical clustering greedy search algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1姚明海,赵连朋,刘维学.基于特征选择的Bagging分类算法研究[J].计算机技术与发展,2014,24(4):103-106. 被引量：8
2仇利克,郭忠文,刘青,刘颖健,仇志金.基于冗余分析的特征选择算法[J].北京邮电大学学报,2017,40(1):36-41. 被引量：12
3花贵春,张敏,邝达,刘奕群,马少平,茹立云.面向排序学习的特征分析的研究[J].计算机工程与应用,2011,47(17):122-127. 被引量：7

二级参考文献21

1Dub K,Kirchhoff K.Learning to rank with partially-labeled data[C] //SIGIR 2008,2008:251-258.
2Robertson S E.Overview of the okapi projects[J].Journal of Documentation,1997,53(1):3-7.
3Crammer K,Singer Y.Pranking with ranking[C] //NIPS 2002,2002.
4Herbrich R,Graepel T,Obermayer K.Large margin rank boundaries for ordinal regression[C] //Advances in Large Margin Classifiers,2000:115-132.
5Joachims T.Optimizing search engines using clickthrough data[C] //KDD 2002,2002:133-142.
6Cao Z,Qin T,Liu T,et al.Learning to rank:from pairwise approach to listwise approach[C] //ICML 2007,2007,227:129-136.
7Zhang M,Kuang D,Hua G C,et al.Is learning to rank effective for Web search[C] //SIGIR 2009 Workshop:Learning to Rank for Information Retrieval,2009.
8Liu T.Learning to rank for information retrieval[J].Foundation and Trends on Information Retrieval.[S.l.] :Now Publishers,2009,3(3):225-331.
9Jolliffe I T.Principal component analysis[M] //2nd ed.Series:Springer Series in Statistics.NY:Springer,2002.
10Blum A,Langley P.Selection of relevant features and examples in machine learning[J].Artificial Intelligence,1997,97:245-271.

共引文献24

1洪昀.核能发电已接近巅峰[J].国外科技动态,2000(1):40-41.
2余烨,张东站.基于文档相关性等级区分优化的网页排序方法[J].现代计算机,2013,19(7):13-16.
3蒋宗礼,张婷.基于用户行为分析的本地搜索排序算法优化[J].计算机技术与发展,2014,24(2):15-18. 被引量：3
4黄文聪,荆晓远,姚永芳,吴飞.基于集成学习的软件缺陷检测[J].计算机技术与发展,2015,25(10):63-66. 被引量：2
5金众威,刘淑芬,包铁.基于LambdaMART的个性化搜索检索模型[J].吉林大学学报（理学版）,2016,54(4):821-826. 被引量：2
6孟小燕.基于属性权重的Bagging回归算法研究[J].现代电子技术,2017,40(1):95-98. 被引量：5
7赵龙文,莫荔媛,黄跃萍.基于结构和属性特征的政府开放数据检索方法研究[J].情报杂志,2017,36(5):148-152. 被引量：12
8袁培森,任吴北,任守纲,朱淑鑫,徐焕良.面向食品安全领域的个性化知识搜索系统研究[J].华东师范大学学报（自然科学版）,2017(5):117-124. 被引量：1
9朱振国,赵凯旋,刘民康.基于强化学习的特征选择算法[J].计算机系统应用,2018,27(10):214-218. 被引量：3
10张麾军.一种物联网入侵检测算法[J].信息技术,2018,42(12):103-107.

同被引文献25

1王鹏宇,王国宇,贾贞,曹晓晓,王泉斌,苏天赟.一种基于局部特征的层次聚类算法[J].中国海洋大学学报（自然科学版）,2019,49(S02):176-184. 被引量：6
2吴强.一般信息系统的PoClustering与概念格[J].绍兴文理学院学报,2008,28(9):12-18. 被引量：1
3袁帅,杨宏晖,申昇.基于互信息的顺序向前特征选择算法[J].声学技术,2014,33(4):359-362. 被引量：5
4张立仿,张喜平.量子遗传算法优化BP神经网络的网络流量预测[J].计算机工程与科学,2016,38(1):114-119. 被引量：40
5冯超,景小宁,何贵波.基于改进SPEA2算法的火力分配问题[J].计算机工程与应用,2016,52(13):248-253. 被引量：4
6曹继军,肖立权,王克非,庞征斌,陈琳.超级计算系统互连网络带内管理的实现与评测[J].计算机学报,2016,39(9):1717-1732. 被引量：8
7岳立柱,张志杰,闫艳.蕴含权重的偏序集多准则决策法[J].运筹与管理,2018,27(2):26-31. 被引量：48
8李春忠,郑玉棒,汪婷.粗略不相似度量及其在层次聚类中的应用[J].工程数学学报,2017,34(4):354-366. 被引量：1
9郭立媛,张磊,李威,韩旭.基于先验知识MinMax k-Means聚类算法的道路裂缝研究[J].中国测试,2018,44(4):112-117. 被引量：7
10杨海彤.基于层次化聚类的稀疏谓词语义角色标注方法[J].计算机工程与设计,2018,39(11):3384-3388. 被引量：1

引证文献3

1朱旭光,沈玉志.采用偏序集层次聚类的多准则决策方法[J].辽宁工程技术大学学报（自然科学版）,2022,41(1):85-91.
2王松波.考虑帕累托最优解的多目标优化进化算法[J].数学的实践与认识,2022,52(9):132-146. 被引量：1
3周志强,杨雪青.基于矢量量化IFTS的网络流量预测模型[J].计算机应用与软件,2024,41(1):71-77.

二级引证文献1

1公茂果,罗天实,李豪,何亚静.面向演化计算的群智协同研究综述[J].电子与信息学报,2024,46(5):1716-1741.

1陈瑞敏,马晓君,刘艳.辽宁省区域旅游业发展及其驱动因素分析[J].东北财经大学学报,2019,0(6):88-95. 被引量：3
2卢虹竹.基于深度学习算法的人脸识别管理系统[J].信息技术,2019,43(12):121-124. 被引量：9
3李金霞,赵志刚,李强,吕慧显,李明生.一种基于局部和相似性嵌入的特征选择算法[J].青岛大学学报（自然科学版）,2019,32(4):30-35.
4廖宝雄,刘观华.鄱阳湖越冬白鹤空间分布格局[J].科研信息化技术与应用,2019,10(1):74-78. 被引量：2
5樊鑫,陈红梅.基于差别矩阵和mRMR的分步优化特征选择算法[J].计算机科学,2020,47(1):87-95. 被引量：5
6张璘,杨丰墒.基于深度学习的图像分类搜索系统[J].电子技术应用,2019,45(12):51-55. 被引量：8
7纪伊琳,党三磊,黄博伟,姚智聪.关于智能学习型检定系统的分析与研究[J].电力系统装备,2019,0(16):216-218.
8王诚聪,刘亚静,刘明月.全球恐怖袭击事件时空演变与态势分析[J].地球信息科学学报,2019,21(11):1710-1720. 被引量：6
9张倩茹,李光耀,曲靖雯,廖清清,胡元佳,郑传痴,张婉婷.补血中药研究热点与发展前沿的知识图谱分析[J].世界科学技术-中医药现代化,2019,21(7):1437-1443. 被引量：7
10付荣荣,田永胜,鲍甜恬.基于稀疏共空间模式和Fisher判别的单次运动想象脑电信号识别方法[J].生物医学工程学杂志,2019,36(6):911-915. 被引量：8

计算机工程与科学

2019年第12期

浏览历史

内容加载中请稍等...

面向排序学习的层次聚类特征选择算法被引量：3

参考文献3

二级参考文献21

共引文献24

同被引文献25

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向排序学习的层次聚类特征选择算法 被引量：3

参考文献3

二级参考文献21

共引文献24

同被引文献25

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向排序学习的层次聚类特征选择算法被引量：3