k-均值问题的理论与算法综述被引量：9

A survey on theory and algorithms for k-means problems

导出

摘要 k-均值问题是理论计算机科学和组合优化领域的经典问题之一.相应的Lloyd算法是数据挖掘的十大经典算法之一,在各种领域被广泛研究和应用,特别是在图像处理和特征工程方面.随着数据多样性和数据量的爆炸性增长,在实际应用中遇到的k-均值聚类问题更加复杂多样,产生了各种亟需解决的具有挑战性的研究课题. k-均值问题在理论上是NP-难的.本文介绍经典k-均值问题及其变形的基于局部搜索、线性规划舍入、原始对偶、对偶拟合和Lagrange松弛等技术的有效算法.首先介绍经典k-均值问题的近似算法、加倍度量空间中的有效多项式时间近似方案及满足稳定性实例的多项式可解性,然后介绍k-均值问题的若干重要变形,包括k-中位、球面k-均值、鲁棒k-均值、带约束的k-均值和隐私保护k-均值等问题,最后列出k-均值领域中的若干公开问题. The k-means problem is one of the classical problems in theoretical computer science and combinatorial optimization. Meanwhile, the corresponding Lloyd algorithm is one of the ten classical algorithms in data mining. It has been studied in various fields and has a lot of applications, especially on image processing and feature engineering. With the explosive growth of data diversity and quantity, the k-means clustering in practical applications are more complex and diversified. A variety of challenging research topics have emerged that need to be solved urgently. The k-means problem is theoretically NP-hard. In this paper, we introduce effective algorithms based on local search, linear programming rounding, primal-dual, dual-fitting, Lagrange relaxation and other techniques for the classical k-means problem and its variants. We begin with the review of improving approximation algorithms for the classical k-means problem. Then we introduce effective polynomial-time approximation scheme in the doubling metric space and polynomial solvability of stable instances. We further survey several important variants of k-means problems including k-median, spherical k-means, robust k-means, constrained k-means,privacy preserving k-means, etc. Finally, we discuss some open problems for k-means problems.

作者张冬梅李敏徐大川张真宁 Dongmei Zhang;Min Li;Dachuan Xu;Zhenning Zhang

机构地区山东建筑大学计算机科学与技术学院山东师范大学数学与统计学院北京工业大学数学学院

出处《中国科学：数学》 CSCD 北大核心 2020年第9期1387-1404,共18页 Scientia Sinica：Mathematica

基金国家自然科学基金(批准号:11531014和11871081) 山东省高校科研计划(批准号:J17KA171) 山东省自然科学基金(批准号:ZR2019MA032) 北京市教委科技项目(批准号:KM201810005006)资助项目。

关键词 K-均值近似算法线性规划 k-means approximation algorithm linear programming

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1徐大川,许宜诚,张冬梅.κ-均值算法的初始化方法综述[J].运筹学学报,2018,22(2):31-40. 被引量：6
2徐大川,许宜诚,张冬梅.k-平均问题及其变形的算法综述[J].运筹学学报,2017,21(2):101-109. 被引量：6

共引文献9

1张文举.基于大数据处理技术的IT系统实时信息交互判异算法[J].电子技术与软件工程,2019(16):173-174.
2杨海宇,王志武,沈惠吉.基于健康数据挖掘的智能养老床系统设计研究[J].宁波大学学报（理工版）,2019,32(6):56-60. 被引量：2
3成英超,郝志峰,蔡瑞初.统计推荐模型中的异构数据源资源配置[J].计算机应用研究,2020,37(8):2400-2403.
4郑淏,薛惠锋,李养养,杨伟伟,张宇,高山.基于K-means聚类的沙尘天气快速识别技术研究[J].中国环境监测,2020,36(5):130-137. 被引量：6
5任建峰,田晓云.带有异常点的平方度量设施选址问题[J].运筹学学报,2021,25(1):114-122.
6刘文杰,张冬梅,张鹏,邹娟.带惩罚μ-相似Bregman散度k-均值问题的初始化算法[J].运筹学学报,2022,26(1):99-112.
7徐欣,高红霞,王栋,陈迎春.县域医共体建设下的我国乡镇卫生院医疗资源配置效率分析[J].医学与社会,2023,36(5):20-25. 被引量：7
8段赛男,焦瑞莉,吴成来.一种基于K-means聚类算法的沙尘天气客观识别方法[J].气候与环境研究,2024,29(2):178-192. 被引量：1
9Wen-Zhao Liu,Min Li.An Approximation Algorithm Based on Seeding Algorithm for Fuzzy k-Means Problem with Penalties[J].Journal of the Operations Research Society of China,2024,12(2):387-409.

同被引文献67

1王剑,王元庆.基于双焦成像的单眼立体视觉算法[J].机器人,2007,29(1):41-44. 被引量：15
2张小龙,赵桂芳,崔瑞清.红外焦平面阵列盲元检测与补偿算法研究[J].弹箭与制导学报,2008,28(1):200-202. 被引量：9
3隋修宝,陈钱,顾国华,陆红红.红外焦平面阵列盲元检测算法[J].光电工程,2008,35(8):107-111. 被引量：16
4张法全,路立平,沈满德,陈良益,崔光照.单目视觉目标距离测量方法研究[J].光子学报,2009,38(2):453-456. 被引量：17
5白俊奇,蒋怡亮,赵春光,赵敏燕.红外焦平面阵列探测器盲元检测算法研究[J].红外技术,2011,33(4):233-235. 被引量：16
6程祥,张忠宝,苏森,杨放春.虚拟网络映射问题研究综述[J].通信学报,2011,32(10):143-151. 被引量：37
7周双飞,刘纯平,柳恭,龚声蓉.最小加权分割路径的古籍手写汉字多步切分方法[J].小型微型计算机系统,2012,33(3):614-620. 被引量：9
8姚琴芬,顾国华.一种新的红外焦平面阵列盲元检测算法[J].红外技术,2012,34(8):441-443. 被引量：10
9谢锋云.基于小波包-隐马尔科夫模型的机床加工状态识别[J].机床与液压,2013,41(7):202-204. 被引量：7
10胡瑞波,张晓松,徐人平,胡媛,王坤茜,索昕煜.纳西族东巴象形文字字体构造研究[J].郑州轻工业学院学报（社会科学版）,2013,14(2):94-100. 被引量：3

引证文献9

1陆妍玲,韦晶闪,赵雨萌,周俊芬,李景文,姜建武.提取热点区域的时空轨迹数据聚类分析[J].数学的实践与认识,2021,51(13):129-138. 被引量：3
2陆勰,徐雷,张曼君.基于聚类的安全分级虚拟网络映射方法[J].电信科学,2021,37(9):112-117. 被引量：1
3孙宝,李宏宁,刘强,龙清,杨明.基于K-Means算法的CMOS成像器件像元响应特性分类[J].光学与光电技术,2021,19(4):62-68.
4贾威,迟书凯,葛宪威.基于单目视觉的水下目标检测与位姿估计[J].海洋技术学报,2022,41(3):43-55. 被引量：2
5谢锋云,闫少石,冯春雨,王二化,刘翊,肖乾.基于小波包分解与广义隐马尔科夫模型的机车牵引座裂纹状态识别[J].机械设计,2022,39(6):35-41.
6康厚良,杨玉婷.东巴象形文字文档图像的文本行自动分割算法研究[J].图学学报,2022,43(5):865-874.
7袁藩,徐大川,张冬梅.k-均值问题的差分隐私算法综述[J].运筹学学报,2022,26(3):1-16.
8罗晓萍,廖可非,欧阳缮,杜毅.基于聚类相参叠加的频率分集阵列雷达目标成像方法[J].桂林电子科技大学学报,2023,43(2):99-105. 被引量：2
9潘义勇,陆妍琳,王心悦,龚小林.光照条件对城市道路骑行者视觉行为的影响[J].重庆交通大学学报（自然科学版）,2023,42(12):129-136. 被引量：1

二级引证文献9

1郭鹏飞,李海霞,常海艳,白柯鑫,张煜.基于大数据的海上目标隐性关联规则挖掘方法[J].网络安全与数据治理,2023,42(S01):71-77. 被引量：1
2杨伟煌,王容霞.基于时空数据挖掘的城市路网交通状况分析[J].包装世界,2022(4):100-102.
3申玲菲,范婷威,胡谷雨,王杰,张大伟,周田华.基于蒙特卡洛仿真的水下四点单目测距研究[J].光通信研究,2023(4):60-67. 被引量：2
4颜瑞彬,尹德春,顾益军.基于并置模式的轨迹热点挖掘研究[J].数据分析与知识发现,2023,7(7):58-73.
5黄欣怡,谢宁波,廖可非,李沁璘.阵元与阵间频偏联合设计的FDA解模糊成像[J].国外电子测量技术,2023,42(11):8-14.
6祝子程,王彪,唐超颖,徐贵力.摄像机视场约束下无人机视觉着舰导引方法[J].电光与控制,2024,31(3):30-35.
7周鹏,王丽莹,李鹏飞,布锦钶,吕子悦,高艺蜚,张文理,赵青.基于频率分集阵列小埋体检测三维形貌成像方法[J].郑州航空工业管理学院学报,2024,42(2):72-78.
8张伟,罗文宇.大数据消冗技术下虚拟网络聚类特征层次布局算法[J].吉林大学学报（信息科学版）,2024,42(2):301-306.
9白玉,冷帅.基于眼动数据分析交通环境要素对驾驶员视觉负荷的影响[J].交通工程,2024,24(5):120-128.

1黄晴晴,周风余,刘美珍.基于视频的人体动作识别算法综述[J].计算机应用研究,2020,37(11):3213-3219. 被引量：17
2钟珂珂,吴晓东,金永乔,王奇斌,付洋,毛刚.面向性能退化的数控机床服役可靠性评估方法[J].装备制造技术,2019,0(12):154-158. 被引量：2
3潘少华,文再文.低秩稀疏矩阵优化问题的模型与算法[J].运筹学学报,2020,24(3):1-26. 被引量：3

中国科学：数学

2020年第9期

浏览历史

内容加载中请稍等...

k-均值问题的理论与算法综述被引量：9

参考文献2

共引文献9

同被引文献67

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

k-均值问题的理论与算法综述 被引量：9

参考文献2

共引文献9

同被引文献67

引证文献9

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

k-均值问题的理论与算法综述被引量：9