公平性机器学习中基于分类间隔的歧视样本发现和消除算法被引量：3

Discriminatory sample identifying and removing algorithms based on margin in fairness machine learning

导出

摘要公平性学习是机器学习领域的研究热点,预防歧视的目的在于执行预测任务之前消除不公平训练集对于分类器的影响.为了保证分类公平性和准确性,本文通过发现和消除原始数据集中的歧视样本寻找生成公平数据集的方法,即提出了一种基于分类间隔的加权方法用于处理二分类任务中的歧视现象,并在demographic parity和equalized odds公平性判定准则上实现分类公平.为了不影响分类准确性,本文基于最大间隔原理将样本投影之后选出目标集,对于目标集中的每个样本,通过加权距离度量方法判定该样本是否具有歧视性,并进行修正.通过在3个真实数据集上与已有方法进行实验对比,本文的方法能够获得更好的分类公平性和准确性,并且不局限于特定的公平性判定准则和分类器. Fairness learning is one of research hotspots in machine learning.The purpose of preventing discrimination is to eliminate the impact of unfair training sets on classifiers before performing prediction tasks.To ensure the fairness and accuracy of classification,this paper presents a method for generating fair data sets by identifying and eliminating discriminatory samples in original data sets.This is a margin-based weighted method for dealing with discrimination in binary classification tasks and obtaining the demographic parity and equalized odds.To improve the classification accuracy,the target set is selected after projecting based on the margin principle.For each sample in the target set,a weighted distance measurement method is used to identify the discriminatory sample and then correct it.The experimental results on three real data sets demonstrate that the proposed method can obtain better classification fairness and accuracy than existing methods;the conclusion is not limited to specific fairness criteria or classifiers.

作者石鑫盛李云 Xinsheng SHI;Yun LI(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;Jiangsu Key Laboratory of Big Data Security and Intelligent Processing,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学计算机学院南京邮电大学江苏省大数据安全与智能处理重点实验室

出处《中国科学：信息科学》 CSCD 北大核心 2020年第8期1255-1266,共12页 Scientia Sinica(Informationis)

基金国家自然科学基金(批准号:61603197,61772284,61876091,61802205)资助项目。

关键词公平性学习分类间隔目标集加权距离度量歧视性 fairness learning classification margin target set weighted distance metric discriminatory

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献23

1谢礼珊,申文果,梁晓丹.顾客感知的服务公平性与顾客公民行为关系研究——基于网络服务环境的实证调研[J].管理评论,2008,20(6):17-24. 被引量：47
2周女琪,周宇.基于概率模型检测的Web服务组合多目标验证[J].计算机科学,2018,45(8):288-294. 被引量：4
3杨博雯,钱伟懿.粒子群优化算法中惯性权重改进策略综述[J].渤海大学学报（自然科学版）,2019,40(3):274-288. 被引量：27
4侯翌,杨培林,徐凯.概率行为树模型转化为模型检测模型方法研究[J].机械设计与制造,2020(8):94-98. 被引量：2
5邓蔚,邢钰晗,李逸凡,李振华,王国胤.公平性机器学习研究综述[J].智能系统学报,2020,15(3):578-586. 被引量：4
6张晓芳.基于机器学习的光纤网络激光器异常功率数据采集系统设计[J].激光杂志,2020,41(9):111-115. 被引量：2
7陈晋音,陈奕芃,陈一鸣,郑海斌,纪守领,时杰,程瑶.面向深度学习的公平性研究综述[J].计算机研究与发展,2021,58(2):264-280. 被引量：9
8刘文炎,沈楚云,王祥丰,金博,卢兴见,王晓玲,查宏远,何积丰.可信机器学习的公平性综述[J].软件学报,2021,32(5):1404-1426. 被引量：23
9郭俊,王新.基于PLC的生产线输送速度分时段控制模型[J].包装工程,2021,42(11):220-226. 被引量：4
10孟昌,曲寒瑛.算法合谋及其规制研究进展[J].经济学动态,2021(6):128-143. 被引量：19

引证文献3

1王艳,侯哲,黄滟鸿,史建琦,张格林.基于概率模型检查的树模型公平性验证方法[J].软件学报,2022,33(7):2482-2498. 被引量：1
2喻继军,熊明华.电子商务推荐系统公平性研究进展[J].现代信息科技,2023,7(14):115-124.
3陈素霞,陈业慧.基于机器学习的机械流水线速度无线控制方法[J].机械设计与研究,2023,39(3):145-149.

二级引证文献1

1翟洁,李艳豪,孟天鑫,郭卫斌,王占全,李冬冬.基于决策树和大模型的个性化计算机实验教学探索与实践[J].实验技术与管理,2023,40(12):8-15. 被引量：1

1王宏杰,师彦文.结合初始中心优化和特征加权的K-Means聚类算法[J].计算机科学,2017,44(B11):457-459. 被引量：19
2张阿龙,江刚武,张一,谭振宇.自适应区间二型模糊聚类的遥感影像变化检测[J].测绘科学技术学报,2018,35(4):376-382. 被引量：6
3Miroslav Saur,Fu-Sheng Yu.Charm CPV: observation and prospects[J].Science Bulletin,2020,65(17):1428-1431. 被引量：4
4廖少康.从新闻报道中的地域歧视现象看新闻人的基本素养[J].锋绘,2020(5):43-43.
5周宜昌,刘艳,顾雪平.考虑多风电场黑启动价值的机组恢复顺序双层优化决策[J].电力系统自动化,2020,44(16):87-97. 被引量：14
6杨建军,常丽萍,李胜,朱霆威,何熊熊.基于新型特征和特征袋模型的内窥镜大肠病变辅助诊断[J].中国生物医学工程学报,2020,39(4):404-412. 被引量：2
7薛冰,赵冰玉,肖骁,李京忠,谢潇,任婉俠.基于POI大数据的资源型城市功能区识别方法与实证——以辽宁省本溪市为例[J].人文地理,2020,35(4):81-90. 被引量：38
8David C.Nieman.Coronavirus disease-2019: A tocsin to our aging, unfit, corpulent, and immunodeficient society[J].Journal of Sport and Health Science,2020,9(4):293-301. 被引量：6
9黄先飞,王莉霞,龚宁,曹磊芳,吴先亮,张珍明.剑河县水田及旱地的土壤肥力特征与评价[J].西南农业学报,2020,33(7):1510-1516. 被引量：7
10Michelle D.Guerrero,Leigh M.Vanderloo,Ryan E.Rhodes,Guy Faulkner,Sarah A.Moore,Mark S.Tremblay.Canadian children’s and youth’s adherence to the 24-h movement guidelines during the COVID-19 pandemic: A decision tree analysis[J].Journal of Sport and Health Science,2020,9(4):313-321. 被引量：5

中国科学：信息科学

2020年第8期

浏览历史

内容加载中请稍等...

公平性机器学习中基于分类间隔的歧视样本发现和消除算法被引量：3

同被引文献23

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

公平性机器学习中基于分类间隔的歧视样本发现和消除算法 被引量：3

同被引文献23

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

公平性机器学习中基于分类间隔的歧视样本发现和消除算法被引量：3