Rule protection for indirect discrimination prevention in data mining

Authors:
Sara Hajian;Josep Domingo-Ferrer;Antoni Martínez-Ballesté
Affiliations:
Department of Computer Engineering and Mathematics, Universitat Rovira i Virgili, UNESCO Chair in Data Privacy;Department of Computer Engineering and Mathematics, Universitat Rovira i Virgili, UNESCO Chair in Data Privacy;Department of Computer Engineering and Mathematics, Universitat Rovira i Virgili, UNESCO Chair in Data Privacy
Venue:
MDAI'11 Proceedings of the 8th international conference on Modeling decisions for artificial intelligence
Year:
2011

Citing 5
Cited 0

Fast Algorithms for Mining Association Rules in Large Databases

VLDB '94 Proceedings of the 20th International Conference on Very Large Data Bases
Discrimination-aware data mining

Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining
Integrating induction and deduction for finding evidence of discrimination

Proceedings of the 12th International Conference on Artificial Intelligence and Law
Data mining for discrimination discovery

ACM Transactions on Knowledge Discovery from Data (TKDD)
Three naive Bayes approaches for discrimination-free classification

Data Mining and Knowledge Discovery

Quantified Score

Hi-index	0.00

Visualization

Abstract

Services in the information society allow automatically and routinely collecting large amounts of data. Those data are often used to train classification rules in view of making automated decisions, like loan granting/denial, insurance premium computation, etc. If the training datasets are biased in what regards sensitive attributes like gender, race, religion, etc., discriminatory decisions may ensue. Direct discrimination occurs when decisions are made based on biased sensitive attributes. Indirect discrimination occurs when decisions are made based on non-sensitive attributes which are strongly correlated with biased sensitive attributes. This paper discusses how to clean training datasets and outsourced datasets in such a way that legitimate classification rules can still be extracted but indirectly discriminating rules cannot.