Votre équipe travaille sur la notion de fairness, soit l’équité dans l’élaboration des algorithmes d’intelligence artificielle. De quoi s’agit-il ?

C’est un domaine de recherche assez nouveau : l’un des premiers articles sur le sujet date de 2012. Il est notamment signé par [l’informaticienne américaine, NDLR] Cynthia Dwork et s’intéresse à l’idée d’une « individual fairness ». Selon elle, deux personnes similaires doivent recevoir une réponse similaire de la part d’un algorithme.

L’intérêt de la recherche s’est confirmé dans les années 2016-2017, quand des applications concrètes ont démontré l’iniquité de certains dispositifs. On a vu par exemple des publicités qui proposaient des offres d’emplois moins qualifiés aux femmes qu’aux hommes. Sont alors parus les premiers articles théoriques sur la façon

d’entraîner des algorithmes pour qu’ils satisfassent des objectifs de « fairness » basés sur la notion de groupe démographique. Mais pour réaliser une recherche, il faut pouvoir la modéliser. Il existe plusieurs façons de faire. On a donc commencé à créer des notions plus adaptées à certaines situations, comme l’« equal opportunity ».

Par exemple : si on doit élaborer un modèle pour que le taux d’acceptation à une candidature soit le même pour les femmes et pour les hommes, on s’aperçoit vite que cette règle n’est pas satisfaisante. Parce que si 10 % de très bons candidats hommes sont acceptés et que, dans le même temps, 10 % de femmes sont sélectionnées aléatoirement, ce n’est pas considéré comme équitable. Dans ce cas, l’« equal opportunity » consiste en un modèle avec un taux de sélection identique, qui serait aussi conditionné au fait que les personnes soient adaptées au poste en question.

Envie d’avoir de nos nouvelles par mail ?

Vos recherches appuient-elles les constats des sciences sociales en matière d’intersectionnalité? Les discriminations produites par les algorithmes se cumulentelles et sont-elles démultipliées ?

Dans le domaine de la fairness, on a constaté qu’il est possible de construire des algorithmes qui ne seraient pas discriminatoires sur un attribut sensible, comme le genre ou l’origine ethnique, mais qu’il est très difficile de le faire pour des personnes qui présenteraient deux attributs. Et c’est évidemment encore pire si on considère l’intersection de plus de deux attributs sensibles.

D’autres éléments que l’algorithme d’apprentissage peuvent-ils produire des biais ?

Les données auxquelles on a accès peuvent également en produire. C’est une problématique pour l’une des parties de notre équipe, venue de Criteo. Criteo voudrait par exemple que les femmes aient la même probabilité que les hommes de voir une annonce : mais ils n’ont pas d’information sur le genre de l’utilisateur·ice. Nos recherches montrent que cela n’empêche pas les biais discriminatoires. Le genre de la personne peut être corrélé à d’autres données sur lesquelles l’algorithme est entrainé, comme ses activités en ligne. Le fait de ne pas connaître le genre de la personne peut, au contraire, rendre plus difficile l’élimination des biais.

Imaginons que nous avons la possibilité d’acheter des données au sujet d’un utilisateur, qui pourraient nous permettre d’être fair. Comment les choisir ? Et surtout : quel coût sommes-nous prêts à assumer ? Si on veut estimer un attribut sensible, plus on a de données précises, plus l’estimation est fiable. D’autant que l’accessibilité ou non des données dépend d’un grand nombre de critères.

En quoi la corrélation est-elle une source de discrimination ?

Outre les biais, il existe d’autres caractéristiques statistiques des données qui peuvent donner lieu à des discriminations. La variance joue par exemple un rôle important : si on peut estimer de façon plus précise la « qualité » d’un candidat pour une offre d’emploi plutôt que celle d’une candidate, cela affecte le taux d’embauche des femmes, même en l’absence de biais.

Nos recherches ont aussi montré que dans les problèmes d’appariement, comme l’admission à l’université, la corrélation peut aussi être source de discrimination. Imaginons que certains élèves passent un test national et d’autres non. Pour un élève qui passe le test, toutes les universités auront une évaluation similaire du candidat, basée sur la note au test en question (donc une forte corrélation). Pour un autre, les universités feront des évaluations plus subjectives et donc moins corrélées. Dans ce cas, leurs chances d’admission, à qualité égale, ne sont pas les mêmes. Il existe beaucoup d’autres critères, souvent en lien avec le groupe démographique, qui peuvent faire varier la corrélation et donc créer des discriminations à la sortie du processus d’appariement.

Il est donc important d’en identifier les sources. Nos recherches portent sur ces questions, ainsi que sur les conséquences sur la création de mécanismes, en particulier le lien avec les données d’entrée auxquelles l’algorithme a accès.