La soudaine célébrité des algorithmes
Le petit mot d’algorithme n’avait rien demandé à personne et, pourtant, il semble à l’heure actuelle qu’il soit soudainement devenu à la mode : en effet, on parle de culture algorithmique, de l’amour sous algorithmes, de l’éthique des algorithmes, du pouvoir des algorithmes, d’une société algorithmique et même d’une gouvernementalité algorithmique.
Quoiqu’il en soit, il est de fait que nous sommes entourés par les algorithmes, ceux qui régissent les marchés financiers, ceux qui sont à l’œuvre dans le domaine des assurances, dans les médias, la sécurité, ceux qui nous guident dans nos choix de consommation, ceux qui pilotent les réseaux sociaux, etc. Ils sont désormais sous le feu des projecteurs, ils ont envahi l’espace public ; il n’est que de penser aux scandales suscités récemment par APB et son successeur Parcoursup, ou encore à la polémique autour de l’impact de la modification du Newsfeed de Facebook sur la mobilisation des gilets jaunes, etc.
L’algorithme est entré en société ! Mais s’il est entré en société c’est parce que dans une certaine mesure, on lui confie de plus en plus des opérations essentielles, ce qui signifie qu’il est authentiquement un « actant » au sein des processus sociaux. Décider de l’orientation d’un étudiant, décider de savoir qui recevra ou pas un rein, prévoir si tel ou tel détenu a des chances de récidive, anticiper le résultat d’un procès, etc., ce sont des actions dont on attend qu’elles respectent un certain nombre de principes éthiques, par exemple celui du respect des droits individuels, de l’équité, de la non-discrimination.
Pour autant, les algorithmes posent des problèmes épineux, car ils sont entourés d’une aura d’objectivité et de scientificité, comme si la décision prise sur leurs conseils était inattaquable parce que purement mécanique, dépourvue de toute forme de préjugé et en ce sens « neutre ». Ainsi pourra-t-on penser qu’il vaut mieux se soumettre au verdict d’un algorithme plutôt que de se voir soumis à un juge humain, susceptible de prendre des décisions qui varient au cours de la journée sous le coup de la fatigue.
L’algorithme au fonctionnement mathématique serait donc une solution pour pallier la faillibilité humaine. Pourtant, il convient d’un point de vue éthique d’interroger cette notion d’objectivité, car, comme le rappelle Dominique Cardon :
« Les algorithmes ne sont pas neutres. Ils renferment une vision de la société qui leur a été donnée par ceux qui les programment – et par ceux qui paient ceux qui les programment dans les grandes entreprises du numérique. Les artefacts techniques contiennent les principes, les intérêts et les valeurs de leurs concepteurs : la mise en œuvre opérationnelle de ces valeurs passe par des choix techniques, des variables statistiques, des seuils que l’on fixe et des méthodes de calcul » (source : le récent rapport Villani, p. 21, disponible ici).
Nous avons vu un exemple de ces effets avec l’algorithme PageRank de Google, mais il aurait été tout à fait possible de considérer d’autres formes d’algorithmes comme EdgeRank de Facebook qui filtre ce qui apparaît sur notre mur en fonction de critères comme : la proximité de l’utilisateur avec le contenu, l’attractivité de ce contenu et sa fraîcheur.
Dans la mesure où les algorithmes font et font faire des choses, c’est-à-dire classent, opèrent des tris, catégorisent, recommandent, etc., ils entrent de plain-pied dans le domaine de l’éthique qui va essentiellement interroger leur opacité ; face à cette opacité on réclame désormais de la transparence et on met en avant la nécessité « d’ouvrir les boîtes noires » (source : Dominique Cardon, Culture numérique, Paris, Presses de Sciences Po, 2019, p. 356) algorithmiques. La raison de cette demande est évidente : dans une société démocratique, il convient en effet de nous demander et de décider publiquement selon quels critères et selon quels principes nous souhaitons voir un algorithme fonctionner, à quel point nous voulons déléguer nos décisions aux algorithmes, quel type de contrôle nous désirons pouvoir exercer sur eux ?
Des algorithmes et des biais
Les exemples que nous avons considérés le montrent, on ne peut pas interroger les algorithmes en termes de « neutralité » ; dans la mesure où ils implémentent des critères et des choix de design, les algorithmes sont tout sauf « neutres ». Dans cette mesure, les systèmes automatisés peuvent contenir des biais. La question des biais est ancienne : en 1996, B. Friedman et H. Nissenbaum évoquaient déjà les biais qui pouvaient être contenus dans un système informatique (source : B. Friedman et H. Nissenbaum, « Bias in Computer Systems », ACM Transactions on Informational Systems, volume 14, n°13, 1996, p. 330-347 – disponible ici) ; pour ces deux auteurs, ces derniers pouvaient revêtir trois formes :
des biais préexistants, c’est-à-dire contenus dans les attitudes ou les pratiques et les institutions qui préexistent au système et qui peuvent colorer ce dernier soit de manière explicite et consciente, soit de manière implicite et inconsciente ;
des biais « techniques », qui découlent de contraintes ou de considérations techniques ;
enfin, ce qu’elles appelaient des « biais émergents » qui se rencontrent dans le contexte d’usage des systèmes.
Si les questionnements éthiques peuvent surgir au sujet des algorithmes procéduraux classiques, il faut concéder que le problème de l’opacité algorithmique est revenu au cœur de l’actualité avec le succès des « big data » et de l’intelligence artificielle qui conduisent à se concentrer sur les algorithmes « d’apprentissage statistique ».
En règle générale, ce qui est alors discuté ce sont les algorithmes relatifs à l’apprentissage supervisé ; comme le rappelle Y. Lecun :
« Le principe de base de l’apprentissage supervisé est toujours le même : il consiste à ajuster les paramètres du système pour réduire une fonction de coût qui mesure l’erreur moyenne entre la sortie réelle du système et la sortie désirée, calculée sur un ensemble d’exemples d’apprentissage. Réduire cette fonction de coût et entraîner le système sont une seule et même action » (source : Y. Lecun, Quand la machine apprend. La révolution des neurones artificiels et de l’apprentissage profond, Paris, Odile Jacob, 2019, p. 123.).
Le questionnement éthique doit donc être attentif à la double dimension des données d’une part, et des algorithmes de l’autre.
Les premières peuvent bien évidemment contenir des biais qui résultent soit de leur non-représentativité, soit du fait qu’elles peuvent traduire une réalité qui est en elle-même discriminatoire. On se souvient sans doute de la polémique suscitée par le service Google Photos qui classait les personnes noires comme des gorilles (des problèmes similaires se sont posés pour HP ou encore pour Nikon). Dans ce cas, le problème venait du fait que la base d’entraînement était non représentative de la population réelle, le système avait sans doute été entraîné à partir de clichés représentant très majoritairement des personnes blanches.
Pour illustrer le second cas, imaginons un algorithme qui serait entraîné à partir d’un ensemble de décisions de recrutement passées ; il apparaît évident qu’il pourrait reproduire certains biais discriminatoires, par exemple à l’égard des femmes. Ces raisons ont poussé la CERNA, dans son rapport de juin 2017, à attirer l’attention sur un certain nombre de principes éthiques relativement aux données traitées, comme l’absence de biais dans les données, le fait que ces dernières respectent la diversité des cultures ou de groupes, qu’elles ne comportent aucun risque de discrimination, que les concepteurs s’interrogent sur les variables qui sont susceptibles d’être socialement discriminantes (source : disponible ici).
Si la question des données est sans aucun doute importante, il faut souligner que celle de leur traitement et des modalités de leur exploitation l’est plus encore ; or, ce qui « opère » sur ces données pour les « faire parler », ce sont précisément des algorithmes. Pour l’illuster, considérons la polémique qui, en 2016, a opposé le site ProPublica à la société NorthPointe ; cette denière proposait aux juges un logiciel, nommé COMPAS (Correctional Offender Management Profile for Alternative Sanction) attribuant des scores de risque de récidive aux prévenus.
Le logiciel s’est révélé peu fiable (20 % de personnes désignées comme étant « à risque » ont effectivement récidivé), mais surtout, quand l’individu était noir, le logiciel avait deux fois plus tendance à le juger, à tort, comme étant « à risque ». Le score était estimé à partir d’un questionnaire détaillé (137 questions), mais Northpointe n’a pas voulu dévoiler sa formule de calcul (secret industriel oblige) ; il semble pourtant que le problème vienne du poids de certains facteurs comme la pauvreté, le niveau de diplôme, etc., qui, pour des raisons de ségrégation sociale, sont plus fréquents chez les Noirs.
Dans ce cas, il parait vain d’accuser les concepteurs ou l’entreprise de racisme, ce sont bien les critères mis en place et leur pondération qui posent problème et reproduisent des injustices sociales préexistantes, voire les renforcent et les automatisent. Dans le cadre de la multiplication de ce genre de systèmes, on peut partager les crainte de Eric Holder qui affirmait, en 2014 :
« Ces outils ont été conçus avec les meilleures intentions, mais je crains qu’ils ne puissent accidentellement affaiblir nos efforts pour parvenir à une justice individualisée et équitable, et qu’ils puissent augmenter encore des injustices et des inégalités qui existent déjà dans notre système judiciaire et notre société » (source : disponible ici).
Le problème se renforce encore quand, même si on dispose en gros de l’algorithme, il est difficile de savoir exactement quels sont les critères qui ont été pris en compte pour aboutir à la classification, et c’est précisément la situation dans laquelle on se trouve avec certains des algorithmes de l’intelligence artificielle pour lesquels il est difficile de retracer le chemin qui a été parcouru par la machine pour parvenir à sa « décision » ou d’identifier précisément les critères qui ont été pris en compte.
Que demande-t-on alors aux algorithmes ? La réponse est simple, on leur demande de pouvoir rendre des comptes (redevabilité/accountability), c’est-à-dire que l’on exige la transparence des systèmes algorithmiques, leur loyauté ainsi que l’explicabilité ou interprétabilité des décision prises (source : P. Besse, C. Castets-Renard et Aurélien Garivier, « Loyauté des décisions algorithmiques », disponible ici). Bien qu’il existe de nombreux trous dans la législation à cet égard, de nombreux rapports mettent cette question en avant : on citera par exemple l’excellent document de la CNIL de 2017 (source : disponible ici) ou encore le rapport Villani.
Reprenons pour clarifier les choses la définition donnée par S. Abiteboul et V. Peugeot de la transparence :
« un algorithme est transparent quand son fonctionnement est clairement expliqué, et quand les données qu’il manipule sont précisées. La transparence d’un algorithme permet de vérifier les choix qu’il fait, les décisions qu’il prend. Le principe de transparence des algorithmes est ainsi étroitement lié à celui de loyauté et d’équité » (source : Terra Data. Qu’allons-nous faire des données numériques, Paris, Le Pommier, 2017).
Un tel principe de transparence est évidemment souhaitable d’un point de vue éthique, mais son application demeure problématique.
En effet, les algorithmes peuvent être accablés par une triple opacité. La première correspond à une stratégie intentionnelle, c’est celle du secret industriel, on demandera alors de la transparence ; la seconde résulte du fait que le code lui-même n’est pas une réalité compréhensible pour tous ; la troisième, plus problématique, vient du conflit entre l’optimisation mathématique en haute dimension et les exigences sémantiques de l’explication humaine qui, quant à elle, demande des raisons (c’est ce qui affecte actuellement l’apprentissage automatique) (source : Cf. Jenna Burrell « How the machine ‘thinks’ : Understanding opacity in Machine Learning algorithms”, Big Data and Society, Janvier-juin 2016, p. 1-12).
La première forme d’opacité réduit dans les faits considérablement la demande de transparence, car cette dernière nécessiterait que l’on divulgue le code source du système algorithmique et cela s’opposerait au secret industriel et aux droits de propriété intellectuelle. Qui plus est, quand bien même ce dernier serait levé, l’algorithme demeurerait inintelligible pour la plupart des citoyens (opacité 2). Ces deux raisons militent en faveur de ce que réclame en particulier la CNIL, à savoir la mise en place d’une plateforme nationale d’audit des algorithmes, avec soit un corps public d’experts, soit une homologation d’audits privés.
C’est un sujet majeur afin que nous ne nous laissions pas « gouverner » par les algorithmes et que nous « reprenions la main ». Mais ce que l’on demande au final aussi et surtout (opacité 3), c’est de pouvoir comprendre la logique générale du fonctionnement de l’algorithme, les critères qui ont présidé à la décision, et évidemment – bien que ce dernier point soit peu souvent mentionné – leur pondération, c’est-à-dire que l’on exige leur explicabilité et leur interprétabilité. C’est un point éthiquement décisif que celui du droit des individus à comprendre les modalités selon lesquelles ils sont « calculés » et « classés ».
Comme nous l’avons vu, ces exigences sont problématiques en ce qui concerne les nouveaux algorithmes de l’intelligence artificielle, aussi les initiatives techniques se multiplient-elles pour rendre cette dernière plus « intelligible » ; on mettra en avant le projet de la DARPA intitulé « explainable IA » ou encore le projet de plateforme TransAlgo conduit par l’INRIA. Dans ce cas, la progression de la démarche éthique doit s’appuyer sur une intensification de la recherche technique. Il n’y a pas de fatalité à ce que les algorithmes nous asservissent ; tout au contraire, ils sont susceptibles, pour peu qu’ils soient véritablement audités et que les critères qui président à leur design soient discutés, de renforcer la justice et l’équité.
On notera pour finir qu’un effort pourrait être fait, en ce sens, comme le demande l’association FING, quant aux interfaces homme-machine, à partir par exemple du concept de jouabilité, c’est-à-dire le fait de donner la possibilité à l’utilisateur de jouer avec le système en faisant varier ses paramètres. En règle générale, il y a bien, avec les systèmes informatiques, au-delà d’une exigence de convivialité, une nécessité d’encapacitation (empowerment) des individus. Pour reprendre les propos du rapport de la CNIL, il ne s’agit pas seulement d’auditer les algorithmes mais aussi de :
« promouvoir un design propre à renforcer l’autonomie et la réflexivité des personnes, à remédier aux situations d’asymétrie que peuvent établir les algorithmes à leur détriment, à leur permettre de prendre des décisions informées et de manière lucide » (p. 57).
Les exigences éthiques sont donc claires, renforcer la maîtrise démocratique des algorithmes et renforcer la liberté des usagers afin de ne pas céder à la « gouvernementalité algorithmique ».
Au-delà des questions d’explicabilité des algorithmes, certains auteurs s’inquiètent en effet de la naissance de ce qu’il est désormais convenu d’appeler une « gouvernementalité algorithmique », de quoi s’agit-il ?
Reprenons la définition forgée par A. Rouvroy et T. Berns :
« Par gouvernementalité algorithmique, nous désignons dès lors globalement un certain type de rationalité (a)normative ou (a)politique reposant sur la récolte, l’agrégation et l’analyse automatisée de données en quantité massive de manière à modéliser, anticiper et affecter par avance les comportements possibles » (source : A. Rouvroy et T. Berns, « Gouvernementalité algorithmique et perspective d’émancipation. Le disparate comme condition d’individuation par la relation », Réseaux, n°177/2013, p. 173).
L’idée sous-jacente est que désormais on pourrait gouverner les choses simplement à partir de la collecte de données brutes, supposées neutres et objectives, ainsi que par leur exploitation algorithmique qui permettrait de prédire au plus proche et sans faire d’hypothèse les comportements des personnes. Dans les discours ambiants, on souligne en effet bien souvent le caractère révolutionnaire de l’époque à laquelle nous vivons et le changement complet lié à ce nouveau monde des données.
Selon d’autres personnes, nous aurions affaire avec les nouvelles techniques à un renversement complet de la méthode scientifique, puisque les hypothèses seraient générées automatiquement à partir des données et ne les précèderaient plus. On peut estimer que la logique inductive qui préside aux techniques de l’apprentissage statistique va également dans ce sens (source : D. Cardon, J-P. Cointet et A. Mazières, « La revanche des neurones. L’invention des machines inductives et la controverse de l’intelligence artificielle », Réseaux, n°211/2018).
Le problème, comme le souligne parfaitement A. Rouvroy, c’est qu’on a de fortes chances en suivant ce chemin non pas d’améliorer le monde dans lequel nous vivons, mais tout au contraire de « le laisser en l’état » (source : disponible ici), comme nous l’avons vu avec la question des inégalités qui pouvaient être consacrées et renforcées, tout en neutralisant la possibilité de la critique et de la contestation (par un argument recourant à l’objectivité des données et des algorithmes). Pour reprendre encore le propos d’A. Rouvroy et de T. Berns : « La surenchère de prétention à l’objectivité est précisément et très concrètement l’oubli du choix politique ». L’ouverture des boîtes noires a donc une fonction critique essentielle.
Qui plus est, la vague actuelle de l’intelligence artificielle nous fait oublier un peu vite qu’il y a une grande différence entre produire un système de recommandation pour améliorer par exemple les suggestions que l’on peut avoir sur une plateforme comme Netflix et modéliser le monde social dans toute sa complexité. Pour nous en rendre compte, il suffit de considérer un exemple fort célèbre, celui des prévisions de l’épidémie de grippe par Google Flu Trend qui visait à prédire l’évolution de la grippe en temps réel à partir des recherches de certains mots clefs sur le moteur de recherche, connaissant l’adresse IP des personnes ayant fait ces requêtes.
Le modèle a semblé dans un premier temps parfaitement fonctionner, mais il a en fait été abandonné par Google en 2015 ; en effet, comme on pouvait s'y attendre, le battage médiatique potentiel autour de la grippe fait que de nombreux internautes se mettent à faire des recherches sur les symptômes qu’ils sont susceptibles d’éprouver, et l’on ne sait plus très bien dès lors ce qui est réellement mesuré.
Bien souvent, à l’arrière-plan du déploiement de tels projets, on trouve, outre le solutionnisme technologique dont nous avons parlé dans le premier chapitre, une méconnaissance de la réalité sociale en sa complexité ; cela aboutit à des modélisations au final simplistes qui peuvent avoir des conséquences injustes. Ainsi, c’est bien aussi la déontologie scientifique et l’éthique de la recherche scientifique qui doivent prévaloir, à savoir que l’on ne peut guère traiter des données sans avoir au préalable interrogé la réalité qu’elles représentent (source : Bilel Benbouzid, « Des crimes et des séismes. La police prédictive entre science, technique et divination », Réseaux, n°206, 2017, en l’occurrence p. 110).
En outre, on peut s’interroger sur la mise en place de modèles où la prévision prime sur la compréhension ou l’explication des phénomènes, car ces derniers bouleversent un certain nombre de principes éthiques, comme par exemple celui selon lequel on doit être jugé sur ses actes effectifs et non sur ses intentions ou sur des actes qui n’ont pas encore été commis. On mesure à quelle point ce type de logique peut s’avérer liberticide lorsque l’on considère par exemple le projet de social scoring chinois.
Comme nous l'avons vu, les algorithmes font débat, c'est la raison pour laquelle nous vous proposons dans le prochain chapitre une méthode pour y voir plus clair : la cartographie des controverses....