CNRS LE JOURNAL, JANVIER 2022

Les algorithmes des moteurs de recherche ou des services en ligne puisent dans l’immense flux de données des utilisateurs pour cerner leurs habitudes. L’informaticienne Sihem Amer-Yahia étudie cette mécanique bien huilée pour appréhender les formes de discrimination qui en découlent.

Pourriez-vous nous rappeler ce qu’est un algorithme et le rôle qu’il joue dans le développement d’Internet ? 
Sihem Amer-Yahia1
. Il s’agit d’une séquence d’instructions qu’un ordinateur peut lire et interpréter dans l’objectif d’automatiser une tâche. L’algorithme peut être assimilé à une boîte qui agrège des données à partir desquelles elle produit ensuite des résultats. Ses directives peuvent être très larges. Sur le Web, cet ensemble de règles opératoires permet le plus souvent de retourner des résultats triés dans un certain ordre, comme le fait un moteur de recherche, ou de classifier des données en entrée tels les sites de e-commerce. Un algorithme peut aussi prendre des données sous une forme et les transformer sous une autre pour créer des groupes de personnes ayant les mêmes habitudes d’achats. Il est également capable d’extraire de l’information de ces données : c’est par exemple le cas des algorithmes destinés à prédire la récidive criminelle. Chaque instruction a une signification, mais c’est surtout la manière dont sont agencées ces instructions qui donne un sens à l’algorithme et détermine son utilité.  

Pourquoi les algorithmes sont-ils devenus indispensables au fonctionnement des plateformes numériques ?
S. A.-Y. 
L’algorithme est en mesure de s’exécuter à très grande échelle et ainsi de traiter une grande masse de données rapidement et de manière complètement automatisée, ce dont l’être humain est totalement incapable.De nombreux sites partent du principe que le comportement d’un utilisateur dans le passé détermine ses préférences futures. Ce dernier peut alors se retrouver enfermé dans des choix limités.

Lorsque nous effectuons une recherche d’informations sur un moteur de recherche comme Qwant ou Google, c’est désormais un ensemble d’algorithmes qui décident de nous retourner une sélection de liens, de documents ou d’autres résultats en ligne censés correspondre le mieux à notre recherche. Pour cela, ces algorithmes se basent sur des données précalculées. Autrement dit, pour chaque mot-clé que nous entrons dans le moteur de recherche, il existe une liste de références à des sites internet qui sont pertinents pour ce mot-clé. Il s’agit en fait d’un système d’indexation des données disponibles sur le Web.

À partir du moment où un internaute entre une série de mots-clés dans Google, l’algorithme va parcourir ces références, les agréger afin de retourner des documents ou des liens qu’il aura préalablement triés par ordre de pertinence, et cela en un temps record. 

Les résultats proposés par un moteur de recherche dépendent de nos précédentes requêtes sur le Web. Cela ne pose-t-il pas la question de leur objectivité ? 
S. A.-Y. 
La grande majorité des algorithmes qui servent à aiguiller le résultat de nos recherches via un moteur de recherche ont été conçus pour personnaliser le résultat de ces recherches, et cela vaut également pour les plateformes de e-commerce et les sites de rencontre en ligne. Il est donc logique d’obtenir des résultats qui diffèrent selon le contexte dans lequel est effectuée la recherche et selon les préférences de tel ou tel individu. 

Le revers de la médaille réside toutefois dans le fait que, sans forcément en avoir conscience, nous déléguons tous ces choix à l’algorithme ; or la sélection qu’il établit est loin d’être exhaustive et nous ne disposons pas d’un moyen de parcourir ou d’agréger, ni même d’avoir une idée de la diversité des informations qui sont réellement disponibles sur le Web. 

En quoi consiste cette informatique sociale qui est au cœur de vos recherches ? 
S. A.-Y.  
Notre interaction avec le Web a d’abord été celle d’un simple agent extérieur se contentant de consommer du contenu sans intervenir dans la génération de données ou dans la conception des algorithmes. Ainsi, il y a vingt ans, notre interaction avec les plateformes numériques se résumait à la recherche d’informations sur Google : nous entrions une requête qui nous renvoyait à un résultat et cela n’allait pas plus loin.

Mais depuis une quinzaine d’années, on a vu se multiplier les écosystèmes en ligne qui incitent les individus à générer des données subjectives, en donnant par exemple leur opinion. Petit à petit, nous sommes devenus partie prenante du processus de génération des données sur Internet. Au tournant des années 2010, l’individu s’est mué en employé du Web au travers d’entreprises comme Uber.

C’est toute cette évolution qui a donné lieu à l’émergence de l’informatique sociale, qui se focalise notamment sur les algorithmes à partir desquels les humains interagissent avec le contenu numérique mais aussi entre eux. 

Quels risques fait courir cette omniprésence des algorithmes ?
S. A.-Y.
 Il existe trois types de risques associés à la montée en puissance récente des algorithmes. Le premier concerne l’enfermement algorithmique qui porte à la fois sur les opinions, la connaissance culturelle ou les pratiques commerciales. Certains algorithmes peuvent en effet renvoyer en permanence l’usager aux mêmes contenus. Ce peut être le cas des sites de partage d’informations, comme Facebook et Twitter, ou encore des plateformes de recommandation de produits comme Amazon et Netflix. Ces sites partent en effet du principe que le comportement d’un utilisateur dans le passé détermine ses préférences futures. Ce dernier peut alors se retrouver enfermé dans des choix limités. 

Un autre risque important concerne le traçage de l’individu au travers de ses habitudes alimentaires, de ses loisirs ou de ses données médicales. Un dernier risque concerne le traitement inégalitaire, voire défavorable que peuvent subir certaines catégories de personnes en raison de leur appartenance ethnique, de leur lieu d’habitation, de leur âge ou de leurs préférences sexuelles. Cette discrimination algorithmique est plus particulièrement le fait des algorithmes de classement. 

De quelle manière naissent ces discriminations ?
S. A.-Y. 
Un aspect que nous avons aujourd’hui tous intégré dans la manière dont nous consommons l’information en ligne est le classement des résultats. Lorsque nous effectuons une recherche, il est devenu naturel de voir des résultats triés dans un certain ordre, de les parcourir de haut en bas et de gauche à droite. 

Cette manière de consommer les données va évidemment privilégier les résultats qui apparaissent en tête de liste. Pour réaliser un tel classement, les algorithmes doivent non seulement identifier les résultats associés à chaque recherche mais aussi leur attribuer un degré de pertinence. C’est ce degré de pertinence déterminé par l’algorithme qui va établir une hiérarchie des informations et des individus.

À partir du moment où l’algorithme a fait ces choix, l’internaute va être exposé à certaines informations, ou à des individus lorsque le résultat de la recherche est une liste ordonnée de personnes, plus souvent qu’à d’autres. Les risques de discrimination des algorithmes de classement résultent de cette logique de sélection. 

Comment ces formes d’injustices numériques se manifestent-elles en pratique, par exemple sur les plateformes d’embauche dont vous avez étudié le fonctionnement ?
S. A.-Y. 
Une écrasante majorité de ces plateformes utilisent des algorithmes qui apprennent à partir de données existantes. Sachant qu’à la base, ces données sont biaisées puisqu’elles sont générées par des individus qui n’échappent pas aux préjugés de la société dans laquelle ils vivent. Les algorithmes vont ainsi avoir tendance à perpétuer des biais qui existent déjà dans les milieux professionnels en les amplifiant. 

Sur les plateformes d’embauche en ligne telles que Qapa et TaskRabbit, l’algorithme ne se contente pas de trier les postulants sur la seule base méritocratique mais prend aussi en compte les recommandations et les retours des entreprises qui ont embauché ces personnes par le passé. L’algorithme est alors conforté dans son biais et continue à faire apparaître en tête de liste les groupes démographiques qui auront bénéficié antérieurement d’une exposition privilégiée.

Le recours aux plateformes d’embauche numériques ne pourrait-il pas malgré tout contribuer à limiter les phénomènes de discrimination ?
S. A.-Y. L’un des principaux intérêts de l’embauche algorithmique est qu’elle permet d’agir directement sur l’algorithme pour qu’il intègre par exemple à une sélection de candidats un certain pourcentage de personnes qualifiées pour le poste mais ayant peu d’expérience. En donnant simplement de nouvelles instructions à l’algorithme il est donc possible, en théorie, d’exposer a minima certains profils qui auraient été ignorés par un raisonnement algorithmique plus classique. Il est bien plus difficile de modifier réellement le raisonnement humain à l’œuvre lors d’un processus de sélection : les motifs de discrimination à l’égard de certains candidats vont être à la fois plus nombreux et plus difficiles à écarter, pour la simple raison que tout un ensemble de facteurs président à la décision d’un individu. C’est ce qu’a notamment montré le testing de grande ampleur, réalisé entre novembre 2018 et janvier 2019 par l’université Paris-Est Marne-la-Vallée à la demande du gouvernement français2

Vous vous intéressez aussi aux algorithmes sous l’angle juridique. Pourquoi est-il à la fois indispensable et difficile d’encadrer leur fonctionnement de ce point de vue ? 
S. A.-Y. 
Le fait que les plateformes numériques fassent l’interface entre plusieurs acteurs économiques rend tout d’abord la législation actuelle difficilement applicable. La nécessité de devoir faire intervenir divers textes de loi relevant à la fois du droit de la concurrence, du code de la consommation et du code du commerce complique un peu plus la tâche des autorités de régulation. 

En France, l’article L.111-7 du code de la consommation intègre toutefois depuis 2016 une définition purement juridique des opérateurs de plateformes en ligne. Ce texte, précurseur au niveau européen, considère les plateformes non seulement comme une interface entre deux ou plusieurs groupes d’acteurs économiques mais aussi comme un intermédiaire entre l’État et le public au sens large. En outre, cette législation astreint les plateformes à des obligations d’informations vis-à-vis de leurs utilisateurs sur le fonctionnement des algorithmes de recommandation, ce qui constitue un premier pas vers une meilleure protection juridique des individus en ligne. 

Quels autres aspects de l’informatique sociale envisagez-vous d’explorer à l’avenir ? 
S. A.-Y. Mes travaux s’orientent désormais vers le futur du travail. Depuis un peu plus d’un an et les débuts de la crise sanitaire liée au Covid-19, nous assistons à une convergence entre les plateformes de travail numériques – où l’humain se met au service d’autres agents économiques et d’algorithmes d’apprentissage –, et le travail en ligne. Phénomène que de nombreux citoyens ont peu ou prou expérimenté dans le contexte de la crise sanitaire.

Bien que cette convergence ne soit pas dénuée d’effets négatifs, elle se traduit aussi par un grand nombre d’opportunités d’évolution des plateformes de télétravail. Nous pourrions par exemple envisager le développement d’algorithmes capables de mettre en lien les employés d’une entreprise avec des ressources humaines ou des contenus numériques dans l’objectif de leur proposer de nouvelles qualifications ou une remise à niveau de leurs compétences.

Aujourd’hui, la communauté des chercheurs en informatique a cette responsabilité de concevoir des algorithmes destinés à améliorer le capital social et les compétences des internautes que nous sommes tous devenus. 

Cela va au-delà de la conception d’algorithmes capables d’agréger les ressources numériques susceptibles d’améliorer les compétences des travailleurs du Web. 
S. A.-Y.
 Les plateformes qui ont effectivement le vent en poupe depuis le début de la crise sanitaire comme Zoom, WebEx ou Teams restent très basiques sur le plan des interactions sociales. Le développement d’outils numériques plus ludiques – à l’image de Gather Town que nous utilisons au Laboratoire d’informatique de Grenoble pour organiser des événements en ligne à destination de nos étudiants – est devenu une nécessité. Grâce aux récentes découvertes de l’informatique sociale, ce type d’environnement favorisant les échanges professionnels tout en contribuant à améliorer la qualité des interactions sociales sera certainement amené à se multiplier. En tant qu’informaticiens, nous devons nous assurer que ces futurs outils de communication numériques seront davantage orientés vers le bien-être au travail en faisant en sorte qu’ils intègrent des valeurs et des principes humains dès leur conception. 

À lire
Vers le cyber-monde. Humain et numérique en interaction, Mokrane Bouzeghoub, Jamal Daafouz et Christian Jutten (dir.), CNRS Éditions, mars 2021, 240 p., 24 €.

Notes :
1. Directrice de recherche CNRS au Laboratoire d’informatique de Grenoble (CNRS/Université Grenoble-Alpes).
2. « Discrimination dans le recrutement des grandes entreprises : une approche multicanal », Rapport final pour le Commissariat général à l’égalité des territoires, mars 2019, https://www.cohesion-territoires.gouv.fr/sites/default/files/2020-02/202…

Photo 1 : Sihem Amer-Yahia au Laboratoire d’informatique de Grenoble, en janvier 2021. © Thierry MORTURIER
Photo 2 :  L’individu s’est mué dans les années 2000 en employé du Web au travers d’entreprises comme Uber. © Carsten Koall/picture alliance via Getty Images
Photo 3 : Les plateformes de recommandation de vidéos (à gauche), ou d’e-commerce (à droite) risquent d’enfermer l’usager dans le même type de contenus ou de choix. © Netflix 2021 ; WHITTEN SABBATINI/The New York Times-REDUX-REA
Photo 4 :  Les sites d’embauche font souvent apparaître en tête de liste les groupes démographiques qui auront bénéficié antérieurement d’une exposition privilégiée. © Michel GAILLARD/REA
Photo 5 : AI, Ain’t IA Woman de Joy Adowaa Buolamwini, informaticienne et militante numérique américano-ghanéenne fondatrice d’Algorithmic Justice League, organisation qui combat les préjugés dans les processus de décision des logiciels. © Tristan Fewings/GETTY IMAGES EUROPE/Getty Images via AFP

www.cnrs.fr