Machine learning : déléguons avec prudence

Last modified date

Des faits ayant trait aux technologies de l’intelligence artificielle (IA) attirent régulièrement notre attention. Par exemple, nous avons lu dans la presse des articles relatant les avancées remarquables dans les programmes de jeux d’échecs ou encore d’autres soulignant l’aide précieuse de l’IA fournie dans le domaine médical (Pialat, 2018). Dès lors, des événements défraient fréquemment la chronique. En 2018, nous avons appris que l’algorithme de l’outil de recrutement de l’entreprise de e-commerce Amazon, alors en charge de la sélection des dossiers de candidature les plus pertinents depuis 2014, privilégiait systématiquement les curriculums vitae masculins et pénalisait ceux contenant une quelconque référence à des individus féminins, notamment dès que le terme « woman’s » apparaissait (Dastin, 2018). Pourquoi un tel résultat ? Découvrons ensemble, sans prétendre en rien à l’exhaustivité, une part de la complexité de ce domaine et des questionnements qu’il soulève.

Selon l’idée du mathématicien et cryptologue Alan Turing, le fonctionnement de la machine peut être similaire au processus cognitif d’un être humain. Ainsi, la machine est considérée comme « intelligente » à partir du moment où elle arrive à passer indistinctement pour un être humain. Toutefois, en constante évolution depuis ses débuts, la notion reste vague, car elle désigne une multitude de techniques différentes dont les applications s’étendent aujourd’hui à travers divers domaines (Boelaert, Ollion, 2018). En effet, nous assistons désormais à une délégation cognitive des activités humaines à des machines, et il est de plus en plus aisé de constater l’omniprésence de ces dernières dans notre quotidien : du domaine médical à celui de la justice, de la conduite autonome, de la reconnaissance des formes et des voix etc.

Dès lors, pour aborder ce vaste domaine, nous nous pencherons spécifiquement sur les techniques du machine learning (ML) que l’on peut considérer comme une « nouvelle version de l’intelligence artificielle » capable d’apprendre à partir de corpus de données qui lui sont fournis en grande quantité (Boullier, 2015). Plus précisément, cette forme d’IA désigne une pluralité de méthodes visant à entraîner des algorithmes à trouver des solutions à partir des données mises à leur disposition, sans devoir explicitement donner des instructions à chaque étape (Bastin, Tubaro, 2018). Parmi ces techniques, celle de l’apprentissage supervisé, qui implique une finalité de prédiction — inférer à partir de la supervision de nombreuses solutions — est très employée et discutée aujourd’hui. C’est pourquoi elle sera considérée tout au long de ce document. Toutefois, à l’aide de l’exemple concret impliquant Amazon et son outil de recrutement, nous nous intéresserons par la suite également à la technique de l’apprentissage non-supervisé consistant alors à détecter des régularités dans un corpus de données préalablement sélectionné pour en extraire des patterns (Boelaert, Ollion, 2018).

Des questions surgissent alors : dans quel contexte le ML se déploie-t-il aujourd’hui ? Que peuvent nous révéler les résultats produits par ces technologies ? De quoi sont-ils symptomatiques ? Quel rôle pour les sciences sociales dans cette configuration sociotechnique ?

Dans une première partie, nous clarifierons la situation actuelle — marquée notamment par un regain du ML — en exposant un bref passage historique : celui de la mutation numérique, engendrant un nouveau regard sur nos pratiques. Dans une deuxième partie, nous verrons comment ces bouleversements liés à nos pratiques modifient à leur tour notre rapport la production de la connaissance, incluant l’utilisation du ML. Enfin, dans une troisième partie, nous examinerons le cas d’Amazon et de son outil de recrutement, ce qui nous permettra de rendre compte de possibles résultats liés aux points présentés précédemment. Un autre exemple, celui de l’auto-correcteur de Google, nous servira à mettre en évidence des questionnements plus généraux sous-jacents à l’implémentation des techniques du ML.

1. Un contexte inédit

De manière générale, les techniques du ML connaissent un certain renouveau depuis qu’il est possible d’accéder à de larges bases de données qui, grâce aux possibilités actuelles de calcul, permettent alors de générer des solutions de plus en plus précises, autant d’un point de vue scientifique que commercial (Bastin, Taburo, 2018 ; Boelaert, Ollion, 2018). Il est par ailleurs possible de se rendre compte en parcourant la presse journalistique que ces technologies attirent la curiosité des dirigeants d’entreprise qui signalent vouloir à terme automatiser une partie du processus de sélection des candidats (Dastin, 2018). Cela signifie que les pratiques d’embauche changent. Une mutation numérique est en cours (Boullier, 2015).

Revenons un tant soit peu en arrière. Le déploiement d’Internet a induit un changement de nos pratiques. En effet, à partir des années 2000, l’informatique et les réseaux s’immiscent dans le quotidien d’une part majeure de la population et sortent de la sphère techno-professionnelle (Boullier, 2016). Le numérique est « pervasif », ce qui signifie que celui-ci « pénètre toutes nos activités, des plus intimes aux plus collectives » (Boullier, 2016, p. 6), il concerne alors une part croissante de nos pratiques sociales, impliquant un nouveau rapport à l’information. Désormais, les interactions humaines passent par des dispositifs qui laissent des traces, Internet étant un espace hautement fréquenté, ces dernières atteignent alors des quantités astronomiques.

Cela signifie que la numérisation grandissante de nos pratiques engendre de nouvelles sources d’information qui sont justement les traces et les données. Elles sont produites, calculées et analysées en masse par les plateformes du web telles que Facebook et Twitter qui accèdent aujourd’hui à des positions de centralité jamais atteintes auparavant. De fait, un « effet de réseau » bénéficie à certains acteurs dont l’utilisation de leur plateforme par les internautes, gratuite de prime abord, leur permet ainsi d’accumuler de nombreuses pratiques numériques (Beaude, 2014). Cela veut dire que l’attractivité du réseau social augmente en concomitance avec le nombre croissant d’utilisateurs, ceux-ci ayant de plus en plus de chance d’y trouver leur bonheur. Toutefois, l’apparente gratuité s’échange en réalité avec les données personnelles des internautes ainsi qu’avec les traces qu’ils génèrent, souvent à leur insu, permettant ainsi aux réseaux sociaux dominants de déployer leur « capacité de prédation des données et des traces personnelles pour les revendre aux marques » (Boullier, 2016, p.83). En effet, les activités des internautes permettent alors à la fois d’améliorer les services, mais aussi de se financer en vendant des espaces publicitaires individuels (Beaude, 2012). Cela signifie que les plateformes numériques génèrent et utilisent les traces à des fins stratégiques et marketing, en chiffrant les comportements et les actions des internautes. Elles utilisent à cet effet de nouvelles méthodes et techniques de calcul, dont celles relevant du ML, permettant d’anticiper et de prédire les comportements des individus, ouvrant ainsi la voie à des analyses très ciblées (Boullier, 2016).

« Il existe une nouvelle matière première qui mérite un examen pour elle-même et qui produit une troisième strate du social, mesurable selon d’autres principes […] » (Boullier, 2015, p. 825)

Il y a donc un changement conjoint des pratiques et de notre regard sur elles, car il est désormais possible de les observer de très près et de manière singulière, les traces étant plus nombreuses et individuelles (Bastin, Tubaro, 2018).

2. Des présupposés intrigants

Nous assistons désormais à un glissement vers une nouvelle conception de la société contemporaine, à un nouveau rapport à la connaissance produite sur celle-ci. La quantité de traces et de données couplée aux capacités grandissantes de traitement et de calcul nous mènent à l’ère du big data, un terme désignant un mode de raisonnement (Boullier, 2015) ou encore, un phénomène sociotechnique induisant une inflexion dans notre manière de penser la recherche et la connaissance, les nombres ayant pris une importance significative depuis ces dernières années (boyd, Crawford, 2012).

En effet, les présupposés qui sont attribués au big data ont comme effet de laisser croire que le social peut être appréhendé sans théorie particulière et qu’il suffit de prédire sur la base de combinaison de corrélations. Comme Dominique Boullier (2015) le démontre, les méthodes algorithmiques utilisées à cet effet relèvent alors de 3 caractéristiques : en premier celle dite du « volume » désignant la multitude de traces et de données permettant alors d’accéder à une grande quantité d’information du fait de leur disponibilité. Cette caractéristique se couple avec la qualité dite de la « variété » soulignant l’hétérogénéité des données et la possibilité de procéder à des corrélations entre divers types de traces et données. Enfin, les méthodes numériques accompagnant le déploiement du big data sont également capables de traiter la caractéristique de « vélocité », les traces étant générées et captées en continu.

Dès lors, le mode de raisonnement associé au big data réserve peu de place aux approches théoriques, les corrélations produites semblant représenter une voie d’accès à la compréhension du social. Or, il apparaît que ces méthodes de production de connaissance négligent de questionner les données servant à générer ces corrélations (Boullier, 2015). Ceci s’explique en partie par le fait que les plateformes du web constituent aujourd’hui les principales productrices des traces et ce sont les marques qui commandent des études à leur sujet, cherchant par là des résultats pour maximiser leurs revenus plutôt que des explications permettant de pénétrer le social (Bastin, Tubaro, 2018). Dès lors, l’intervention du privé dans la production de connaissance sur la société met à mal l’expertise des sciences sociales, car ces dernières ne sont plus les seules à produire de la connaissance sur le social (Savage, Burrows, 2007).

Une nouvelle configuration pleine de défis

Conséquemment, la pratique des sciences sociales change en concomitance avec les bouleversements décrits précédemment : la société est transformée par le big data — le chiffrage des comportements et des actions — mais également la pratique scientifique est refaçonnée (Bastin, Tubaro, 2018). En effet, les sciences sociales sont en état de crise, car de nouvelles représentations de la société ont émergé, modifiant les caractères traditionnels de l’analyse sociologique quantitative. Le sondage et l’enquête par questionnaire par exemple ne constituent dorénavant plus les seules sources pour la collecte de données (Bastin, Tubaro, 2018). De même, la démarche hypothético-déductive, qui implique un processus minutieux de collecte et de traitement des données orienté par des hypothèses définies au préalable, est remise en question. Ceci à cause des capacités de calcul, dont celles relevant du ML, permettant de générer et de tester des corrélations robustes statistiquement, mais dénuées d’interprétation (Boullier, 2015).

L’implémentation des méthodes de ML trouve alors une recrudescence et est intimement liée à ces nouvelles possibilités de traitement qui participent, grâce à leur efficacité, à un raisonnement particulier : il n’y aurait plus besoin de théorie ? C’est ce que stipule l’entrepreneur Chris Anderson dans son article The End of Theory paru en 2008 et dans lequel il argue que la quantité de données permet aujourd’hui de se passer de la théorie : par la méthode algorithmique, seul ce qui est déduit de l’observation des données existe (Carmes, Noyer, 2014). Notons également que les données dont il est question ne sont pas produites par et pour les sociologues, elles le sont à des fins relevant de la volonté des entreprises privées qui, dans une logique compétitive, ne veulent pas forcément publier les études qu’elles commanditent à partir de leurs propres données, interrogeant par là même les conditions de production des traces ainsi que de leur opérationnalisation (Venturini, Cardon, Cointet, 2014).

Les sciences sociales doivent donc se réapproprier une place dans cette nouvelle configuration sociétale. D’une part parce qu’une autre perspective du social est offerte par le développement des technologies du big data, dont la possibilité d’observer en direct des pratiques via les médias sociaux (Venturini, Cardon, Cointet, 2014), mais aussi parce que des questions éthiques entourent leur utilisation en vue de la production de connaissances, notamment concernant la caractéristique du « volume » qui ne rime pas avec fiabilité et objectivité (boyd, Crawford, 2012). Les sciences sociales doivent répondre scientifiquement en démontrant leur potentiel apport tout en adaptant leurs méthodes (Boullier, 2015) et sont désormais très vigilantes face à la nouvelle donne, la littérature nous montrant que de nombreux questionnements calibrent le déploiement de l’utilisation des technologies du big data. Notamment en relation avec le rôle du ML en sciences sociales (Boelaert, Ollion, 2018), comment ces techniques peuvent-elles contribuer à alimenter nos connaissances sur le monde social ?

Dès lors, comme avons pu le constater, les méthodes du ML bénéficient des caractéristiques du big data (Bastin, Tubaro, 2018) et épousent cette nouvelle épistémologie du social tout en la façonnant. Ces présupposés permettent alors de concevoir un monde social suffisamment compréhensible par la voie du calcul, sans recourir aux analyses causales des sociologues. Par conséquent, des implications se répercutent notamment dans les résultats produits par les techniques du ML. Afin d’illustrer le paradigme décrit ci-dessus, nous allons parcourir les exemples mentionnés dans notre introduction. Bien que la technique dont relève l’outil de recrutement d’Amazon ne relève pas directement de l’utilisation des traces, mais plutôt de x données numérisées, les présupposés du big data sont probablement à mettre en exergue pour tenter d’en comprendre le résultat.

3. Une certaine insatisfaction vis-à-vis des résultats produits par le machine learning

En effet, sur la base d’un apprentissage non-supervisé, l’outil d’Amazon avait été entraîné avec un set de données recueillant des CV soumis à la firme sur un laps de temps de 10 années. Dès lors, puisque l’algorithme avait été alimenté avec des données du passé (Moragues 2018), reflétant alors la dominance masculine dans le monde de la tech, des biais et des inégalités constitutifs de nos sociétés ont alors été reproduits.

Cet exemple nous montre un possible résultat découlant du mode de raisonnement big data appliqué dans la construction d’une IA. Il s’agit ici de l’embauche et nous pourrions considérer, à l’instar de la sociologue Dominique Méda (2015), que le travail forme une part centrale de nos vies en représentant un système complexe de distribution des revenus, des droits et des protections. Ceci dénote de l’importance des questionnements qui entourent le déploiement du ML dans notre quotidien, surtout lorsque se décèle une volonté générale de la part des entreprises d’automatiser leurs systèmes d’embauche dans un avenir proche (Dastin, 2018). Aussi, le fait qu’Amazon ait relayé son expérimentation nous montre que la firme n’est pas satisfaite de ce résultat.

Dès lors, de manière plus générale, les questionnements éthiques liés à l’implémentation du ML dans une logique inductive et non-réflexive touchent les grandes entreprises en vue des revendications sociales de plus en plus importantes autour des problématiques liées au genre (Dave, 2018). Nous pouvons penser au mouvement #MeToo par exemple. Il est possible d’imaginer alors que, même si la finalité reste sans doute le profit, ces entreprises ne peuvent passer outre les tendances sociales si elles veulent conserver leur centralité, les agences et les marques attestant d’une certaine insatisfaction vis-à-vis des résultats obtenus par la logique découlant des présupposés du big data (Boullier, 2015). Nous pouvons le constater en nous référant à l’exemple de Google et de son correcteur automatique. Peu de temps après le dévoilement au sujet l’outil de recrutement d’Amazon, un article de la presse (Dave, 2018) annonce que les pronoms basés sur le genre (« her », « him ») ont été bloqués de l’AI de Google construite pour compléter les phrases des utilisateurs de Gmail, l’algorithme proposant alors « it » ou « you » à la place.

« Consumers have become accustomed to embarrassing gaffes from autocorrect on smartphones. But Google refused to take chances at a time when gender issues are reshaping politics and society, and critics are scrutinizing potential biases in artificial intelligence like never before. “Not all ‘screw ups’ are equal,” Lambert said. Gender is a “a big, big thing” to get wrong. » (Dave, 2018)

Ces exemples soulèvent les difficultés résidant dans l’automatisation de processus cognitifs à partir de données tirées de notre monde social. Ces dernières sont les produits d’états sociaux : ici ceux de la prédominance des individus masculins dans des domaines tels que la finance, la technologie ou la science. En effet, les biais reproduits par les machines sont les nôtres, ils sont liés à l’expérience : un système généraliste sans connaissance est alors nourri par un set de données générées par les êtres humains. Il apparaît donc que nos expériences se reflètent dans le comportement des machines. La délégation cognitive invite alors à questionner les concepteurs de ces technologies, car ce qu’ils implémentent risque d’avoir des effets structurants à terme.

Ouverture vers de nouvelles collaborations ?

Dès lors, nous avons donc pu constater que de nombreux questionnements surgissent autour de l’utilisation du ML, à la fois dans le domaine scientifique, mais aussi dans le domaine commercial. Cela met en évidence des enjeux importants : les productions commerciales se trouvent face à des questions épistémologiques que les méthodologies des sciences sociales pourraient éventuellement prévenir, en s’éloignant de la méthode inductive et positiviste et en réinscrivant la nécessité de conserver des démarches sociologiques pour aborder le monde social. Ces préoccupations pourraient alors servir de porte d’entrée aux sciences sociales qui profiteraient de cet interstice pour s’introduire dans ces questionnements en collaborant avec les concepteurs de ML.

D’ailleurs, comme nous le rappelle Dominique Boullier (2015), les sciences sociales ont à chaque époque quantifié la société en collaborant avec d’autres institutions. Il semble alors possible que leur intervention dans cette nouvelle manière de produire de la connaissance puisse un jour être considérée « normale », formant alors un nouveau paradigme qui sera à son tour appréhendé comme étant la « norme ». D’autant plus que les nouvelles technologies qui permettent d’appréhender le social requièrent à la fois des capacités techniques précises, mais également des compétences sociologiques, amenant à une nécessité de collaboration entre les divers domaines scientifiques.

Au risque de tomber dans une simplification extrême de la réalité, nous pourrions imaginer que les sciences sociales puissent à l’avenir retrouver plus de légitimité par exemple en coopérant avec les plateformes, les questions liées aux biais semblant préoccuper diverses sphères de notre société. Le rapport de force entre visées scientifiques et commerciales pourrait alors s’atténuer, bien qu’aujourd’hui les milieux académiques manquent de chercheurs qualifiés en ML, ceux-ci étant accaparés par les entreprises privées qui rechignent à engager des chercheurs en sciences sociales (Bastin, Tubaro, 2018). Or, peut-être est-il temps de s’ouvrir et de faire dialoguer les disciplines, en mettant à profit les postulats qu’elles supportent respectivement et qui ont été construits sur de longues décennies.

Conclusion : la voie aux questionnements est plus qu’entre-ouverte

L’enjeu semble de taille. Les techniques du ML se développent en concomitance avec les changements sociétaux dû à la mutation numérique et sont au cœur de préoccupations tant du côté de la recherche — le ML comme instrument permettant d’expliquer/inférer — que du côté du privé — le ML en vue de la production de résultats rentables, et éthiques. Dès lors, pour ouvrir le questionnement, tout en restant très prudent : les techniques sont efficaces, représentent-elles de nouvelles opportunités ? Bien que précisant l’infime complexité de cette idée, la programmeuse Aurélie Jean évoque l’idée de « biaiser positivement les critères explicites d’un algorithme pour rééquilibrer les discriminations existantes dans la société » (Renault, 2018). Une logique se logeant dans le fait que les connaissances revêtent à terme, une fois considérées comme étant la « norme », des effets performatifs.

« Nous fabriquons ces calculateurs, mais en retour ils nous construisent. » (Cardon, 2015, p.7)

Il s’agirait alors d’éviter que des biais décelés depuis longtemps par les sociologues se retrouvent renforcés par les nouvelles techniques du ML. Dès lors, et ce sont les mots de la fin, la nouvelle manière d’appréhender le monde social découlant des présupposés décrits dans ce document appelle les sciences sociales à se mobiliser pour légitimer leur intervention. Cette nécessité est notamment visible dans les réactions des firmes utilisant ces nouvelles techniques : elles ne sont pas satisfaites des résultats qu’elles produisent.

Bibliographie

Ouvrages et articles en ligne

Bastin, Gilles., Tubaro, Paola (2018). « Le moment big data des sciences sociales« . In Revue française de sociologie, Presses de Sciences Po, vol. 59, pp. 375 – 394.

Beaude, Boris (2014). Les fins d’Internet. Editions Fyp.

Boelaert, Julien., Ollion, Etienne (2018). « The Great Regression. Machine Learning, Econometrics, and the Future of Quantitative Social Sciences« . In Revue française de sociologie, Presses de Sciences Po,vol. 59, pp. 1 – 29.

Boullier, Dominique (2016). Sociologie du numérique. Paris : Armand Colin. (S.7/8).

Boullier, Dominique (2015). « Les sciences sociales face aux traces du big data, Société, opinion ou vibrations ?« . In Revue française de science politique, pp. 805 – 828.

boyd, Danah., Crawford, Kate (2012), « Critical questions for Big Data, Provocations for a cultural, technological, and scholarly phenomenon ». On Information, Communication & Society, Vol. 15, n°5, pp.662 – 679.

Cardon, Dominique (2015). A quoi rêvent les algorithmes. Editions du Seuil et la République des Idées. 195 p.

Carmes, Maryse., Noyer, Jean-Max (2014). « L’irrésistible montée de l’algorithmique ». In Les cahiers du numérique, pp. 63 – 102.

Méda, Dominique (2015). Le travail. Paris, PUF, coll. « Que sais-je ? », 128 p.

Savage, Mike., Burrows, Roger (2007). « The Coming Crisis of Empirical Sociology ». In Sociology, pp. 885 – 899.

Venturini, Tommaso., Cardon, Dominique., Cointet, Jean-Philippe (2014). « Méthodes digitales. Approches quali/quanti des données numériques ». In Réseaux, no 188. pp.9 – 21.

Articles de presse

Dastin, Jeffrey (2018). Amazon scraps secret AI recruiting tool that showed bias against women. Repéré à : https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G, consulté le 15.10.18.

Dave, Paresh (2018). Fearful of bias, Google blocks gender-based pronouns from new AI tool. Repéré à : https://www.reuters.com/article/us-alphabet-google-ai-gender/fearful-of-bias-google-blocks-gender-based-pronouns-from-new-ai-tool-idUSKCN1NW0EF, consulté le 30.11.18.

Moragues, Manuel (2018). L’intelligence artificielle toujours plus au cœur du modèle Amazon. Repéré à : https://www.usinenouvelle.com/editorial/l-intelligence-artificielle-toujours-plus-au-c-ur-du-modele-amazon.N757904, consulté le 07.10.18.

Pialat, Loïc (2018). La Silicon Valley mise beaucoup sur l’intelligence artificielle. Repéré à : https://www.letemps.ch/economie/silicon-valley-mise-beaucoup-lintelligence-artificielle, consulté le 15.10.18.

Renault, Audrey (2018). La codeuse Aurélie Jean veut attirer les femmes vers l’intelligence artificielle. Repéré à : http://cheekmagazine.fr/geek/aurelie-jean-intelligence-artificielle-microsoft/, consulté le 10.10.18.

Alix Bisenz