Pourquoi faut-il se préparer à une victoire de Donald Trump ?

Photographie du plateau qui a accueilli les débats entre Joe Biden et Donald Trump, prise le 4 décembre 2021 sur un article du Temps présent dans la bibliographie

« A J – 4, nous vous reproposons cet épisode du #PointJ qui s’intéresse non pas aux sondages pré élections qui ont montré toutes leurs faiblesses en 2016 mais aux modèles algorithmiques dont certains avaient eux visé juste. »
RTSinfo (30 octobre 2020), consulté le 11 novembre 2020

Cette citation tirée de la page Facebook de la Radio Télévision Suisse invite les utilisateurs à redécouvrir le podcast audio mené par Caroline Stevan au sujet du modèle mathématique de John Antonakis, professeur de comportement organisationnel à HEC Lausanne, et de Phillipe Jacquart, de l’EM Lyon Buisness School. Leur paradigme prédit la victoire de Donald Trump en tenant compte de plusieurs facteurs : le contexte économique, du nombre de mandats et surtout, le charisme, quantifiable et codable au niveau des discours de l’émetteur.

En connaissance de cause aujourd’hui, nous pouvons aisément remettre en doute la légitimé de ce parangon algorithmique, de par la victoire de Joe Biden, l’adversaire pourtant jugé « […] comme une personne plus fragile, plus molle et moins forte que Donald Trump. » (Stevan, 2020). Cependant, la prédiction et ses controverses ne sont pas nouvelles, autant dans la sphère médiatique que celle de la production de connaissance. Véritable enjeu et défi, elle peut être même jugée comme une finalité, dont l’aboutissement est complexe, mais légitime dans ce qui fait science et ce qui fait foi. Déjà en 1935, George Horace Gallup prédisait sur base d’un échantillon de 5 000 personnes la réélection de Franklin Roosevelt, envers l’avis général. Le succès de son calcul le pousse à espérer à un âge d’or de la démocratie américaine où le sondage en serait un outil essentiel : « Nous avons besoin de connaître la volonté du peuple à chaque instant. Si nous parvenons à cette connaissance […], l’efficacité de la démocratie s’en trouvera accrue, parce que nous pourrons substituer une connaissance spécifique de l’opinion publique aux tâtonnements et spéculations actuelles ». (Gallup, 1939)

Seulement, bien que la période de Gallup fût féconde en termes de perspectives au sujet de ces moyens innovants (probabilité, statistique, analyse linéaire, etc.), cette volonté solide de faire du monde social, un monde régulier et certain, s’ancre dans une longue tradition. Nous pourrions mentionner Adolphe Quetelet et son « homme moyen », qui pensait déjà au XIX^e siècle que des phénomènes tels que le suicide ou les crimes étaient semblables aux lois mathématiques des phénomènes physiques, et qu’il s’agissait pour le savant de les identifier (Martin, 2002). Cette idée sera portée par d’autres, comme Auguste Comte, à qui on attribue souvent la genèse de la sociologie, dont la légitimité devait se faire sur les mêmes principes des sciences naturelles : « Ainsi, le véritable esprit positif consiste à voir pour prévoir, à étudier ce qui est, afin d’en conclure ce qui sera, d’après le dogme général de l’invariabilité des lois naturelles. » (Comte, 1844)

Aujourd’hui, ces aspirations et l’optimisme liés à des agrégats de données variées, suffisantes pour nous renseigner sur l’avenir, se sont également réactivés à l’ère d’Internet et du big data, où les traces que nous produisons continuellement sont devenues le nouveau pétrole de la production scientifique : enfin, le monde social devient accessible, mais surtout prévisible. Tout en attisant ces attentes, les possibilités de ces traces, de leur accès et du sens qu’on peut en tirer ont également suscité des réticences et des critiques quant aux conséquences de leur utilisation sur la société en elle-même.

Pourquoi les prédictions fascinent-elles donc autant dans la sphère public et scientifique ? Comment sont-elles mises en place et par quels domaines ? Que nous apportent-elles réellement et que disent-elles de nous, de nos relations et de notre organisation ? Nous tenterons, au sein de ce billet, de répondre à ces questions en partant de l’étude de John Antonakis et Phillipe Jacquart, pour ensuite monter en généralité sur les enjeux de l’élaboration des théories prédictives de nos jours. Pour ce faire, nous présenterons les apports de ces modèles, basés sur des traitements algorithmiques de plusieurs bases de données, en comparaison à des sondages qui auraient montré plusieurs fois leurs failles. Ensuite, nous poserons les limites de ces procédés, non pas dans les résultats (il ne s’agit pas ici de prouver, après coup, que ces chercheurs ont eu tort), mais plutôt dans leur élaboration, en invitant à une certaine prudence, en nous basant sur les recommandations de Tim Harford, Danah Boyd et Kate Crawford. Pour terminer, nous aimerions ouvrir le débat sur la pertinence de connaître le futur et s’il est possible, tout simplement, d’y parvenir.

It’s time to ask: what can science predict from Google

Le titre de cette section fait référence, de manière détournée, à la dernière sentence volontairement piquante de Chris Anderson en 2008, lors de son article soulignant les avancées que permettent désormais, pour le travail scientifique, les quantités massives de données numériques, mais également l’évolution des outils mathématiques capables de les traiter. Ce que font les individus et pourquoi ils le font est désormais compréhensible au travers de cet amoncellement d’informations dont la quantité permet une lisibilité sans pareille et suffit à établir des relations, la méthode devenant obsolète : « We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot. » (Anderson, 2008). De plus, cela permettrait d’éviter certains biais présents dans les sciences humaines, notamment un traitement trop subjectif ou caricatural des données (en demandant, par exemple, directement aux individus les raisons de leurs actions), avec une analyse neutre et objective des informations. En allant plus loin, des informaticiens et des physiciens tels qu’Alex Pentland ou Albert-László Barbási, admettent que nous avons désormais la possibilité de finaliser ce que prévoyait Auguste Comte (sans pour autant y faire référence), c’est-à-dire d’établir une physique sociale de notre environnement, avec ses lois et ses régularités capables de rendre le futur saisissable, notamment dans ses crises : « We could predict and mitigate financial crashes, detect and prevent infectious disease, use our natural resources more wisely, and encourage creativity to flourish and ghettos to diminish. These dreams used to be the stuff of science-fiction stories, but that fantasy could become a reality—our reality, if we navigate the pitfalls carefully. » (Pentland, 2014).

Cet engouement pour ce que certains nomment big data, a provoqué de nombreuses réactions contrastées, mais tous s’accordent sur le fait qu’il représente un tournant dans nos façons de faire sens : le volume, la vélocité, la variété, la valeur et la véracité marquent cette notion popularisée par l’informaticien John Mashey en 1990. Celle-ci n’est pas l’apanage d’un unique domaine, mais au contraire, fait preuve d’interdisciplinarité, entre la sphère scientifique, les particuliers ou encore les entreprises de haute technologie (GAFAM ou start-up) (Bourany, 2018). Le domaine électoral en est un excellent exemple où bien que le big data est traité par des scientifiques aux profils variés, il est également investi par les acteurs politiques eux-mêmes ainsi que les entreprises de poltech ¹ depuis les débuts des années 2000, avec une réinvention des techniques de campagnes et de mobilisation, sans cesse en évolution avec le cadre légal national (au niveau, entre autres, de l’utilisation des données personnelles) (Ehrhard, Bambade & Colin, 2019).

Sans pour autant affilier Antonakis et Jacquart aux chercheurs cités plus haut, il est pourtant intéressant de constater que le bien-fondé de leur modèle s’opère en opposition aux techniques de sondage, notamment en rappelant les dernières élections de 2016. En effet, le 9 novembre 2016, Phillipe Jacquart présentait le même modèle utilisé en 2020, en montrant comment la situation économique du pays (basé sur les théories de Ray C. Fair), dont l’état est synonyme de réussite ou d’échec du parti au pouvoir, couplée à la notion de charisme (comprise comme la rhétorique du candidat) pouvait prédire la victoire de Donald Trump, à cause d’une situation financière mauvaise et d’un taux de charisme plus « élevé » qu’Hillary Clinton (qui, étant une femme, risquait d’être perçue comme moins compétente). (Jacquart, 2016).

« J’ai vraiment eu l’impression d’être le seul idiot sur la planète, avec peut-être une ou deux autres équipes de recherche, à dire que Donald Trump l’emporterait [en 2016]», se souvient John Antonakis […] . »
Giroud Tara (3 novembre 2020), Deux modèles de données suisses prédisent une victoire de Donald Trump, consulté le 29 décembre sur SwissInfo

Semblable à ce qui était arrivé à Gallup en 1935, envers l’avis des sondages pré élections, le paradigme des deux chercheurs avait prédit l’élection de Trump, légitimant ainsi leur thèse, tout en pointant indirectement les défaillances des anciennes techniques. D’ailleurs, en 2020, Antonakis n’hésitera pas à évoquer cet événement, tout en soulignant que bien que les sondeurs demeurent des statisticiens sérieux, leur méthode possède de nombreux et épineux problèmes (Giroud, 2020). En effet, dans les médias comme dans la sphère scientifique, les biais des sondages sont présentés comme légions : échantillon peu représentatif des votants, les sondés ne sont pas sincères dans leurs réponses ou ceux-ci peuvent s’abstenir de voter, rendant leurs réponses nulles, faussant ainsi les résultats, sans compter que « Un sondage est une photographie de l’opinion à un instant t, pas une prédiction » (Sénécat & Ferrer, 2016) ou, pour reprendre les mots d’Antonakis dans une autre interview : « un bruit de fond de l’avenir » (Allgöwer, 2020). De plus, la publication des sondages peut aussi avoir des effets autant sur les électeurs (instrument utilisé pour réduire l’incertitude ou pour simplifier le choix parmi un très grand nombre de candidats, avec toute une série de notions pour expliciter ces usages : bandwagon, underdog, humble the winner, snub the looser ou encore la spirale du silence, mécanisme développé par Noelle-Neumann qui encourage à l’abstention, car « les jeux sont faits ») (Lehingue, 2007) que sur les élites politiques (influence dans l’élaboration de stratégies et d’agendas) (Grunberg & Mayer, 2014).

Nous, les fourmis

Lors de la partie précédente, il a été mentionné qu’un sondage publié possède des conséquences sur les comportements des individus lors de la campagne électorale, mais quid de ce genre d’études ? Antonakis et Jacquart ont été, au sein des médias suisses, fortement sollicité au travers de multiples interviews, et mis en avant également par l’Université de Lausanne. Nous pourrions attribuer cette forte exposition à, de manière générale, l’enthousiasme autour du big data (pour donner un ordre d’idées, les projets liés au big data ont suscité 100 millions d’euros de revenus mondiaux en 2009, pour 42 milliards en 2018) (Bourany, 2018). Sans émettre d’hypothèses hâtives sur les effets possibles du modèle des deux chercheurs, il ne faut cependant pas sous-estimer les conséquences de l’exposition qu’ont les travaux autour du big data, notamment lorsqu’ils concernent des entités capables de les réceptionner et d’agir en fonction. Il faut également réintroduire les propriétés presque intrinsèques qu’on attribue au chiffre, c’est-à-dire le fait qu’il est vrai, neutre et incontestable et que ces valeurs peuvent avoir tendance, sans le vouloir, à influencer notre vision des résultats qu’il expose comme une représentation objective et concise de la réalité, omettant de rappeler qu’au contraire, le chiffre peut être situé (Ogien, 2010). Ensuite, pour reprendre les termes de Boris Beaude et son analogie avec les fourmis : les énoncés et les lois émises sur le fonctionnement présent et futur d’une fourmilière n’a que très peu d’impacts sur lesdits éléments, alors que la situation est tout autre au sein du monde social dont les entités qui le composent font preuve de réflexivité (Beaude, 2017). Émettre ce type de réserves au sujet des sondages doit également conduire à une certaine précaution quant à ses propres recherches.

Une notion discutable, dans la manière dont elle est élaborée chez Antonakis et Jacquart, peut-être à nos yeux, celle du « charismomètre » qui mesure le charisme d’un candidat au travers de neuf critères présents au sein des discours : « l’identification et l’expression de la confiance dans les objectifs, l’utilisation de listes en trois parties, l’utilisation de métaphores et le fait d’histoires et poser des questions rhétoriques ». (Giroud, 2020). Tout en ayant conscience que le charisme perçu d’un candidat peut être subjectif (nous trouvons un candidat charismatique en fonction des valeurs qui font écho avec les nôtres), les deux chercheurs souhaitent éliminer ce jugement partial : « Je veux que la machine me dise, quelle que soient mes valeurs, si cette personne est charismatique ou non » (Giroud, 2020). C’est donc sur cette prise de position qu’ils estiment la victoire de Donald Trump or, en ne prenant pas en compte les opinions individuelles, le fait que la notion de charisme peut évoluer dans le temps et le contexte dans lequel sont prononcés ces discours, l’estimation prédictive comporte de nombreux biais. De plus, le bien-fondé du « charismomètre » est testé sur des élections passées, telles que le discours de 1863 d’Abraham Lincoln (Giroud, 2020). À ce titre, nous pouvons paraphraser les propos de Beaude au sujet de l’échec Google Flue Trends à prédire l’arrivée de la grippe : ces analyses s’appuyant sur le passé, elles envisagent le futur dans une conformité désuète et ignorent les virtualités de changements et d’inventions (Beaude, 2015). Dans ce sens, le « charismomètre »se base aussi sur le présupposé de l’acteur rationnel, courant dans le secteur économique, qui dit que chaque individu agit de manière raisonnée, maximisant au mieux ses actions à ses buts (ici, il s’agirait de voter en fonction du plus charismatique) (Silberzahn, 2019). Néanmoins, cette théorie ne permet pas d’envisager les imprévus et de comprendre de nombreux faits sociaux (les personnes ne se conduisent pas continuellement dans cette optique et peuvent au contraire réagir de manière « irrationnelle » en ayant des comportements solidaires ou basés sur des croyances normatives).

“Statisticians have spent the past 200 years figuring out what traps lie in wait when we try to understand the world through data. We must not pretend that the traps have all been made safe.”
Harford T. (2014). Big data: are we making a big mistake ? dans Financial Times, consulté le 29 décembre 2020 sur https://doi.org/10.1111/j.1740-9713.2014.00778.x

De manière globale, la plupart des réticences au sujet du big data tendent à rappeler que les leçons que nous avons pu tirer des statistiques ne doivent pas être ignorées et que l’énorme quantité de données disponibles ne les efface pas (la quantité ne provoque pas de la qualité). Tim Harford, au travers de l’exemple de Twitter, montre que les biais et les erreurs d’échantillonnage sont toujours présents (le fait que notre échantillon n’est pas représentatif de la population, en utilisant uniquement les données de Twitter par exemple, nous avons uniquement des informations sur ses usagers, et pas de l’ensemble du pays, le « N = all » n’étant pas systématique) ainsi que la confusion entre corrélation et causalité (un phénomène n’étant pas forcément la cause de l’autre et peut posséder une cause tierce) (Harford, 2014). Boyd et Crawford émettent des remarques semblables avec toutefois des ajouts pertinents au sujet des tensions entre éthique et accessibilité (responsabilité autant dans la manière de faire recherche qu’envers les sujets de recherche), tout en questionnant qui peut justement avoir accès à ces données et les enjeux que cela implique (car elles demandent certaines compétences de traitement en plus de ressources financières, favorisant les domaines privés et industriels, qui ont un monopole sur ces informations). (Boyd & Crawford, 2012).

Pourquoi faut-il s’attendre à ne plus prévoir une victoire de Donald Trump ?

Au sein de ce billet, nous avons pu observer que les passions autour de l’analyse du big data et de ce que cela peut nous dévoiler sur nos futurs modes d’organisations, sont semblables aux espoirs d’autrefois au sujet des sondages d’opinion, ceux-ci se retrouvant désormais caducs face aux capacités de précision et d’objectivité des nouveaux paradigmes algorithmiques. Toutefois, le big data et les recherches qui lui sont liées ne sont pas exemptes de travers et semblent, à l’inverse, répéter et provoquer les mêmes grands débats qui ont parcouru les sciences humaines et sociales, sans pour autant mentionner cette discipline dans leurs travaux. En effet, la capacité de prédiction, ici pour les élections politiques, n’en est pas meilleure et est parcourue de nombreux préconçus (les personnes agissent de manière rationnelle et ne sont pas impactées, dans leur système de pensée et d’agir, par ce qui est publié, le chiffre permet une neutralité certifiée, etc.) qui nuisent à l’effet tant souhaité, c’est-à-dire annoncer notre avenir.

À ce stade, nous pouvons même nous demander s’il est nécessaire et souhaitable, en politique, d’entreprendre autant d’efforts pour prédire un futur qu’il faudrait plutôt chercher à construire ? De plus, que restera-t-il des individus, si nous les réduisons aux traces qu’ils laissent sur Internet, des traces moins subjectives et plus « justes » qu’eux ? Quelles seront les décisions, les choix que nous ferons à partir de ce genre de données ? Faut-il simplement abandonner l’idée de pouvoir prédire un monde de toute manière trop complexe et incertain, pour se concentrer sur sa connaissance ? À toutes ces interrogations, nous pourrions répondre, peut-être de façon ironique, qu’il s’agirait avant tout d’une question d’épistémologie. La prédiction a toujours suscité du malaise dans les sciences sociales où on lui préfère l’explication ou la compréhension (Horkheimer, 1933) tandis que dans d’autres domaines, des sciences dites « dures », l’élaboration de lois régulières est le pivot de la recherche.

Pour autant, la possibilité de projets interdisciplinaires n’est pas à éliminer et devrait être sollicitée de plus en plus à l’avenir. En effet, selon nous, la collaboration de plusieurs méthodologies et de philosophies autour de la prédiction et de ses enjeux autant épistémiques, politiques et sociaux, pourrait contenir certaines dérives et rendre des conclusions qui prennent en compte leurs portées sur notre environnement. La prédiction n’est pas, d’après nous, quelque chose à abandonner, mais qui doit être mieux réinvestie. Si nous n’opérons pas maintenant, avec les progrès de plus en plus conséquents des outils de captation et d’analyse de nos traces, une réflexion collective sur l’éthique des données, qui loin d’être détachées des ancrages sociétaux, reflètent des idéologies situées, nous pourrons assister à des projets discutables moralement. Heureusement, nous ne sommes pas encore au moment où nous pourrons identifier publiquement l’orientation sexuelle des individus à partir d’un modèle algorithmique (Baya-Laffite, Beaude & Garrigues, 2018).

Bibliographie

Ouvrages et articles en ligne

Anderson C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, dans Wired, consulté le 28 décembre 2020 sur https://www.wired.com/2008/06/pb-theory/

Baya-Laffite N., Beaude B., Garrigues J. (2018). Le Deep Learning au service de la prédiction de l’orientation sexuelle de l’espace public. Déconstruction d’une alerte ambiguë, dans Réseaux, n⁰211, pp.137 à 172

Beaude B. (2015). Spatialités algorithmiques, dans Traces numériques et territoires, pp.135 à 162

Beaude B. (2017). (re)Médiations numériques et perturbations des sciences sociales contemporaines, dans Sociologies et sociétés, vol.49, n^o9, pp.83 à 111

Bourany T.(2018), Les 5V du big data, dans Regards croisés sur l’économie, n⁰23, pp.27 à 31

Boyd D. & Crawford K.(2012). CRITICAL QUESTIONS FOR BIG DATA, Provocations for a cultural, technological and scholarly phenomenon, dans Informations, Communication & Society, sur https://doi.org/10.1080/1369118X.2012.678878

Comte A.(1844). Discours sur l’esprit positif, pp.13-14, consulté le 28 décembre 2020 sur http://dx.doi.org/doi:10.1522/cla.coa.dis

Ehrhard T., Bambade A. & Colin S. (2019). A la conquête des élections 2.0, Etude des acteurs et du marché de la technologie politique en France, dans Politiques de communication, n^o12, pp.97 à 113

Gallup, G. (2001). Sondages d’opinion et démocratie: Extrait de Public Opinion in a Democracy, Stafford Little Lectures, Princeton University, 1939. Hermès, La Revue, 31(3), pp. 167 à 180. https://doi.org/10.4267/2042/14551

Grunberg G. & Mayer N. (2014). Chapitre 11- L’effet sondage, des citoyens ordinaires aux élites politiques, dans Déloye Yves et al., Institutions élections, opinion, pp.219 à 236

Harford T. (2014). Big data: are we making a big mistake ? dans Financial Times, consulté le 29 décembre 2020 sur https://doi.org/10.1111/j.1740-9713.2014.00778.x

Horkeimer M. (1993). Sur le problème de la prédiction dans les sciences sociales, dans Variations, n⁰23, mise en ligne en 2020 sur https://journals.openedition.org/variations/1543

Lehingue P. (2007). L’emprise des sondages sur le jeu électoral: vrais et faux dévats, dans Savoir/Agir, n⁰1, pp.37 à 47

Martin O. (2002). Mathématiques et sciences sociales au XXème siècle, dans Revue d’Histoire des Sciences Humaines, n⁰6, pp.3 à 13

Ogien A. (2010). La valeur sociale du chiffre. La quantification de l’action publique entre performance et démocratie, dans Revue Française Socio-Économie, n^o5, pp.19 à 40

Pentland A.(2014). Social Physics How good ideas spread – the lessons from a new science. New-York: Penguin.

Silberzahn P. (2019). Vie des affaires. Comment décider et prospérer dans un monde de surprises ? dans Le journal de l’école de Paris du management, n^o135, pp.8 à 15

Articles de presse et sites Internet

Allgöwer M. (2020). Ces modèles suisses qui prédisent la victoire de Trump, dans Le Temps, consulté le 28 décembre 2020 sur https://www.letemps.ch/monde/modeles-suisses-predisent-victoire-trump

Giroud T. (2020). Deux modèles de données suisses président une victoire de Donald Trump,dans SwissInfo, consulté le 29 décembre 2020 sur https://www.swissinfo.ch/fre/deux-mod%C3%A8les-de-donn%C3%A9es-suisses-pr%C3%A9disent-une-victoire-de-donald-trump/46136192

Jacquart P. (2016). Présidentielle américaine : le modèle qui prévoyait la victoire de Trump,dans The Conversation, consulté le 29 décembre 2020 sur https://theconversation.com/presidentielle-americaine-le-modele-qui-prevoyait-la-victoire-de-trump-66687

RTSinfo (30 octobre 2020), consulté le 11 novembre 2020 sur https://www.facebook.com/RTSinfo/posts/1792141307615716

Stevan C. (2020). Pourquoi faut-il se préparer à une victoire de Donald Trump, dans RTSInfo, consulté le 28 décembre 2020 sur https://www.rts.ch/info/monde/11675468-podcast-pourquoi-fautil-se-preparer-a-une-victoire-de-donald-trump.html

Sénécat A. & Ferrer M. (2016). Comment la victoire de Trump a-t-elle pu échapper aux sondages et aux médias ?, dans Le Monde, consulté le 29 décembre 2020 sur https://www.lemonde.fr/les-decodeurs/article/2016/11/09/comment-la-victoire-de-donald-trump-a-t-elle-pu-echapper-aux-sondeurs-et-aux-medias_5028104_4355770.html

Nous entendons le terme poltech comme mentionné chez Ehrhard, Bambade & Colin, c’est à dire comme faisant référence à l’ensemble du marché de la technologie politique, qui propose par exemple des services de fundraising ou de targeting

Stories