Suite au scandale Cambridge Analytica j'ai fait quelques recherches sur les premières études sérieuses portant sur FB. J'ai choisi deux études de l'équipe Michal Kosinski, David Stillwell et Thore Graepel publiés en 2013 et 2015, elles-mêmes commentées (donc simplifiées) dans la revue en ligne de l'université de Cambridge.

En 2013 ce genre d'études me faisait sourire : comme si j'avais des choses si graves à cacher — comme si tout n'était pas dit frontalement et comme s'il était nécessaire de le déduire (de l'avantage de vivre en démocratie, de ne pas devoir cacher ses opinions ou ses façons de vivre).
Cinq ans plus tard c'est beaucoup moins drôle : Trump a été élu (retrait des USA du Conseil des droits de l'homme de l'ONU pas plus tard qu'hier — scandale des camps d'enfants migrants, dénonciation de l'accord avec l'Iran, installation de l'ambassade des Etats-Unis à Jérusalem, climatoscepticisme, etc) et la Russie aurait joué un rôle dans le Brexit (— Quel est son intérêt? Nous-mêmes sommes contents de nous débarrasser des Anglais! — Tout ce qui affaiblit l'Europe est favorable à Poutine).

L'Europe (l'Union européenne) semble avoir pris la menace au sérieux. En France, la "RGPD" (protection des données personnelles) est entrée en vigueur le 25 mai 2018 (c'est elle qui provoque les mails de mise à jour concernant la politique d'utilisation de vos données personnelles que vous recevez presque chaque jour en ce moment).

Je mets en ligne la traduction des articles et études fondateurs — parce que cela me paraît important de toujours remonter à la source.
Voici tout d'abord l'article en ligne présentant l'étude de 2013 de Kosinski, Stillwell et Graepel.

Remarque: traduction à la volée, n'hésitez pas à corriger en commentaires. C'est volontairement que j'utilise des expressions parfois différentes de celles communément utilisées (par exemple je traduis "sensitive" par "confidentielle") en partant du principe qu'en 2013 ce n'était sans doute pas encore figé et que par ailleurs, les traductions homonymiques sont souvent des paresses de traduction. Que "privacy" ne soit pas un mot en français mais un ensemble de notions est intéressant (et pose bien des problèmes). Le contexte m'a amené à traduire "digital" par "internautique".
On remarquera qu'on parle de modèle statistique et non d'intelligence artificielle. Ce n'est pas la même chose mais en 2018 j'ai l'impression qu'on utilise souvent l'un pour l'autre.
11 Mars 2013 : Les données internautiques peuvent exposer au grand jour les traits de caractère et les particularités privées de millions de personnes.

L'étude montre que les "traces" laissées par ce qui semble un comportement anodin sur internet — ici les "j'aime" sur Facebook — permettent de déduire les caractéristiques personnelles privées d'un internaute avec une très bonne exactitude. L'étude soulève d'importantes questions sur le marketing personnalisé et la protection de la vie privée sur internet.

Une nouvelle étude publiée aujourd'hui dans le journal PNAS montre qu'à partir d'une analyse automatique portant simplement sur les "j'aime" d'un utilisateur de Facebook — une information aujourd'hui publique par défaut — on peut estimer avec une exactitude surprenante sa race [ou sa couleur?], son âge, son QI, sa sexualité, sa personnalité, sa consommation de drogue et ses opinions politiques.

Dans l'étude, les chercheurs décrivent les "j'aime" de FB comme une «classe générique» d'enregistrements internautiques — de même type que les recherches via des moteurs de recherche ou l'historique de navigation — et laissent entendre que de tels outils peuvent être utilisés pour extraire des données confidentielles sur pratiquement n'importe qui régulièrement en ligne.

En collaboration avec Microsoft Research Cambridge, les chercheurs du centre de psychométrie de Cambridge ont analysé les données de plus de 58000 utilisateurs américains de FB qui ont fourni leurs "j'aime", leurs profils démographiques et les résultats du test psychométrique passé sur l'application MyPersonnality.

Les utilisateurs acceptèrent de fournir leur données et consentirent à ce que leurs informations de profil soient enregistrées pour analyse. Leurs "j'aime" sur FB alimentèrent des algorithmes et furent corrélés avec leurs informations de profil et les résultats de leur test de personnalité.

Les chercheurs ont créé un modèle statistique capable à partir des seuls "j'aime" sur FB de prédire les données personnelles d'un utilisateur. Le modèle s'est révélé fiable à 88% dans la détermination du sexe masculin, à 95% dans la distinction entre Afro-Américains et Américains caucasiens et fiable à 85% dans la différenciation des Républicains et des Démocrates. Chrétiens et Musulmans sont correctement appréhendés dans 82% des cas et une exactitude de bon niveau — entre 65 et 73% — a été obtenue concernant le statut familial et la consommation d'alcool ou de drogue.

Cependant peu d'internautes ont cliqué "j'aime" sur des sujets relevant explicitement de ces caractéristiques. Par exemple, moins de 5% des gays ont cliqué "j'aime" sur des sujets aussi évidents que le mariage gay. Les prédictions reposent sur des "recoupements" — l'agrégation d'une énorme quantité de "j'aime" sur des sujets moins précis mais plus populaires comme la musique ou les shows télévisés — pour fournir des profils personnels criant de vérité.

Même des détails personnels à première vue opaque comme le fait que les parents de l'internaute se soient séparés avant les 21 ans de celui-ci sont exacts à 60%, un pourcentage suffisant pour que l'information soit "utile aux publicitaires" commentent les chercheurs.

Tandis qu'ils mettent en lumière l'opportunité pour le marketing personnalisé d'améliorer ses services en ligne par l'utilisation de tels modèles, dans le même temps les chercheurs mettent en garde sur les menaces que court la vie privée des internautes. Ils avancent que de nombreux consommateurs en ligne pourraient trouver qu'un tel niveau de dévoilement par l'utilisation d'internet sort des limites de l'acceptable — puisque des compagnies, des gouvernements et même des particuliers pourraient utiliser des logiciels de prédiction pour déduire des "j'aime" de FB ou d'autres "traces" internautiques des informations hautement confidentielles.

Les chercheurs ont également étudié des traits de personnalité comme l'intelligence, la stabilité émotionnelle, l'ouverture d'esprit et l'extraversion. Alors que de telles caractéristiques plus cachées sont bien plus difficiles à évaluer, l'exactitude de l'analyse est étonnante. L'étude portant sur l'ouverture d'esprit — de ceux qui détestent le changement à ceux qui l'accueillent avec plaisir — démontre que l'observation des seuls "j'aime" est à peu près aussi révélatrice que les résultats d'un vrai test de personnalité individuel.

Certains "j'aime" ont une corrélation forte mais d'apparence incongrue ou erratique avec une caractéristique personnelle, comme les Curly Fries avec le QI, ou la peur des araignées1 avec les non-fumeurs.

Pris dans leur ensemble, les chercheurs sont convaincus que les diverses approximations de traits de personnalité glanés à partir des seuls "j'aime" sur FB peuvent potentiellement constituer le portrait de millions d'utilisateurs autour du monde avec une surprenante exactitude.

Ils soulignent que le résultat implique une possible révolution dans l'évaluation psychologique qui — à partir de cette étude — peut être menée à une échelle jamais atteinte auparavant, sans coûteux questionnaires ou centres d'évaluation.

«Nous pensons que nos résultats, aujourd'hui fondée sur les "j'aime" de FB, peuvent s'appliquer à un éventail plus large de comportements sur internet» observe le directeur des opérations au centre psychométrique Michal Kosinski, qui a conduit l'étude avec son collègue de Cambridge David Stillwell et Thore Graepel de Microsoft Research.

«Les mêmes prévisions peuvent être inférées de toutes sortes de données internautiques, avec ces "recoupements" secondaires d'une remarquable exactitude — déduisant statistiquement des informations confidentielles que les gens peuvent ne pas vouloir dévoiler. Vu la diversité des traces internautiques laissées par les gens, il est devenu de plus en plus difficile pour un individu de les contrôler.

Je suis un grand fan et un utilisateur actif des nouvelles technologies si enthousiasmantes. J'apprécie les recommandations de livres données automatiquement, ou que FB sélectionne les interventions les plus pertinentes pour mon fil d'actualité, dit Kosinski. Cependant, je peux imaginer des situations où les mêmes données et la même technologie seront utilisées pour déterminer vos opinions politiques ou votre orientation sexuelle, menaçant votre liberté ou même votre vie.

La simple éventualité que ceci puisse se produire pourrait détourner les gens de l'utilisation d'internet et diminuer la confiance entre les individus et les institutions — et contrarier le progrès technologique et économique. Les utilisateurs ont besoin d'avoir le contrôle de leurs données et d'en connaître l'utilisation en toute transparence.»

Thore Graepel de Microsoft Research ajoute qu'il l'espère que cette étude va contribuer aux discussions en cours à propos de la vie privée : «Les consommateurs attendent avec raison qu'une forte protection de leurs données soit mise en place au niveau des produits et services qu'ils utilisent. Cette étude pourrait bien servir à leur rappeler qu'il faut adopter une conduite prudente dans leur façon de partager des informations en ligne, qu'il faut paramétrer leurs contrôles de confidentialité et ne jamais partager de contenu avec des interlocuteurs mal identifiés.»

David Stillwell de l'université de Cambridge ajoute: «J'utilise FB depuis 2005 et je vais continuer à le faire. Mais je vais sans doute paramétrer avec plus de soin les outils de privatisation de profil que FB met à ma disposition.»

Pour plus de renseignements, merci de contacter fred.lewsey@admin.cam.ac.uk


Note:

1 : That Spider is More Scared Than U Are : une étude de 2012 a montré que les gens ayant peur des araignées les voient plus grosses qu'elles ne sont. Cette phrase ("les araignées ont plus peur de vous que l'inverse") est destinée à les rassurer et sans doute aussi à protéger les araignées.