Des chercheurs de l'ETH Zurich, d'Anthropic et du programme Machine Learning Alignment and Theory Scholars ont mis au point un système d'agents intelligents capables de réidentifier des profils anonymes en ligne avec une efficacité troublante. Leurs conclusions, encore soumises à l'évaluation par les pairs, pointent vers un changement de paradigme dans la manière dont l'intelligence artificielle peut menacer la vie privée sur internet.
Le principe est aussi simple qu'inquiétant. Le système traite chaque publication comme un faisceau d'indices. Il analyse les textes à la recherche de marqueurs stylistiques (tournures de phrases caractéristiques, détails biographiques glissés çà et là, rythme et horaires de publication) susceptibles de trahir une identité. Il parcourt ensuite d'autres comptes, potentiellement des millions, pour y retrouver les mêmes combinaisons de traits. Les correspondances probables sont signalées, comparées plus finement, et réduites à une liste restreinte de candidats vraisemblables. Les résultats sont frappants. Dans chaque contexte testé, l'approche fondée sur les grands modèles de langage a correctement identifié jusqu'à 68% des comptes correspondants avec une précision de 90%. Les méthodes traditionnelles, elles, n'en ont identifié quasiment aucun.
Des expériences révélatrices
Pour évaluer leur système, les chercheurs n'ont pas ciblé d'utilisateurs réels à leur insu. Ils ont eu recours à des ensembles de données publiques: publications issues de Hacker News et LinkedIn, transcriptions d'entretiens conduits par Anthropic auprès de scientifiques, et comptes Reddit délibérément divisés en deux moitiés anonymisées à des fins de test.
L'un des exemples les plus parlants concerne une enquête menée auprès de 125 scientifiques sur leur utilisation de l'IA. Le système a réussi à identifier neuf d'entre eux, soit un taux de rappel d'environ 7%. En apparence modeste, ce chiffre est pourtant frappant. Il s'agissait de textes libres, peu structurés. Dans un cas illustratif, l'emploi du terme "superviseur" a orienté l'analyse vers un profil de doctorant. L'usage de l'anglais britannique a suggéré une affiliation au Royaume-Uni. Combinés à des références aux sciences physiques et à la biologie, ces indices ont suffi à cibler un candidat précis.
Sur Reddit, les performances variaient selon la richesse des données disponibles. Lorsqu'un utilisateur ne mentionnait qu'un seul film, le taux de réussite tombait à 3%. Mais dès lors qu'il en évoquait une dizaine ou plus, ce chiffre grimpait à près de 50%.
Ce qui change vraiment avec l'IA
Les chercheurs sont les premiers à le reconnaître, rien de ce que le système a trouvé n'était, en soi, hors de portée d'un enquêteur humain patient.
"Tout ce que le LLM a découvert aurait pu, en principe, être trouvé par un être humain", admet Daniel Paleka, l'un des auteurs de l'étude.Ce qui est inédit, c'est l'automatisation bout en bout. Ce qui demandait autrefois des heures de labeur minutieux peut désormais être accompli en quelques minutes, à grande échelle et pour un coût dérisoire. L'ensemble de l'expérience a coûté moins de 2 000 dollars, soit entre 1 et 4 dollars par profil analysé. "L'économie est totalement différente maintenant", résume le co-auteur Simon Lermen. Le seuil d'entrée s'abaisse, et avec lui, le spectre de nouveaux acteurs (entreprises, gouvernements, individus malveillants) capables de vouloir percer l'anonymat en ligne.
Ne pas céder à la panique
Il convient toutefois de ne pas tirer de conclusions hâtives.
"Ces algorithmes s'améliorent, mais ils restent loin de ce que les humains peuvent faire", nuance Luc Rocher, professeur associé à l'Oxford Internet Institute.
Les expériences ont été menées en conditions de laboratoire, sur des données soigneusement préparées, loin de la complexité chaotique du monde réel. L'identité de Satoshi Nakamoto, le mystérieux créateur du Bitcoin, reste à ce jour un secret bien gardé. Les lanceurs d'alerte peuvent encore contacter des journalistes sans être exposés. Des outils comme Signal continuent de protéger efficacement la vie privée de millions de personnes.
Que faire concrètement ?
Pour ceux qui prennent l'anonymat très au sérieux, les précautions habituelles restent de mise: cloisonner strictement ses comptes, minimiser les détails personnels, éviter les habitudes identifiables comme poster uniquement à des heures révélatrices de son fuseau horaire. Pour les autres, ceux qui utilisent des pseudonymes de manière plus désinvolte, les chercheurs invitent à une prise de conscience. Ce qui est publié sur internet y reste et peut désormais être recoupé plus facilement qu'on ne l'imagine.
La responsabilité ne doit pas peser uniquement sur les utilisateurs. Les laboratoires d'IA doivent surveiller l'usage de leurs outils et mettre en place des garde-fous. Les plateformes sociales, de leur côté, pourraient mieux encadrer le scraping massif de données qui rend de telles analyses possibles. La vie privée n'est pas morte. Mais elle mérite, plus que jamais, qu'on la défende activement.


Commentaires