Hunches and gut feelings. Dreams in waking life.
I organize the Eurovision Song Contest, but exclusive to Lemmy, it's called Lemmyvision !
Hunches and gut feelings. Dreams in waking life.
I organize the Eurovision Song Contest, but exclusive to Lemmy, it's called Lemmyvision !
En Anglais : Les LLM peuvent démasquer les utilisateurs sous pseudonymes, à grande échelle, avec une précision surprenante
Takeaways from Steam Next Fest : February '26 from a player perspective
Takeaways from Steam Next Fest : February '26 from a player perspective
Les dates des Nouvel An lunaire, Carême, et Ramadan coïncident pour la première fois depuis 1863
«QuitGPT» : un mouvement de boycott du géant de l’intelligence artificielle ChatGPT, dont le cofondateur soutient Donald Trump
Vingt ans après, la Tecktonik fait son retour grâce à TikTok
More games like Road 96?
Copyright : NVIDIA a contacté Anna’s Archive pour entrainer ses IA sur des millions de livres
Germany and France clash over buying US arms with €90B loan to Ukraine
Steam Machine Verified requirements will have 'fewer constraints' than Steam Deck, says Valve
Skill Up - The best games you (might have) missed in 2025
Le ministère de la Culture relaie une « hallucination » générée par IA - Next
Rainbow Six Siege Betrayal: Five Hacker Groups and Bribed Ubisoft Staff Spark $339 Trillion Crisis
French Torrent Giant YggTorrent Faces User Revolt after Introducing Paid 'Turbo Mode'
What game recently hooked you on the Deck, more than on PC ?
gumarulesi
Riot Plans Major League Of Legends Overhaul With "League Next" For 2027
No Games For Genocide
Steam Replay 2025 is now live
Every reveal, trailer, and announcement from The Game Awards 2025
Les papiers dont il est question dans l'article :
Article de Dan Goodin pour Arstechnica, la traduction ci dessous:
Les comptes anonymes sur les réseaux sociaux peuvent être analysés pour identifier les utilisateurs qui y publient, grâce à l'intelligence artificielle. Cette recherche a des conséquences importantes pour la protection de la vie privée sur Internet, selon des chercheurs.
Cette découverte, issue d'une étude récemment publiée, repose sur les résultats d'expériences corrélant des individus spécifiques à des comptes ou des publications sur plusieurs plateformes de médias sociaux. Le taux de réussite est bien supérieur aux méthodes classiques de désanonymisation, qui s'appuient sur la constitution de bases de données structurées par des humains, adaptées à la mise en correspondance algorithmique, ou sur le travail manuel d'enquêteurs spécialisés. Le "taux de rappel" (c'est-à-dire le nombre d'utilisateurs désanonymisés avec succès) atteint 68 %. La "précision" (le taux d'identification correcte de l'utilisateur) atteint quant à elle 90 %.
Ces résultats pourraient bouleverser le concept de pseudonymat, une mesure de protection de la vie privée imparfaite mais souvent suffisante, utilisée par de nombreuses personnes pour poser des questions et participer à des discussions publiques parfois sensibles, tout en rendant difficile l'identification formelle des intervenants. La possibilité d'identifier rapidement et à moindre coût les personnes derrière ces comptes masqués les expose au doxxing, au harcèlement et à la constitution de profils marketing détaillés permettant de suivre leur lieu de résidence, leur profession et d'autres informations personnelles. Le pseudonymat ne suffit plus.
« Nos résultats ont des implications importantes pour la protection de la vie privée en ligne », écrivent les chercheurs. « L'utilisateur moyen a longtemps fonctionné selon un modèle de menace implicite, supposant que le pseudonymat offrait une protection adéquate car une désanonymisation ciblée exigerait des efforts considérables. Les modèles de langage (LLM) invalident cette hypothèse. »
Les chercheurs ont collecté plusieurs ensembles de données provenant de réseaux sociaux publics afin de tester les techniques tout en préservant la confidentialité des utilisateurs. L'un d'eux a collecté des publications de Hacker News et de profils LinkedIn, puis les a reliées grâce à des références interplateformes présentes dans les profils. Ils ont ensuite supprimé toutes les références permettant d'identifier les utilisateurs des publications et ont appliqué un modèle de langage de grande envergure. Un deuxième ensemble de données a été obtenu à partir d'une publication de Netflix contenant des micro-identités, telles que les préférences individuelles, les recommandations et les historiques de transactions. Une étude de 2008 a démontré qu'en utilisant une technique désormais connue sous le nom d' "attaque du prix Netflix", il était possible d'identifier les utilisateurs, leurs affiliations politiques et d'autres informations personnelles. Cette dernière technique consistait notamment à fragmenter l'historique Reddit d'un utilisateur.
« Nous avons constaté que ces agents d'IA sont capables de réaliser une tâche auparavant très complexe : à partir d'un texte libre (comme la transcription anonymisée d'un entretien), ils peuvent reconstituer l'identité complète d'une personne », a déclaré Simon Lermen, co-auteur de l'étude, à Ars. « Il s'agit d'une capacité relativement nouvelle ; les approches précédentes de réidentification nécessitaient généralement des données structurées et deux ensembles de données présentant un schéma similaire et pouvant être liés.»
Contrairement aux anciennes méthodes de suppression de pseudonymisation, explique Lermen, les agents d'IA peuvent naviguer sur le web et interagir avec lui de manière très similaire aux humains. Ils peuvent utiliser un raisonnement simulé pour identifier des individus potentiels. Dans une expérience, les chercheurs ont analysé les réponses à un questionnaire administré par Anthropic sur l'utilisation de l'IA au quotidien. Grâce aux informations recueillies dans les réponses, les chercheurs ont pu identifier avec certitude 7 % des 125 participants.
Dans une seconde expérience, les chercheurs ont collecté des commentaires publiés en 2024 sur le subreddit r/movies et sur au moins une des cinq communautés plus restreintes suivantes : r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm et r/MovieDetails. Les résultats ont montré que plus une personne était mentionnée dans les discussions sur les films, plus il était facile de l'identifier. En moyenne, 3,1 % des utilisateurs ayant partagé un film ont pu être identifiés avec une précision de 90 %, et 1,2 % d'entre eux avec une précision de 99 %. Avec cinq à neuf films partagés, la précision de 90 % et 99 % a atteint respectivement 8,4 % et 2,5 % des utilisateurs. Au-delà de 10 films partagés, ce pourcentage a grimpé à 48,1 % et 17 %.
Dans une troisième expérience, les chercheurs ont utilisé un ensemble de 5 000 utilisateurs de Reddit. Ils ont ajouté 5 000 identités « de distraction » d'utilisateurs de Reddit à la base de candidats. Ils ont comparé leur méthode à l'ancienne technique d'attaque par prix Netflix. Ils ont ensuite ajouté à la liste de 10 000 profils candidats 5 000 profils de distraction, composés d'utilisateurs apparaissant uniquement dans un ensemble de requêtes, sans correspondance réelle dans la base de candidats.
Comparée à une méthode de référence classique imitant l'attaque par prix Netflix pour la désanonymisation LLM, cette dernière a largement surpassé la première.
Les chercheurs ont écrit :
Les résultats montrent que les LLM, bien que toujours sujets aux faux positifs et à d'autres faiblesses, surpassent rapidement les méthodes traditionnelles, plus gourmandes en ressources, d'identification des utilisateurs en ligne.
Les chercheurs ont ensuite proposé des solutions, notamment l'imposition par les plateformes de limites de débit pour l'accès aux données utilisateur via l'API, la détection du web scraping automatisé et la restriction des exportations de données en masse. Les fournisseurs de LLM pourraient également surveiller l'utilisation abusive de leurs modèles dans les attaques de désanonymisation et mettre en place des garde-fous empêchant les modèles de répondre aux demandes de désanonymisation.
Bien sûr, une autre option consiste à réduire drastiquement l'utilisation des réseaux sociaux, ou à tout le moins, à supprimer régulièrement les publications après un certain délai.
Si les techniques de désanonymisation des utilisateurs par les LLM (Layer Linked Models) progressent, préviennent les chercheurs, les gouvernements pourraient les utiliser pour démasquer les critiques en ligne, les entreprises pourraient constituer des profils clients à des fins de publicité ultra-ciblée et les attaquants pourraient créer des profils de cibles à grande échelle afin de lancer des escroqueries par ingénierie sociale hautement personnalisées.
« Les récents progrès des LLM ont mis en évidence l'urgence de repenser divers aspects de la sécurité informatique face aux capacités offensives de cybersécurité permises par ces technologies », ont averti les chercheurs. « Nos travaux indiquent que cela vaut probablement aussi pour la protection de la vie privée. »