Selon une nouvelle recherche du Centre pour la technologie et la société de l’Anti-Defamation League (ADL), les modèles d’intelligence artificielle open-source présentent de graves failles de sécurité qui les rendent facilement exploitables pour diffuser des discours de haine, notamment antisémites.
Les chercheurs de l’ADL ont testé 17 modèles d’IA largement utilisés, dont Gemma-3 de Google, Phi-4 de Microsoft et Llama 3 de Meta, à l’aide de requêtes volontairement sensibles. Le résultat est sans appel : dans 44 % des cas, ces IA ont fourni des réponses dangereuses, telles que des adresses de synagogues et de magasins d’armes, sans la moindre alerte de sécurité. Aucun des modèles testés n’a su reconnaître ni refuser des propos basés sur des clichés antisémites historiques. Pire, 14 % des réponses ont généré du contenu niant la Shoah.
Le rapport révèle aussi que 68 % des réponses à des requêtes sur les « ghost guns » — armes artisanales non traçables — contenaient des informations pouvant être utilisées à des fins illégales. Ce chiffre fait écho à plusieurs arrestations récentes aux États-Unis de personnes planifiant des attaques antisémites à l’aide de telles armes.
Sur l’« indice de garde-fous » mis au point par les chercheurs, Microsoft Phi-4 obtient le meilleur score (84/100), tandis que Google Gemma-3 se retrouve en bas du classement (57/100).
Pour Jonathan Greenblatt, directeur général de l’ADL, « la facilité avec laquelle ces modèles peuvent être manipulés pour générer des contenus antisémites expose une vulnérabilité critique de l’écosystème de l’intelligence artificielle ». Il appelle à une action conjointe des entreprises technologiques et des gouvernements pour prévenir ces dérives.