Un développeur a mis au point un outil capable de supprimer la censure intégrée dans les modèles d’intelligence artificielle en une simple commande. Baptisé Heretic, ce logiciel automatise le processus d’« ablitération », une technique qui consiste à neutraliser la « direction de refus » dans les poids du réseau de neurones. L’objectif est d’obtenir un modèle qui ne répond plus « désolé, je ne peux pas vous aider » aux requêtes sensibles, tout en conservant au maximum ses capacités d’origine.
Concrètement, l’utilisateur installe le paquet Python via pip install heretic-llm, puis lance la commande heretic suivie du nom du modèle cible. L’outil se charge de tout : en vingt à trente minutes sur une carte graphique grand public, il analyse le modèle, identifie la direction neuronale responsable des refus et l’élimine. Aucun jeu de données ni connaissance approfondie de l’architecture transformeur n’est nécessaire.
Des performances nettement supérieures aux méthodes manuelles
Les tests menés par l’auteur sur le modèle Gemma-3-12B de Google illustrent l’efficacité de la méthode. Sans modification, ce modèle refuse 97 fois sur 100 les prompts sensibles d’un ensemble de référence. Après un passage par Heretic, le taux de refus tombe à 3 sur 100, soit un niveau équivalent à celui des meilleures ablitérations manuelles. Mais l’avantage principal réside dans la « divergence » du modèle, une mesure qui compare le comportement sur des questions normales avant et après l’opération. Heretic affiche une divergence de 0,16, alors que les nettoyages manuels oscillent entre 0,45 et 1,04. Cela signifie que l’outil automatique préserve beaucoup mieux l’intégrité du modèle d’origine.
Cette automatisation est rendue possible par l’intégration du framework d’optimisation Optuna, qui teste des dizaines de configurations et retient les meilleures sans intervention humaine. L’objectif unique de l’optimisation est de maximiser la suppression des refus tout en minimisant l’altération du modèle.
Limites et contre-mesures en développement
Tous les modèles ne se prêtent pas aussi facilement à cette technique. Les plus gros nécessitent davantage de mémoire vidéo (VRAM) et le traitement peut prendre plusieurs heures. Une étude comparative récente a par ailleurs montré que le raisonnement mathématique est le domaine qui souffre le plus de l’ablitération, quel que soit l’outil employé.
Par ailleurs, des chercheurs travaillent déjà sur des mécanismes de défense visant à rendre les modèles résistants à ce type d’attaque. L’équilibre entre sécurité et ouverture des modèles de langage reste un sujet de débat actif, et Heretic illustre la facilité avec laquelle les garde-fous peuvent être contournés.