Les chercheurs ont découvert un moyen de déjouer les garde-fous de GPT4 et GPT4-Turbo, ce qui leur permet de générer des contenus nocifs et toxiques, en battant un grand modèle de langage par un autre grand modèle de langage.
Les chercheurs ont découvert que l’utilisation du raisonnement par arbre de pensée (ToT) pour répéter et affiner une ligne d’attaque était utile pour déjouer un autre grand modèle de langage.
Ils ont constaté que l’approche ToT était efficace contre GPT4, GPT4-Turbo et PaLM-2, en utilisant un nombre remarquablement bas de requêtes pour obtenir un jailbreak, en moyenne moins de trente requêtes.
Raisonnement par arbre de pensée
Un article de recherche de Google datant d’environ mai 2022 a découvert Chaîne de pensée.
La chaîne de pensée (CoT) est une stratégie d’incitation utilisée sur une IA générative pour lui faire suivre une séquence d’étapes afin de résoudre un problème et d’accomplir une tâche. La méthode CoT est souvent accompagnée d’exemples pour montrer au LLM comment les étapes fonctionnent dans une tâche de raisonnement.
Ainsi, plutôt que de simplement demander à une IA générative comme Midjourney ou ChatGPT d’effectuer une tâche, la méthode de la chaîne de pensée indique à l’IA comment suivre un chemin de raisonnement composé d’une série d’étapes.
Le raisonnement par arbre de pensée (ToT), parfois appelé arbre de pensée (au singulier), est essentiellement une variante et une amélioration de la méthode CoT, mais il s’agit de deux choses différentes.
Le raisonnement par arbre de pensée est similaire au CoT. La différence réside dans le fait qu’au lieu d’entraîner une IA générative à suivre une seule voie de raisonnement, la ToT est construite sur un processus qui permet des voies multiples afin que l’IA puisse s’arrêter et s’auto-évaluer, puis proposer des étapes alternatives.
Le raisonnement par arbre de pensées a été développé en mai 2023 dans un document de recherche intitulé Tree of Thoughts : Deliberate Problem Solving with Large Language Models (PDF)
Le document de recherche décrit Tree of Thought :
« …nous présentons un nouveau cadre pour l’inférence des modèles de langage, l’arbre des pensées (ToT), qui généralise l’approche populaire de la chaîne de pensée pour l’incitation des modèles de langage, et permet l’exploration d’unités cohérentes de texte (pensées) qui servent d’étapes intermédiaires vers la résolution de problèmes.
ToT permet aux LM de prendre des décisions délibérées en envisageant plusieurs voies de raisonnement différentes et en auto-évaluant les choix pour décider du plan d’action suivant, ainsi qu’en regardant vers l’avant ou en revenant en arrière lorsque cela est nécessaire pour faire des choix globaux.
Nos expériences montrent que la ToT améliore considérablement les capacités de résolution de problèmes des modèles de langage… »
Arbre d’attaques avec élagage (TAP)
Cette nouvelle méthode pour casser les grands modèles de langage s’appelle Tree of Attacks with Pruning, TAP (arbre d’attaques avec élagage). TAP utilise deux LLM, l’un pour l’attaque et l’autre pour l’évaluation.
TAP est capable de surpasser les autres méthodes de jailbreaking par des marges significatives, ne nécessitant qu’un accès boîte noire au LLM.
En informatique, une boîte noire est une boîte dans laquelle on peut voir ce qui entre dans un algorithme et ce qui en sort. Mais ce qui se passe au milieu est inconnu, c’est pourquoi on dit qu’il se trouve dans une boîte noire.
Le raisonnement par arbre de pensées (TAP) est utilisé contre un LLM ciblé comme le GPT-4 pour essayer de manière répétitive différentes invites, évaluer les résultats, puis, si nécessaire, changer de cap si cette tentative n’est pas prometteuse.
C’est ce qu’on appelle un processus d’itération et d’élagage. Chaque tentative d’incitation est analysée en fonction de sa probabilité de réussite. Si le chemin d’attaque est considéré comme une impasse, le LLM « élaguera » ce chemin d’attaque et commencera une nouvelle et meilleure série d’attaques par incitation.
C’est la raison pour laquelle on parle de « arbre« En effet, au lieu d’utiliser un processus de raisonnement linéaire qui est la marque de fabrique de la chaîne de pensée (CoT), l’arbre de pensée est non linéaire parce que le processus de raisonnement se ramifie vers d’autres domaines de raisonnement, un peu comme le ferait un être humain.
L’attaquant émet une série d’invites, l’évaluateur évalue les réponses à ces invites et prend ensuite une décision quant à la prochaine voie d’attaque en déterminant si la voie d’attaque actuelle n’est pas pertinente ou non, et il évalue également les résultats pour déterminer le succès probable des invites qui n’ont pas encore été essayées.
Ce qui est remarquable dans cette approche, c’est que ce processus réduit le nombre d’invites nécessaires pour jailbreaker GPT-4. De plus, un plus grand nombre d’invites de jailbreak sont découvertes avec TAP qu’avec n’importe quelle autre méthode de jailbreak.
Les chercheurs observent :
« Dans ce travail, nous présentons Tree of Attacks with Pruning (TAP), une méthode automatisée pour générer des jailbreaks qui ne nécessite qu’un accès boîte noire au LLM cible.
TAP utilise un LLM pour affiner itérativement les invites candidates (attaques) en utilisant un raisonnement par arbre de pensée jusqu’à ce que l’une des invites générées casse la cible.
Avant d’envoyer les messages-guides à la cible, la TAP les évalue et élimine ceux qui ne sont pas susceptibles d’entraîner un piratage de la prison.
L’utilisation du raisonnement par arbre de pensée permet à TAP de naviguer dans un vaste espace de recherche d’invites et l’élagage réduit le nombre total de requêtes envoyées à la cible.
Dans les évaluations empiriques, nous observons que TAP génère des invites qui brisent les LLM de pointe (y compris GPT4 et GPT4-Turbo) pour plus de 80 % des invites en utilisant seulement un petit nombre de requêtes. Cela améliore considérablement la méthode de boîte noire de pointe précédente pour générer des jailbreaks ».
L’arbre de pensée (ToT) surpasse le raisonnement en chaîne de pensée (CoT)
Une autre conclusion intéressante de l’article de recherche est que, pour cette tâche particulière, le raisonnement par arbre de pensée est plus performant que le raisonnement par chaîne de pensée, même si l’on ajoute un élagage à la méthode de la chaîne de pensée, dans laquelle les messages hors sujet sont élagués et écartés.
ToT sous-performe avec GPT 3.5 Turbo
Les chercheurs ont découvert que ChatGPT 3.5 Turbo ne fonctionnait pas bien avec CoT, révélant ainsi les limites de GPT 3.5 Turbo. En fait, GPT 3.5 a obtenu des résultats extrêmement médiocres, passant d’un taux de réussite de 84 % à seulement 4,2 %.
Voici leur observation sur les raisons de la sous-performance de GPT 3.5 :
« Nous observons que le choix de l’évaluateur peut affecter les performances de TAP : le passage de l’attaquant de GPT4 à GPT3.5-Turbo réduit le taux de réussite de 84 % à 4,2 %.
La raison de la réduction du taux de réussite est que GPT3.5-Turbo détermine de manière incorrecte que le modèle cible est jailbreaké (pour l’objectif fourni) et, par conséquent, arrête la méthode de manière préemptive.
En conséquence, la variante envoie beaucoup moins de requêtes que la méthode originale… »
Ce que cela signifie pour vous
S’il est amusant que les chercheurs utilisent la méthode de la ToT pour battre un LLM avec un autre LLM, cela souligne également l’utilité de la ToT pour générer de nouvelles directions surprenantes en matière d’incitation afin d’atteindre des niveaux de rendement plus élevés.
- A retenir :
- La méthode de l’arbre de pensée est plus performante que celle de la chaîne de pensée.
- GPT 3.5 a donné des résultats nettement inférieurs à ceux de GPT 4 dans le cadre de la ToT.
- L’élagage est un élément utile d’une stratégie d’incitation.
- La recherche a montré que ToT est supérieur à CoT dans une tâche de raisonnement intensif comme le jailbreaking d’un LLM.
Lire l’article de recherche original :
Arbre d’attaques : Jailbreaking Black-Box LLMs Automatically (PDF)
Image présentée par Shutterstock/THE.STUDIO