Die Forscher haben einen Weg gefunden, die Leitplanken von GPT4 und GPT4-Turbo zu überlisten, sodass sie schädliche und toxische Inhalte erzeugen können, indem sie ein großes Sprachmodell durch ein anderes großes Sprachmodell schlagen.
Die Forscher fanden heraus, dass die Verwendung von Thought-Tree-Reasoning (ToT) zur Wiederholung und Verfeinerung einer Angriffslinie nützlich war, um ein anderes großes Sprachmuster zu überlisten.
Sie stellten fest, dass der ToT-Ansatz gegen GPT4, GPT4-Turbo und PaLM-2 wirksam war, da er eine bemerkenswert geringe Anzahl von Anfragen benötigte, um einen Jailbreak zu erhalten - im Durchschnitt weniger als dreißig Anfragen.
Denken in Gedankenbäumen
Ein Google-Suchartikel von etwa Mai 2022 entdeckte Gedankenkette.
Die Gedankenkette (CoT) ist eine Anreizstrategie, die bei einer generativen KI eingesetzt wird, um sie dazu zu bringen, eine Abfolge von Schritten zu durchlaufen, um ein Problem zu lösen und eine Aufgabe zu erfüllen. Die CoT-Methode wird häufig von Beispielen begleitet, um dem LLM zu zeigen, wie die Schritte in einer Denkaufgabe funktionieren.
Anstatt also eine generative KI wie Midjourney oder ChatGPT einfach zu bitten, eine Aufgabe auszuführen, sagt die Gedankenkettenmethode der KI, wie sie einem Denkpfad folgen soll, der aus einer Reihe von Schritten besteht.
Thought Tree Thinking (ToT), manchmal auch als Gedankenbaum (Singular) bezeichnet, ist im Wesentlichen eine Variante und Verbesserung der CoT-Methode, aber es sind zwei verschiedene Dinge.
Das Denken in Gedankenbäumen ist dem CoT ähnlich. Der Unterschied besteht darin, dass eine generative KI nicht darauf trainiert wird, einen einzigen Denkweg einzuschlagen, sondern dass ToT auf einem Prozess aufgebaut ist, der mehrere Wege zulässt, damit die KI innehalten und sich selbst bewerten und dann alternative Schritte vorschlagen kann.
Das Gedankenbaum-Schlussfolgern wurde im Mai 2023 in einem Forschungspapier mit dem Titel Tree of Thoughts: Deliberate Problem Solving with Large Language Models entwickelt (PDF)
Das Forschungsdokument beschreibt Tree of Thought :
"...stellen wir einen neuen Rahmen für die Inferenz von Sprachmodellen vor, den Gedankenbaum (ToT), der den populären Gedankenkettenansatz für die Inferenz von Sprachmodellen verallgemeinert und die Erforschung kohärenter Texteinheiten (Gedanken) ermöglicht, die als Zwischenschritte auf dem Weg zur Problemlösung dienen.
ToT ermöglicht es LM, bewusste Entscheidungen zu treffen, indem sie mehrere verschiedene Denkwege in Betracht ziehen und die Wahlmöglichkeiten selbst bewerten, um über den nächsten Aktionsplan zu entscheiden, sowie nach vorne oder zurück zu blicken, wenn dies für globale Entscheidungen erforderlich ist.
Unsere Erfahrungen zeigen, dass ToT die Problemlösungsfähigkeiten von Sprachmodellen erheblich verbessert...".
Angriffsbaum mit Beschneidung (TAP)
Diese neue Methode, große Sprachmuster zu knacken, heißt Tree of Attacks with Pruning, kurz TAP. TAP verwendet zwei LLMs, eine für den Angriff und eine für die Bewertung.
TAP ist in der Lage, andere Jailbreaking-Methoden um signifikante Margen zu übertreffen, wobei nur ein Blackbox-Zugang zum LLM erforderlich ist.
In der Informatik ist eine Blackbox ein Kasten, in dem man sehen kann, was in einen Algorithmus hineingeht und was herauskommt. Was in der Mitte passiert, ist jedoch unbekannt, weshalb man sagt, dass es sich in einer Blackbox befindet.
Thought Tree Reasoning (TAP) wird gegen eine gezielte LLM wie GPT-4 eingesetzt, um wiederholt verschiedene Aufforderungen auszuprobieren, die Ergebnisse zu bewerten und dann ggf. den Kurs zu ändern, wenn dieser Versuch nicht erfolgversprechend ist.
Dies nennt man einen Prozess der Iteration und des Stutzens. Jeder Anreizversuch wird auf seine Erfolgswahrscheinlichkeit hin analysiert. Wenn der Angriffspfad als Sackgasse eingestuft wird, wird die LLM diesen Angriffspfad "stutzen" und eine neue und bessere Serie von Incentive-Angriffen starten.
Aus diesem Grund spricht man von ". Baum"Denn anstatt einen linearen Denkprozess zu verwenden, der das Markenzeichen der Gedankenkette (CoT) ist, ist der Gedankenbaum nichtlinear, weil sich der Denkprozess in andere Denkbereiche verzweigt, ähnlich wie es ein Mensch tun würde.
Der Angreifer gibt eine Reihe von Aufforderungen aus, der Beurteiler wertet die Antworten auf diese Aufforderungen aus und trifft dann eine Entscheidung über den nächsten Angriffsweg, indem er feststellt, ob der aktuelle Angriffsweg irrelevant ist oder nicht, und er wertet die Ergebnisse auch aus, um den wahrscheinlichen Erfolg von Aufforderungen zu bestimmen, die noch nicht ausprobiert worden sind.
Das Bemerkenswerte an diesem Ansatz ist, dass dieses Verfahren die Anzahl der für den Jailbreak von GPT-4 erforderlichen Prompts reduziert. Außerdem werden mit TAP mehr Jailbreak-Prompts entdeckt als mit jeder anderen Jailbreak-Methode.
Forscher beobachten:
"In dieser Arbeit stellen wir Tree of Attacks with Pruning (TAP) vor, eine automatisierte Methode zur Erzeugung von Jailbreaks, die nur einen Blackbox-Zugang zum Ziel-LLM erfordert.
TAP verwendet eine LLM, um die Kandidatenaufforderungen (Angriffe) iterativ mithilfe eines Gedankenbaumverfahrens zu verfeinern, bis eine der erzeugten Aufforderungen das Ziel durchbricht.
Bevor sie an das Ziel gesendet werden, bewertet TAP die Leitnachrichten und eliminiert diejenigen, bei denen nicht davon auszugehen ist, dass sie zum Hacken des Gefängnisses führen.
Durch die Verwendung des Denkbaumverfahrens kann TAP in einem großen Suchraum nach Eingabeaufforderungen navigieren, und durch die Beschneidung wird die Gesamtzahl der an das Ziel gesendeten Anfragen reduziert.
In empirischen Bewertungen beobachten wir, dass TAP Aufforderungen generiert, die Spitzen-LLMs (einschließlich GPT4 und GPT4-Turbo) für mehr als 80 % Aufforderungen mit nur einer kleinen Anzahl von Abfragen brechen. Dies verbessert die bisherige Spitzen-Blackbox-Methode zur Generierung von Jailbreaks erheblich".
Der Gedankenbaum (ToT) übertrifft das Denken in Gedankenketten (CoT)
Eine weitere interessante Schlussfolgerung des Forschungsartikels ist, dass bei dieser speziellen Aufgabe das Denken mit Gedankenbäumen besser abschneidet als das Denken mit Gedankenketten, selbst wenn man bei der Gedankenkettenmethode einen Beschnitt hinzufügt, bei dem themenfremde Beiträge beschnitten und aussortiert werden.
ToT underperformt mit GPT 3.5 Turbo
Die Forscher fanden heraus, dass ChatGPT 3.5 Turbo nicht gut mit CoT funktionierte und offenbarten damit die Grenzen von GPT 3.5 Turbo. Tatsächlich erzielte GPT 3.5 extrem schlechte Ergebnisse und fiel von einer Erfolgsquote von 84 % auf nur 4,2 %.
Hier ist ihre Beobachtung zu den Gründen für die Underperformance von GPT 3.5 :
"Wir beobachten, dass die Wahl des Prüfers die Leistung von TAP beeinflussen kann: Der Wechsel des Angreifers von GPT4 zu GPT3.5-Turbo reduziert die Erfolgsrate von 84 % auf 4,2 %.
Der Grund für die geringere Erfolgsquote ist, dass GPT3.5-Turbo fälschlicherweise feststellt, dass das Zielmodell gejailbreakt ist (für den bereitgestellten Zweck), und die Methode daher präemptiv beendet.
Infolgedessen sendet die Variante viel weniger Anfragen als die ursprüngliche Methode...".
Was das für Sie bedeutet
Es ist zwar amüsant, dass die Forscher die ToT-Methode verwenden, um einen LLM mit einem anderen LLM zu schlagen, aber es unterstreicht auch die Nützlichkeit von ToT, um überraschende neue Richtungen für Anreize zu generieren, um höhere Leistungsniveaus zu erreichen.
- Zu beachten:
- Die Methode des Gedankenbaums ist besser als die der Gedankenkette.
- GPT 3.5 lieferte bei der ToT deutlich schlechtere Ergebnisse als GPT 4.
- Das Beschneiden von Bäumen ist ein nützliches Element einer Anreizstrategie.
- Die Forschung hat gezeigt, dass ToT bei einer schlussfolgernden, intensiven Aufgabe wie dem Jailbreaking eines LLMs besser ist als CoT.
Lesen Sie den Original-Forschungsartikel :
Angriffsbaum: Jailbreaking Black-Box LLMs Automatically (PDF)
Dieses Bild wurde präsentiert von Shutterstock/THE.STUDIO