Los investigadores han descubierto una forma de eludir las salvaguardas de GPT4 y GPT4-Turbo, lo que les permite generar contenidos nocivos y tóxicos superando un gran modelo lingüístico con otro gran modelo lingüístico.
Los investigadores descubrieron que utilizar el razonamiento del árbol del pensamiento (ToT) para repetir y refinar una línea de ataque era útil para frustrar otro gran modelo lingüístico.
Descubrieron que el enfoque ToT era eficaz contra GPT4, GPT4-Turbo y PaLM-2, utilizando un número notablemente bajo de peticiones para obtener una fuga, de media menos de treinta peticiones.
Árbol de razonamiento
Un artículo de investigación de Google de alrededor de mayo de 2022 encontró que Cadena de pensamiento.
La Cadena de Pensamiento (CoT) es una estrategia de incentivación utilizada en IA generativa para hacer que siga una secuencia de pasos con el fin de resolver un problema y completar una tarea. El método CoT suele ir acompañado de ejemplos para mostrar al LLM cómo funcionan los pasos en una tarea de razonamiento.
Así, en lugar de pedir simplemente a una IA generativa como Midjourney o ChatGPT que realice una tarea, el método de la cadena de pensamiento indica a la IA cómo seguir una ruta de razonamiento compuesta por una serie de pasos.
El razonamiento del árbol pensante (ToT), a veces llamado árbol pensante (singular), es esencialmente una variante y mejora del método CoT, pero son dos cosas diferentes.
El razonamiento en árbol es similar al CoT. La diferencia es que en lugar de entrenar a una IA generativa para que siga un único camino de razonamiento, ToT se basa en un proceso que permite múltiples caminos para que la IA pueda detenerse y autoevaluarse, y luego proponer pasos alternativos.
El razonamiento de árbol de pensamientos se desarrolló en mayo de 2023 en un trabajo de investigación titulado Tree of Thoughts: Deliberate Problem Solving with Large Language Models (PDF)
El documento de investigación describe Tree of Thought:
"...presentamos un nuevo marco para la inferencia de modelos lingüísticos, el Árbol de Pensamientos (ToT), que generaliza el popular enfoque de la cadena de pensamientos para la elicitación de modelos lingüísticos, y permite la exploración de unidades coherentes de texto (pensamientos) que sirven como pasos intermedios hacia la resolución de problemas.
ToT permite a los LM tomar decisiones deliberadas considerando varias líneas de razonamiento diferentes y autoevaluando las opciones para decidir el siguiente curso de acción, así como mirar hacia delante o hacia atrás cuando sea necesario para tomar decisiones globales.
Nuestros experimentos demuestran que ToT mejora considerablemente la capacidad de resolución de problemas de los modelos lingüísticos...".
Árbol de ataque con poda (TAP)
Este nuevo método para romper grandes modelos lingüísticos se denomina Árbol de Ataques con Poda (TAP). TAP utiliza dos LLM, uno para el ataque y otro para la evaluación.
TAP es capaz de superar a otros métodos de jailbreaking por márgenes significativos, requiriendo sólo acceso black-box a la LLM.
En informática, una caja negra es una caja en la que se puede ver lo que entra en un algoritmo y lo que sale. Pero lo que ocurre en el medio se desconoce, por eso se llama caja negra.
El razonamiento de árbol de pensamiento (TAP) se utiliza con un LLM específico como GPT-4 para probar repetidamente diferentes indicaciones, evaluar los resultados y, si es necesario, cambiar de rumbo si el intento no es prometedor.
Esto se conoce como un proceso de iteración y poda. Cada intento de incitación se analiza en función de su probabilidad de éxito. Si se considera que la ruta de ataque es un callejón sin salida, el LLM "podará" esa ruta de ataque y comenzará una nueva y mejor serie de ataques de incitación.
Por eso hablamos de " árbol"De hecho, en lugar de utilizar un proceso de razonamiento lineal que es el sello distintivo de la cadena de pensamiento (CoT), el árbol del pensamiento no es lineal porque el proceso de razonamiento se ramifica en otras áreas de razonamiento, de forma muy parecida a como lo haría un ser humano.
El atacante emite una serie de indicaciones, el evaluador evalúa las respuestas a estas indicaciones y luego toma una decisión sobre la siguiente ruta de ataque determinando si la ruta de ataque actual es irrelevante o no, y también evalúa los resultados para determinar el éxito probable de las indicaciones que aún no se han intentado.
Lo destacable de este método es que reduce el número de prompts necesarios para hacer jailbreak a GPT-4. Además, se descubren más prompts de jailbreak con TAP que con cualquier otro método de jailbreak.
Los investigadores observan:
"En este trabajo, presentamos Tree of Attacks with Pruning (TAP), un método automatizado para generar jailbreaks que sólo requiere acceso black-box al LLM objetivo.
TAP utiliza un LLM para refinar de forma iterativa las propuestas candidatas (ataques) utilizando el razonamiento de árbol de pensamiento hasta que una de las propuestas generadas rompe el objetivo.
Antes de enviar las indicaciones al objetivo, TAP las evalúa y elimina las que tienen pocas probabilidades de conducir al pirateo de la prisión.
El uso del razonamiento de árbol de pensamiento permite a TAP navegar por un gran espacio de búsqueda de consultas y la poda reduce el número total de consultas enviadas al objetivo.
En evaluaciones empíricas, observamos que TAP genera prompts que rompen LLMs del estado del arte (incluyendo GPT4 y GPT4-Turbo) para más de 80 prompts % usando sólo un pequeño número de consultas. Esto mejora significativamente el anterior método black-box del estado del arte para generar jailbreaks."
El árbol del pensamiento (ToT) supera al razonamiento en cadena (CoT)
Otro hallazgo interesante del trabajo de investigación es que, para esta tarea concreta, el razonamiento en árbol supera al razonamiento en cadena, incluso cuando se añade la poda al método en cadena, en el que los mensajes fuera de tema se podan y descartan.
ToT rinde menos con GPT 3.5 Turbo
Los investigadores descubrieron que ChatGPT 3.5 Turbo no funcionaba bien con CoT, lo que revelaba las limitaciones de GPT 3.5 Turbo. De hecho, GPT 3.5 funcionó muy mal, pasando de una tasa de éxito de 84 % a solo 4,2 %.
He aquí sus observaciones sobre las razones del bajo rendimiento de GPT 3.5:
"Observamos que la elección del evaluador puede afectar al rendimiento de TAP: cambiar el atacante de GPT4 a GPT3.5-Turbo reduce la tasa de éxito de 84 % a 4,2 %.
La razón de la reducida tasa de éxito es que GPT3.5-Turbo determina incorrectamente que el modelo de destino está jailbroken (para el propósito previsto) y por lo tanto detiene preventivamente el método.
Como resultado, la variante envía muchas menos peticiones que el método original...".
Lo que esto significa para usted
Aunque resulta divertido que los investigadores utilicen el método TdT para vencer a un LLM con otro LLM, también pone de relieve la utilidad de TdT para generar nuevas y sorprendentes direcciones de incentivos para alcanzar mayores niveles de rendimiento.
- Para recordar:
- El método del árbol del pensamiento es más eficaz que el método de la cadena del pensamiento.
- GPT 3.5 produjo resultados significativamente peores que GPT 4 para ToT.
- La poda es una parte útil de una estrategia de incentivos.
- La investigación ha demostrado que ToT es superior a CoT en una tarea de razonamiento intensivo como el jailbreaking LLM.
Lea el artículo de investigación original :
Árbol de ataque : Jailbreaking Black-Box LLMs Automatically (PDF)
Imagen cortesía de Shutterstock/THE.STUDIO