DeepMind, de Google, ha publicado un trabajo de investigación en el que propone una forma de entrenar grandes modelos lingüísticos para que proporcionen respuestas más fiables y resistan el pirateo de recompensas, un paso hacia el desarrollo de sistemas de IA más adaptables y eficientes.
Me quito el sombrero ante @EthanLazuk para tuitea sobre un nuevo documento de investigación de Google DeepMind.
La IA tiende a recompensar la piratería
El aprendizaje por refuerzo a partir de comentarios humanos (RLHF) es un método utilizado para entrenar a la IA generativa para que dé respuestas que reciban valoraciones positivas de los revisores humanos. Las valoraciones positivas son una recompensa por las respuestas correctas, por lo que esta técnica se denomina aprendizaje por refuerzo. Las valoraciones positivas son otorgadas por los evaluadores humanos, por lo que se denomina aprendizaje por refuerzo a partir de comentarios humanos.
El aprendizaje por refuerzo es muy eficaz, pero tiene un efecto secundario no deseado: la IA aprende a tomar atajos al recibir una recompensa positiva. En lugar de dar una respuesta correcta, da una respuesta que parece correcta y cuando engaña a los evaluadores humanos (lo que es un fallo del aprendizaje por refuerzo), la IA empieza a mejorar su capacidad de engañar a los evaluadores humanos con respuestas inexactas para recibir las recompensas (las evaluaciones positivas de los humanos).
Esta tendencia de la IA a "hacer trampas" para obtener la recompensa del entrenamiento se conoce como "pirateo de recompensas", y es lo que el estudio pretende minimizar.
Las causas de la piratería de recompensas en los grandes modelos lingüísticos
Para resolver el problema de la piratería de recompensas, los investigadores han identificado dos áreas que conducen a la piratería de recompensas y que deben ser abordadas por su solución:
- Distribución
- Incongruencias en las preferencias humanas
Cambios en la distribución
Los cambios de distribución se refieren a la situación en la que un LLM se entrena en un tipo de conjunto de datos y luego, durante el aprendizaje por refuerzo, se expone a otro tipo de datos de entrenamiento que no ha visto antes. Este cambio en el tipo de datos se denomina "cambio de distribución" y puede hacer que el modelo lingüístico manipule el sistema de recompensa para dar una respuesta satisfactoria que, de otro modo, no estaría preparado para dar.
Incongruencias en las preferencias humanas
Es una referencia al hecho de que los humanos son inconsistentes en sus evaluaciones cuando juzgan las respuestas proporcionadas por la IA. Por ejemplo, resolver el problema de las preferencias humanas incoherentes es probablemente una de las motivaciones que subyacen a la creación de las directrices de los evaluadores de calidad de búsqueda de Google, que tienen el efecto de reducir la influencia de las preferencias subjetivas.
Las preferencias humanas pueden variar de una persona a otra. El aprendizaje por refuerzo a partir de la retroalimentación humana se basa en la retroalimentación humana en el proceso de formación del modelo de recompensa (MR) y son las incoherencias las que pueden conducir al secuestro de recompensas.
Es importante encontrar una solución, como han señalado los investigadores:
"Este fenómeno de pirateo de recompensas plantea una serie de problemas.
En primer lugar, degrada el rendimiento, manifestándose en resultados lingüísticamente defectuosos o innecesariamente ampulosos que no reflejan las auténticas preferencias humanas.
En segundo lugar, complica la selección de los puntos de control debido a la poca fiabilidad de la RM sustitutiva, que se hace eco de la ley de Goodhart: "cuando una medida se convierte en objetivo, deja de ser una buena medida".
En tercer lugar, puede engendrar servilismo o amplificar los prejuicios sociales, reflejando la demografía limitada y sesgada de los proveedores de información.
Por último, pero no por ello menos importante, la desalineación debida a la piratería de recompensas puede provocar riesgos para la seguridad, sobre todo teniendo en cuenta la rápida integración de los LTM en la vida cotidiana y en la toma de decisiones críticas. "
Modelos de recompensa media ponderada (WARM)
Los investigadores de Google DeepMind han desarrollado un sistema llamado Weight Averaged Reward Models (WARM), que crea un modelo sustituto a partir de la combinación de varios modelos de recompensa individuales, cada uno con ligeras diferencias. Con WARM, a medida que aumentan el número de modelos de recompensa (MR), los promedian y los resultados mejoran drásticamente, con lo que el sistema evita la repentina disminución de la fiabilidad que se produce con los modelos estándar.
El sistema WARM, al utilizar varios modelos más pequeños, tiene la ventaja de ser eficiente en memoria y no ralentizar la capacidad del modelo para proporcionar respuestas, además de ser resistente a la piratería de recompensas.
WARM también hace que el modelo sea más fiable y coherente cuando se trata de datos cambiantes y más consistentes.
Lo que más me llamó la atención fue su capacidad para seguir el "paradigma del aprendizaje automático actualizable", es decir, la capacidad de WARM para adaptarse y mejorar incorporando nuevos datos o cambios a lo largo del tiempo, sin empezar de cero.
En la cita siguiente, WA significa media ponderada y RM, modelo de recompensa.
Explican los investigadores:
"WARM representa un método flexible y pragmático para mejorar la adecuación de la IA a los valores humanos y las normas sociales.
...WARM sigue el paradigma del aprendizaje automático actualizable, eliminando la necesidad de comunicación entre servidores, lo que hace que la paralelización de RM sea vergonzosamente sencilla.
Esto facilita su uso en un escenario de aprendizaje federado en el que los datos deben permanecer privados; además, WA añadiría una capa de protección de la privacidad y mitigación de sesgos al reducir la memorización de preferencias privadas. En segundo lugar, una extensión directa de WARM permitiría combinar MR entrenadas en diferentes conjuntos de datos, por ejemplo, de diferentes (grupos de) etiquetadores.
...Además, como se ha demostrado que WA limita el olvido catastrófico, WARM podría apoyar sin problemas las preferencias iterativas y evolutivas".
Límites
Esta investigación abre el camino a otras formas de mejorar la IA, pero no es una solución completa porque tiene limitaciones inherentes. De hecho, no elimina por completo todas las formas de " correlaciones espurias o sesgos inherentes a los datos sobre preferencias. "
Sin embargo, concluyen con una nota optimista sobre el futuro de WARM:
"Nuestros resultados empíricos demuestran su eficacia cuando se aplica al resumen. Creemos que WARM ayudará a que los sistemas de inteligencia artificial estén más alineados y sean más transparentes y eficientes, lo que anima a seguir explorando el modelado de recompensas."
Lea el documento de investigación :
WARM: las ventajas de los modelos de recompensa media ponderada
Imagen cortesía de Shutterstock/Mansel Birst