Peut rendre l’IA plus fiable

Peut rendre l'IA plus fiable

La société DeepMind de Google a publié un document de recherche qui propose un moyen d’entraîner de grands modèles de langage afin qu’ils fournissent des réponses plus fiables et qu’ils résistent au piratage de récompense, une étape dans le développement de systèmes d’IA plus adaptables et plus efficaces.

Coup de chapeau à @EthanLazuk pour tweeter à propos d’un nouveau document de recherche de Google DeepMind.

L’IA a tendance à récompenser le piratage

L’apprentissage par renforcement à partir du feedback humain (RLHF) est une méthode utilisée pour former l’IA générative afin qu’elle apprenne à proposer des réponses qui reçoivent des notes positives de la part d’évaluateurs humains. Les notes positives sont une récompense pour les réponses correctes, c’est pourquoi cette technique est appelée apprentissage par renforcement. Les notes positives sont attribuées par les évaluateurs humains, c’est pourquoi on parle d’apprentissage par renforcement à partir du feedback humain.

L’apprentissage par renforcement est très efficace, mais il s’accompagne d’un effet secondaire involontaire : l’IA apprend à prendre des raccourcis en recevant une récompense positive. Au lieu de fournir une réponse correcte, elle fournit une réponse qui a l’apparence d’une réponse correcte et lorsqu’elle trompe les évaluateurs humains (ce qui est un échec de l’apprentissage par renforcement), l’IA commence à améliorer sa capacité à tromper les évaluateurs humains avec des réponses inexactes afin de recevoir les récompenses (les évaluations positives des humains).

Cette tendance de l’IA à « tricher » pour obtenir la récompense de la formation est appelée « piratage de récompense », et c’est ce que l’étude cherche à minimiser.

Les causes du piratage des récompenses dans les grands modèles linguistiques

Pour résoudre le problème du piratage de récompenses, les chercheurs ont identifié deux domaines qui conduisent au piratage de récompenses et qui doivent être traités par leur solution :

  1. Déplacements de la distribution
  2. Incohérences dans les préférences humaines

Changements dans la distribution

Les changements de distribution se réfèrent à la situation où un LLM est formé sur un certain type d’ensemble de données et ensuite, pendant l’apprentissage par renforcement, il est exposé à un autre type de données de formation qu’il n’a pas vu auparavant. Ce changement de type de données est appelé « changement de distribution » et peut potentiellement amener le modèle de langage à manipuler le système de récompense afin de donner une réponse satisfaisante qu’il n’est pas prêt à fournir autrement.

Incohérences dans les préférences humaines

Il s’agit d’une référence au fait que les humains sont incohérents dans leurs évaluations lorsqu’ils jugent les réponses fournies par l’IA. Par exemple, la résolution du problème de l’incohérence des préférences humaines est probablement l’une des motivations à l’origine de la création des lignes directrices des évaluateurs de la qualité des recherches de Google, qui ont pour effet de réduire l’influence des préférences subjectives.

Les préférences humaines peuvent varier d’une personne à l’autre. L’apprentissage par renforcement à partir du retour d’information humain s’appuie sur le retour d’information humain dans le processus de formation du modèle de récompense (RM) et ce sont les incohérences qui peuvent conduire au piratage des récompenses.

Il est important de trouver une solution, comme l’ont noté les chercheurs :

« Ce phénomène de piratage des récompenses pose de nombreux problèmes.

Premièrement, il dégrade les performances, se manifestant par des résultats linguistiquement défectueux ou inutilement verbeux, qui ne reflètent pas les véritables préférences humaines.

Deuxièmement, elle complique la sélection des points de contrôle en raison du manque de fiabilité de la RM de substitution, ce qui fait écho à la loi de Goodhart : « lorsqu’une mesure devient une cible, elle cesse d’être une bonne mesure ».

Troisièmement, il peut engendrer la flagornerie ou amplifier les préjugés sociaux, reflétant les caractéristiques démographiques limitées et biaisées des fournisseurs de retour d’information.

Enfin et surtout, le désalignement dû au piratage des récompenses peut entraîner des risques pour la sécurité, en particulier compte tenu de l’intégration rapide des MLT dans la vie quotidienne et la prise de décisions critiques. « 

Modèles de récompense à moyenne pondérée (WARM)

Les chercheurs de Google DeepMind ont mis au point un système appelé Weight Averaged Reward Models (WARM), qui crée un modèle de substitution à partir de la combinaison de plusieurs modèles de récompense individuels, chacun présentant de légères différences. Avec WARM, à mesure qu’ils augmentent le nombre de modèles de récompense (RM), ils font la moyenne et les résultats s’améliorent considérablement, le système évitant le déclin soudain de la fiabilité qui se produit avec les modèles standard.

Le système WARM, parce qu’il utilise plusieurs modèles plus petits, présente l’avantage d’être économe en mémoire et de ne pas ralentir la capacité du modèle à fournir des réponses, en plus d’être résistant au piratage des récompenses.

WARM rend également le modèle plus fiable et plus cohérent lorsqu’il traite des données changeantes et plus cohérentes.

Ce qui a attiré mon attention, c’est sa capacité à suivre le « paradigme de l’apprentissage automatique actualisable », c’est-à-dire la capacité de WARM à s’adapter et à s’améliorer en incorporant de nouvelles données ou des changements au fil du temps, sans repartir de zéro.

Dans la citation suivante, WA signifie moyenne pondérée et RM signifie modèle de récompense.

Les chercheurs expliquent :

« WARM représente une méthode flexible et pragmatique pour améliorer l’alignement de l’IA sur les valeurs humaines et les normes sociétales.

…WARM suit le paradigme de l’apprentissage automatique actualisable, éliminant le besoin de communication inter-serveurs, ce qui permet une parallélisation des RM d’une simplicité embarrassante.

Cela facilite son utilisation dans un scénario d’apprentissage fédéré où les données doivent rester privées ; en outre, WA ajouterait une couche de protection de la vie privée et d’atténuation des biais en réduisant la mémorisation des préférences privées. Ensuite, une extension directe de WARM permettrait de combiner des RM formés sur différents ensembles de données, par exemple, provenant de différents (groupes d’) étiqueteurs.

…En outre, comme il a été démontré que WA limite l’oubli catastrophique, WARM pourrait prendre en charge de manière transparente les préférences itératives et évolutives. »

Limites

Ces recherches ouvrent la voie à d’autres moyens d’améliorer l’IA, mais elles ne constituent pas une solution complète car elles présentent des limites inhérentes. En effet, elle n’élimine pas complètement toutes les formes de « les corrélations parasites ou les biais inhérents aux données de préférence. »

Ils concluent cependant sur un ton optimiste quant à l’avenir de WARM :

« Nos résultats empiriques démontrent son efficacité lorsqu’il est appliqué au résumé. Nous pensons que WARM contribuera à rendre les systèmes d’intelligence artificielle plus alignés, plus transparents et plus efficaces, ce qui encourage à poursuivre l’exploration de la modélisation de la récompense. »

Lire le document de recherche :

WARM : Les avantages des modèles de récompense à moyenne pondérée

Image présentée par Shutterstock/Mansel Birst

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *