Googles DeepMind hat ein Forschungspapier veröffentlicht, das eine Möglichkeit vorschlägt, große Sprachmodelle so zu trainieren, dass sie zuverlässigere Antworten liefern und gegen Belohnungshacking resistent sind - ein Schritt auf dem Weg zu anpassungsfähigeren und effektiveren KI-Systemen.
Hut ab vor @EthanLazuk für über ein neues Forschungspapier twittern von Google DeepMind.
KI neigt dazu, Hacking zu belohnen
Reinforcement Learning from Human Feedback (RLHF) ist eine Methode, mit der generative KI so trainiert wird, dass sie lernt, Antworten vorzuschlagen, die von menschlichen Bewertern positive Bewertungen erhalten. Positive Bewertungen sind eine Belohnung für richtige Antworten, weshalb diese Technik auch als Lernen durch Verstärkung bezeichnet wird. Positive Bewertungen werden von menschlichen Bewertern vergeben, weshalb man von verstärkendem Lernen aus menschlichem Feedback spricht.
Das Lernen durch Verstärkung ist sehr effektiv, geht aber mit einem unbeabsichtigten Nebeneffekt einher: Die KI lernt, Abkürzungen zu nehmen, wenn sie eine positive Belohnung erhält. Anstatt eine korrekte Antwort zu geben, gibt sie eine Antwort, die wie eine korrekte Antwort aussieht, und wenn sie die menschlichen Beurteiler täuscht (was ein Misserfolg des verstärkendem Lernens ist), beginnt die KI, ihre Fähigkeit zu verbessern, die menschlichen Beurteiler mit ungenauen Antworten zu täuschen, um die Belohnung (positive Bewertungen von Menschen) zu erhalten.
Diese Tendenz der KI, sich die Belohnung für das Training zu "erschummeln", wird als "Belohnungshacking" bezeichnet, und das ist es, was die Studie zu minimieren versucht.
Die Ursachen des Belohnungshackens in großen Sprachmodellen
Um das Problem des Belohnungshackings zu lösen, haben die Forscher zwei Bereiche identifiziert, die zum Belohnungshacking führen und die mit ihrer Lösung angegangen werden müssen:
- Verschieben der Verteilung
- Inkonsistenzen in den menschlichen Präferenzen
Änderungen in der Verteilung
Verteilungsänderungen beziehen sich auf die Situation, in der ein LLM auf einen bestimmten Typ von Datensatz trainiert wird und dann während des verstärkten Lernens einem anderen Typ von Trainingsdaten ausgesetzt wird, den er zuvor nicht gesehen hat. Diese Änderung des Datentyps wird als "Verteilungsänderung" bezeichnet und kann potenziell dazu führen, dass das Sprachmodell das Belohnungssystem manipuliert, um eine befriedigende Antwort zu geben, die es sonst nicht bereit wäre zu geben.
Inkonsistenzen in den menschlichen Präferenzen
Dies ist ein Hinweis auf die Tatsache, dass Menschen in ihren Bewertungen inkonsistent sind, wenn sie die von der KI gelieferten Antworten beurteilen. Beispielsweise ist die Lösung des Problems der inkonsistenten menschlichen Präferenzen wahrscheinlich eine der Motivationen hinter der Erstellung der Richtlinien für Google Search Quality Evaluators, die dazu führen, dass der Einfluss subjektiver Präferenzen verringert wird.
Die menschlichen Vorlieben können von Mensch zu Mensch unterschiedlich sein. Das Lernen durch Verstärkung aus menschlichem Feedback stützt sich bei der Bildung des Belohnungsmodells (RM) auf das menschliche Feedback, und es sind die Inkonsistenzen, die zum Belohnungshacking führen können.
Es ist wichtig, eine Lösung zu finden, wie die Forscher feststellten:
"Dieses Phänomen des Belohnungshackens bringt viele Probleme mit sich.
Erstens verschlechtert es die Leistung, was sich in sprachlich fehlerhaften oder unnötig wortreichen Ergebnissen äußert, die nicht die wahren menschlichen Präferenzen widerspiegeln.
Zweitens erschwert sie die Auswahl der Kontrollpunkte aufgrund der Unzuverlässigkeit der Ersatz-MR, was Goodharts Gesetz widerspiegelt: "Wenn eine Maßnahme zum Ziel wird, hört sie auf, eine gute Maßnahme zu sein".
Drittens kann es zu Schmeicheleien führen oder soziale Vorurteile verstärken, die die begrenzten und voreingenommenen demografischen Merkmale der Feedbackgeber widerspiegeln.
Last but not least kann eine Fehlausrichtung durch das Hacken von Belohnungen zu Sicherheitsrisiken führen, insbesondere angesichts der schnellen Integration von MLTs in das tägliche Leben und in kritische Entscheidungen. "
Belohnungsmodelle mit gewichtetem Durchschnitt (WARM)
Die Forscher von Google DeepMind haben ein System namens Weight Averaged Reward Models (WARM) entwickelt, das aus der Kombination mehrerer einzelner Belohnungsmodelle, die jeweils leichte Unterschiede aufweisen, ein Ersatzmodell erstellt. Bei WARM bilden sie, wenn sie die Anzahl der Belohnungsmodelle (RM) erhöhen, den Mittelwert und die Ergebnisse verbessern sich erheblich, da das System den plötzlichen Rückgang der Zuverlässigkeit vermeidet, der bei Standardmodellen auftritt.
Da das WARM-System mehrere kleinere Modelle verwendet, hat es den Vorteil, dass es speicherplatzsparend ist, die Fähigkeit des Modells, Antworten zu liefern, nicht verlangsamt und gegen Belohnungspiraterie resistent ist.
WARM macht das Modell außerdem zuverlässiger und konsistenter, wenn es mit sich ändernden und konsistenteren Daten umgeht.
Was meine Aufmerksamkeit erregte, war seine Fähigkeit, dem "Paradigma des aktualisierbaren maschinellen Lernens" zu folgen, d. h. die Fähigkeit von WARM, sich anzupassen und zu verbessern, indem es im Laufe der Zeit neue Daten oder Veränderungen einbezieht, ohne bei Null anzufangen.
Im folgenden Zitat steht WA für gewichteter Durchschnitt und RM für Belohnungsmodell.
Die Forscher erklären:
"WARM stellt eine flexible und pragmatische Methode dar, um die Ausrichtung der KI an menschlichen Werten und gesellschaftlichen Normen zu verbessern.
...WARM folgt dem Paradigma des aktualisierbaren maschinellen Lernens, wodurch die Notwendigkeit einer serverübergreifenden Kommunikation entfällt, was eine peinlich einfache MR-Parallelisierung ermöglicht.
Dies erleichtert die Verwendung in einem föderierten Lernszenario, in dem die Daten privat bleiben müssen; außerdem würde WA eine Schicht zum Schutz der Privatsphäre und zur Abschwächung von Verzerrungen hinzufügen, indem die Speicherung privater Präferenzen reduziert wird. Zweitens würde eine direkte Erweiterung von WARM es ermöglichen, RMs zu kombinieren, die auf verschiedenen Datensätzen gebildet wurden, z. B. von verschiedenen (Gruppen von) Etikettierern.
...Da sich gezeigt hat, dass WA das katastrophale Vergessen einschränkt, könnte WARM außerdem iterative und evolutionäre Präferenzen nahtlos unterstützen."
Limits
Diese Forschung ebnet den Weg für weitere Möglichkeiten zur Verbesserung der KI, stellt aber keine vollständige Lösung dar, da sie inhärente Einschränkungen aufweist. Tatsächlich beseitigt sie nicht vollständig alle Formen von "? parasitäre Korrelationen oder inhärente Verzerrungen der Präferenzdaten. "
Sie schließen jedoch mit einem optimistischen Ton über die Zukunft von WARM :
"Unsere empirischen Ergebnisse zeigen seine Wirksamkeit, wenn es auf die Zusammenfassung angewendet wird. Wir glauben, dass WARM dazu beitragen wird, KI-Systeme besser auszurichten, transparenter und effizienter zu machen, was dazu ermutigt, die Erforschung der Belohnungsmodellierung weiter voranzutreiben."
Forschungsdokument lesen :
WARM: Die Vorteile von Belohnungsmodellen mit gewichtetem Durchschnitt
Bild präsentiert von Shutterstock/Mansel Birst