Bei der Behauptung von Microsoft geht es nicht um sogenannte „Halluzinationen“, die unweigerlich falsche Texte verbreiten. Außerdem ist GPT schlecht in Spielen wie Schach und Go, schlecht in Mathematik und produziert wahrscheinlich Code, der ein Durcheinander aus Fehlern und Bugs ist. Das bedeutet nicht, dass LLM/GPT völlig übertrieben sind. Gar nicht. Es bedeutet jedoch, dass wir in der Diskussion um generative KI einen gewissen Sinn für Ausgewogenheit haben und die übertriebene Verpackung drastisch entfernen sollten.
Laut einem Artikel in IEEE Spectrum Mehrere Experten, darunter OpenAI-Mitbegründer und Chefwissenschaftler Ilya Sutskever, glauben, dass die LLM-Halluzination durch die Hinzufügung von verstärkendem Lernen mit menschlichem Feedback beseitigt werden kann. Andere Experten, darunter Yann LeCun, Chefwissenschaftler am AI Lab von Meta, und Jeffrey Hinton, Vater des Deep Learning, der kürzlich Google verlassen hat, argumentieren jedoch, dass aktuelle groß angelegte Sprachmodelle grundsätzlich fehlerhaft sind. Diese beiden sehen, dass groß angelegte Sprachmodelle nicht über das nötige nonverbale Wissen verfügen, um die Realität zu verstehen, die die Sprache beschreibt.
Matthew Lodge, CEO von Diffblue, sagte gegenüber InfoWorld, dass „kleine, schnelle und kostengünstige Reinforcement-Learning-Modelle LLMs mit Hunderten von Milliarden Parametern für alles vom Spielen bis zum Schreiben von Code deutlich übertreffen.“ .
Wenn ja, sucht es nicht am falschen Ort nach Gold?
Ein Spiel?
Wie Lodge sagt, drängen wir die generative KI möglicherweise in einen Bereich, in dem Reinforcement Learning viel besser funktionieren kann. Spiele sind ein Paradebeispiel. Gepostet von Levy Roseman, Master of Chess International Video vom Schachspielen mit ChatGPTWenn Sie sich ansehen, unternimmt ChatGPT unverschämte Bewegungen, wie zum Beispiel das Fangen seines eigenen Pferdes, und begeht sogar ein Foulspiel. Darüber hinaus verwendet Stockfish, eine Open-Source-Schachsoftware, überhaupt keine neuronalen Netze, und ChatGPT ergab sich in 10 Zügen. Es ist ein gutes Beispiel dafür, dass LLM weit hinter dem Hype zurückbleibt.Google AlphaGo basiert auf Reinforcement Learning. Reinforcement Learning erstellt und probiert mehrere Lösungen für ein Problem und nutzt die Ergebnisse, um den nächsten Vorschlag zu verbessern. Und wiederholen Sie diesen Vorgang tausende Male, um das beste Ergebnis zu erzielen. In AlphaGo probiert die KI verschiedene Züge aus und sagt voraus, ob der Zug ein guter Zug ist, ob die Stellung wahrscheinlich gewinnt und so weiter. Nutzen Sie dieses Feedback, um einer Gewinnsequenz zu folgen und andere mögliche Züge zu generieren. Dieser Vorgang wird als probabilistische Suche bezeichnet. Diese Methode ist für das Gameplay sehr effektiv. AlphaGo hat in der Vergangenheit mehrere Go-Spieler besiegt. AlphaGo ist auch nicht perfekt, aber es übertrifft die besten aktuellen LLMs.
Wahrscheinlichkeit vs. Genauigkeit
Angesichts der Beweise dafür, dass LLMs anderen Arten von KI deutlich unterlegen sind, sagen Befürworter, dass LLMs „in Zukunft besser werden“. Lodge stellt jedoch fest: „Damit diese Behauptung wahr ist, müssen wir verstehen, warum LLMs diese Art von Arbeit besser leisten können, aber das ist schwierig.“ Niemand kann vorhersagen, was GPT-4 bei einer bestimmten Eingabeaufforderung tun wird. Dieses Modell kann nicht von Menschen erklärt werden. Deshalb ist schnelles Engineering sinnlos, sagt Lodge. Er wies auch darauf hin, dass es für KI-Forscher schwierig sei, die Existenz der entstehenden Eigenschaften von LLMs zu beweisen, und dass sie sogar noch schwieriger vorherzusagen seien.Der vielleicht beste Einwand ist die Induktion. Da GPT-4 größer als GPT-3 ist, eignet es sich hervorragend für einige Sprachaufgaben. Wäre ein größeres Modell also nicht noch besser? Ist das wirklich so? Laut Lodge „besteht das Problem darin, dass GPT-4 Probleme hat, wo GPT-3 Probleme hatte.“ Eine davon ist Mathematik. GPT-4 ist beim Addieren etwas besser als GPT-3, aber beim Multiplizieren und anderen mathematischen Operationen ist es immer noch schlecht.
Eine Vergrößerung des Sprachmodells löst dieses endemische Problem nicht auf magische Weise. Und selbst OpenAI hat gesagt, dass größere Modelle nicht die Antwort sind. Der Grund ist OpenAI-ForumEs handelt sich um ein grundlegendes Merkmal des LLM, das in erwähnt wurde. „Groß angelegte Sprachmodelle sind probabilistischer Natur und verhalten sich so, dass sie basierend auf den Mustern, die sie in den Trainingsdaten beobachten, höchstwahrscheinliche Ergebnisse erzeugen. Bei mathematischen und physikalischen Problemen gibt es normalerweise nur eine richtige Antwort, und die Wahrscheinlichkeit, dass es diese eine Antwort gibt, kann sehr gering sein.“
Andererseits kann KI, die auf Reinforcement Learning basiert, viel besser genaue Ergebnisse liefern, da es sich um einen zielgerichteten KI-Prozess handelt. Reinforcement Learning arbeitet wiederholt auf ein gewünschtes Ziel hin und liefert die beste Antwort, die dem Ziel am nächsten kommt. „Das LLM hingegen ist nicht darauf ausgelegt, ein Ziel zu wiederholen oder zu verfolgen“, sagt Lodge. Es ist darauf ausgelegt, Ihnen eine „gut genug“-Antwort mit einem oder wenigen Schüssen zu geben.“
Eine „One-Shot“-Antwort ist die erste Antwort, die das Modell generiert, indem es eine Reihe von Wörtern in einer Eingabeaufforderung vorhersagt. Beim „Few-Shot“-Ansatz werden zusätzliche Beispiele oder Hinweise bereitgestellt, um dem Modell zu helfen, bessere Vorhersagen zu treffen. LLMs können auch unterschiedliche Antworten auf dieselbe Frage geben, da sie ein gewisses Maß an Zufälligkeit akzeptieren, um die Wahrscheinlichkeit einer besseren Antwort zu erhöhen.
Das LLM-Lager ignoriert das Reinforcement Learning nicht. GPT-4 umfasst „Reinforcement Learning with Human Feedback (RLHF)“. Das heißt, das Kernmodell wird von menschlichen Bedienern darauf trainiert, einige Antworten anderen vorzuziehen, ändert jedoch nicht grundlegend die Antworten, die das Modell von Grund auf generiert. Lodge sagte zum Beispiel, dass ein LLM die folgende Antwort generieren könnte, um den Satz „Wayne Gretzky mag Ice (OO)“ zu vervollständigen.
1. Wayne Gretzky liebt Eis.
2. Wayne Gretzky mag Eishockey.
3. Wayne Gretzky liebt Eisfischen.
4. Wayne Gretzky liebt Eislaufen.
5. Wayne Gretzky mag Eiswein.
Hier kann der menschliche Bediener die Antworten in eine Rangfolge bringen, indem er davon ausgeht, dass Wayne Gretzky eher Eishockey (oder Eislaufen) mag, weil er ein legendärer kanadischer Eishockeyspieler ist. Zum Trainieren dieses Modells werden Rankings menschlicher Bediener und mehr von Menschen generierte Antworten verwendet. Zu beachten ist, dass GPT-4 nicht vorgibt, Wayne Gretzkys Präferenzen genau zu kennen, sondern lediglich die wahrscheinlichste Antwort zum Ausfüllen einer bestimmten Eingabeaufforderung liefert. Schließlich sind LLMs nicht auf hohe Genauigkeit oder Konsistenz ausgelegt. Lodge wies darauf hin, dass dies alles bedeutet, dass Reinforcement Learning die generative KI übertreffen wird, wenn es darum geht, KI in großem Maßstab anzuwenden.
Anwenden von Reinforcement Learning auf Software
Wie sieht es mit der Softwareentwicklung aus? Viele Entwickler verzeichnen Produktivitätssteigerungen, wenn sie generative KI-gestützte Tools wie Copilot von Github und CodeWhisperer von Amazon verwenden. Diese Tools sagen basierend auf dem Code vor und nach dem Code-Einfügepunkt in der integrierten Entwicklungsumgebung voraus, welcher Code wahrscheinlich als nächstes kommt.Genau genommen David Ramel vom Visual Studio Magazine Er sagte, dass die neueste Version von CoPilot bereits 61 % des Java-Codes generiert. Für diejenigen, die befürchten, dass der Beruf des Softwareentwicklers verschwindet: Diese Tools erfordern eine „menschliche Aufsicht“, um den fertigen Code zu überprüfen und ihn zu bearbeiten, damit er ordnungsgemäß kompiliert und ausgeführt werden kann. Tatsächlich ist die automatische Vervollständigung seit den Anfängen von IDEs ein repräsentatives Merkmal von IDEs, und Codegeneratoren, einschließlich CoPilot, haben den Nutzen dieser Funktion erheblich gesteigert. Aber nicht die massiv autonome Codierung, die zum Schreiben von 61 % des Java-Codes erforderlich ist.
Laut Lodge kann durch Verstärkungslernen eine groß angelegte unbeaufsichtigte Codierung genau durchgeführt werden. Natürlich gibt es einen Grund, warum Lodge das gesagt hat. Im Jahr 2019 veröffentlichte DeepBlue „Cover“, ein kommerzielles, auf Verstärkungslernen basierendes Schreibtool für Unit-Tests. Mit Cover können Sie komplexe und fehleranfällige Aufgaben im großen Maßstab automatisieren, indem Sie ganze Unit-Tests ohne menschliches Eingreifen schreiben.
Könnte man angesichts dieser Tatsachen sagen, dass Lodges Argumentation voreingenommen ist? Natürlich ist es das. Aber Lodge verfügt auch über einen großen Erfahrungsschatz, der die Behauptung stützt, dass Reinforcement Learning die generative KI in der Softwareentwicklung übertreffen kann. Derzeit nutzt DeepBlue Reinforcement Learning, um alle möglichen Testmethoden zu erkunden, schreibt automatisch Testcode für jede Methode und wählt aus diesen geschriebenen Tests den am besten geeigneten Test aus. Es dauert durchschnittlich eine Sekunde, bis das Tool Tests für jede Methode generiert.
Wenn Ihr Ziel darin besteht, das Schreiben von 10.000 Unit-Tests für ein Programm zu automatisieren, das niemand versteht, ist Reinforcement Learning laut Lodge die einzig realistische Lösung. „LLM ist kein Vergleich. „Bei diesem Maßstab gibt es für Menschen keine Möglichkeit, den Code effektiv zu überwachen und zu ändern, und eine Vergrößerung und Komplexität des Modells löst das Problem nicht.“
Die Schlussfolgerung ist diese. Der größte Vorteil von LLM besteht darin, dass es einfache Sprache verarbeiten kann. Es kann auch Sprachaufgaben ausführen, die nicht explizit gelernt wurden. Mit anderen Worten: Es ist für viele Aufgaben nützlich, einschließlich der Erstellung von Inhalten (Copywriting). „Das bedeutet aber nicht, dass LLMs KI-Modelle ersetzen können, die auf Reinforcement Learning basieren“, sagt Lodge. Reinforcement Learning ist genauer, konsistenter und funktioniert im großen Maßstab.“
[email protected]
Source: ITWorld Korea by www.itworld.co.kr.
*The article has been translated based on the content of ITWorld Korea by www.itworld.co.kr. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!
*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.
*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!