OpenAI kündigt GPT-4 an - Multimodale KI ist da!

Könnt ihr das hören? Dieses laute, rauschende Geräusch?

Es ist der Sound, der entsteht, wenn sich Geschäftsmodelle ganzer Industrien in Echtzeit vor unseren Augen verändern. Es ist auch das Geräusch der Luft, die aus unseren Lungen gezogen wird, während wir staunend dastehen und versuchen, mit dem Ausmaß der Disruption Schritt zu halten, die wir in diesem Jahr fast täglich über alle Technologien hinweg erleben dürfen.

Ich spreche von der generativen AI-Plattform ChatGPT und in diesem Fall von dem jetzt angekündigten Update GPT-4.

Die Veröffentlichungsankündigung von Microsoft kam Anfang dieser Woche. Holger Kenn (Chief Technologist Business Development AI & Emerging Technologies bei Microsoft Deutschland) hat dabei bereits angedeutet, dass GPT-4 tatsächlich multimodal sein wird. Er erklärte, dass multimodal bedeutet, dass es "Text nicht nur entsprechend in Bilder, sondern auch in Musik und Video übersetzen kann".

Das ist ein wichtiger Schritt von GPT-3.5, denn diese Version basierte ja noch auf Texteingabe.

Im GPT-4 Developer Livestream präsentierte Greg Brockman, Präsident und Mitbegründer von OpenAI, einige der neuen GPT-4-Fähigkeiten und -Einschränkungen, einschließlich seiner neuen Bild-Eingabefunktionalität. Es ist, man muss es sagen, ziemlich beeindruckend …

Während viele Funktionen noch nicht öffentlich verfügbar sind, gibt es einige Highlights in Arbeit:

YouTube

Zum Schutz Ihrer persönlichen Daten ist die Verbindung zu YouTube blockiert.
Durch das Laden der Inhalte akzeptieren Sie die Datenschutzbestimmungen von YouTube.

Visuelle Eingaben:

Laut OpenAI: "GPT-4 kann eine Text- und Bildprompt akzeptieren, die dem Benutzer – parallel zur Einstellung nur für Text – ermöglicht, jede Vision- oder Sprachaufgabe zu spezifizieren. Speziell generiert es Textausgaben (natürliche Sprache, Code, etc.) auf der Grundlage von eingestreuten Text- und Bildern. Über einen Bereich von Domänen – einschließlich Dokumenten mit Text und Fotos, Diagrammen oder Screenshots – zeigt GPT-4 ähnliche Fähigkeiten wie bei nur-Text-Eingaben."

Im Entwickler-Livestream hielt Greg Brockton ein physisches Notizbuch mit einer handgezeichneten Skizze einer Witz-Website hoch. Er machte ein Foto davon mit seinem Handy und lud es auf einen Discord-Bot hoch, den er ebenfalls mit ChatGPT mit GPT-4 betrieb.

Dann beauftragte er den Bot, das Bild in HTML auszugeben, und das Ergebnis war eine voll funktionsfähige Website für die Skizze. Mit anderen Worten, aus einer handgezeichneten Skizze UI wurde eine Website-UI!

In einem weiteren Beispiel nutzte Greg die neue Funktionalität des ChatGPT Plus Playground, um ChatGPT anzuweisen, als Steuerberater zu agieren. Er gab dann etwa 16 Seiten Steuercodes und einige komplexe Informationen über ein verheiratetes Paar und ihren aktuellen Steuerstatus ein. ChatGPT durchforstete dann die Daten und präsentierte ihren Standardabzug, einschließlich der gezeigten Arbeit.

Mit anderen Worten hat ChatGPT gerade die fiktiven Einkommensteuern eines Paares abgeschlossen.

Fortgeschrittene Fähigkeiten zur Schlussfolgerung

GPT-4s fortgeschrittene Fähigkeiten zur Schlussfolgerung stellen einen signifikanten Fortschritt bei der Lösung komplexer Probleme mit größerer Genauigkeit dar. Nachdem sechs Monate damit verbracht wurden, seine Fähigkeiten zu verfeinern, berichtet OpenAI, dass es nun um 82 Prozent weniger wahrscheinlich ist, Antworten zu produzieren, die gegen die Richtlinien verstoßen. Darüber hinaus übertrifft GPT-4 seinen Vorgänger GPT-3.5, indem es während interner Bewertungen um 40 Prozent mehr faktische Antworten produziert.

Wie bereits diskutiert, wurde GPT-3.5 auf mehreren simulierten Branchenprüfungen getestet, wie der Uniform Bar Exam, dem Wharton MBA-Examen, AP Physics, Makroökonomie, Physik usw. In den meisten Fällen hat GPT3.5 die Prüfungen innerhalb einer Leistungsspanne von 40% bis 60% absolviert. Mit GPT-4 und der Verwendung von Bildfunktionen lagen die Ergebnisse im Bereich von 90 %.

Was ist jetzt verfügbar und was kommt:

GPT4 ist jetzt für zahlende Benutzer über ChatGPT Plus zugänglich, wenn auch mit Nutzungsbeschränkungen, während Entwickler sich in eine Warteliste eintragen können, um Zugang zur API zu erhalten. Die Kosten für den Service betragen 0,03 USD pro 1.000 "Prompt"-Tokens und 0,06 USD pro 1.000 "Completion"-Tokens, wobei jeder Token rohen Text wie einzelne Wortkomponenten repräsentiert. Prompt-Tokens sind die Eingabe für GPT-4, während Completion-Tokens die Ausgabe darstellen, die vom Modell generiert wird.

Interessanterweise wurde GPT-4 bereits von frühen Anwendern in verschiedene Systeme integriert, darunter Microsofts Bing Chat, Stripes Website-Scanning-Funktion, Duolingos Abonnementstier für das Sprachenlernen, Morgan Stanleys Abrufsystem für Finanzanalysten und Khan Academys automatischer Tutor.

Während viele dieser neuen Funktionen noch in der Entwicklung sind, freuen wir uns über den schnellen Fortschritt dieser Technologie.

Vereinbare deinen Workshop!

Wenn du von den Möglichkeiten von GPT-4 fasziniert bist und erfahren möchtest, wie diese neue Technologie dein Unternehmen transformieren kann und wird, kontaktiere uns.

Wir bieten maßgeschneiderte Workshops an, um dir zu helfen, die potenzielle Auswirkungen von GPT-4 auf deine Branche zu verstehen und dich bei der Implementierung in deinem Unternehmen zu unterstützen.