Wir stecken gerade mitten in einer Revolution. Generative Künstliche Intelligenz hat innerhalb weniger Monate verändert, wie wir das Internet mit Inhalten füllen. Ob Bilder, Texte oder Videos – KI generiert’s dir, innerhalb von Sekunden.
Die jüngste Version von Midjourney hat es in sich, das ist natürlich längst kein Geheimnis mehr. Die Bilder, die die KI ausspuckt, werden immer besser, immer realistischer und immer präziser.
Das heißt, Midjourney wird immer besser darin, zu verstehen, was wir eigentlich von der KI wollen. Stellen wir uns doch mal das folgende Szenario vor:
Wir sind eine Redaktion, wir wollen das Thema Umweltschutz illustrieren. Wie gehen wir vor?
Die Antwort ist natürlich klar: In Zeiten knapper Ressourcen in Redaktionen setzen wir auf generative KI und lassen uns das Bild eines Insekts, das auf einem Blatt sitzt, ganz einfach und schnell generieren.
Diesen Prompt haben über alle Versionen hinweg wir für dieses kleine Experiment verwendet:
show me a realistic image of an insect sitting on a green leaf next to a drop of water in which the sunlight reflexes
Wir bei robotspaceship sagen: Egal, was euer Business ist, ihr solltet die Sache einmal ausprobieren. Nicht nur, weil es absolut irre ist, was Technologie heutzutage alles kann. Sondern auch, weil ihr sonst den Anschluss verliert.
Das Insekt, das ihr im Titel seht, wurde von Version 5.1 von Midjourney generiert. Im Vergleich zur Vorgängerversion hat sich damit die Bildqualität in Bezug auf Landschaft, Detail und Kontext verbessert. Die KI erkennt Wörter noch besser.
Natürlich sagt uns das alles eher wenig, wenn der Vergleich fehlt. Deshalb zeigen wir euch hier, wie sich die KI seit der Veröffentlichung der ersten Midjourney-Version im Juli 2022 verändert hat.
Midjourney Version 1:
Was ist das?
Ist es ein Blatt? Ist es ein Insekt? Wo ist der Wassertropfen? Alles, was wir sehen, ist grün und verschwommen. Was wir hier sehen, erinnert eher an ein psychedelisches Gemälde und hat noch wenig mit der Prompt zu tun, die wir eingegeben haben. Version 1 zeigte wenige Details und auch die verschiedenen Versionen der Bilder, die das Programm am Ende ausspucke, waren noch sehr ähnlich zueinander.
Midjourney Version 2:
Ja, das könnte ein Blatt sein, oder?
Das könnte jetzt ein Blatt sein. Und das könnte ein Wassertropfen sein, der das Blatt darunter vergrößert. Nur wo ist jetzt das Insekt – so richtig genau ist die Sache immer noch nicht. Aber: Die Bilder aus Version 2 zeigen nicht nur mehr Details, sie haben im Vergleich zur V1 auch eine sehr viel höhere Auflösung und sind insgesamt näher am Objekt, das man ursprünglich einmal sehen wollte.
Midjourney Version 3:
Kann das Blatt jetzt krabbeln?
Jetzt kann man ganz klar erkennen, dass es ein Blatt ist. Und auch der Wassertropfen ist da. Nur fragt man sich jetzt, ob das Blatt gleich davon krabbeln wird, schließlich hat es Insektenbeine. Oder ist es vielleicht doch der Wassertropfen, der da das Weite suchen will? Immer besser hingegen ist die Lichtreflexion zu erkennen. Zudem zeigen die Bilder, die das Tool ausgibt, eine immer größere Varianz.
Midjourney Version 4:
Oha!
Siehe da: Ein Insekt auf einem Blatt, ein Wassertropfen, in dem sich das Licht bricht. Version 4 ist auf einmal eine ganz andere Hausnummer. In Detailtiefe und Schärfe ist sie ihren Vorgängerinnen um Längen überlegen. Zudem zeigt das Bild einfach genau das, was wir im Prompt eingegeben haben. Für diese Version haben die Entwickler:innen eine komplett neue Architektur entwickelt. V4 war eine Revolution innerhalb der KI-Revolution. Sie konnte auf einmal Tiere darstellen (in unserem Bild gut zu erkennen), auch Menschen wurden schlagartig sehr viel realistischer. Außerdem verbesserten die Entwickler:innen die Bildqualität erheblich.
Midjourney Version 5:
Jetzt wird es spooky!
Das könnte ein Foto sein – fast jedenfalls. Das Bild von Version 5 sieht auf schon ziemlich echt aus. Es ist ein bisschen seltsam, dass da zwei Insekten sitzen, eines auf und eines unter dem Blatt. Trotzdem ist die Sache ziemlich beeindruckend. Die Version ist besser darin, Sprache zu erkennen – und damit wird das Ergebnis natürlich immer besser. Zudem nimmt hier die Varianz zu. Das heißt: Die Bilder, die die KI ausgibt, unterscheiden sich immer stärker voneinander. Tatsächlich ist diese Version bereit in der Lage, Bilder zu kreieren, die aussehen wie Fotos – jedenfalls für das untrainierte Auge.
Inzwischen sind wir bei Version 5.1 angekommen. Sie ist im Mai dieses Jahres veröffentlicht worden. Die Bilder dieser Version sehen inzwischen aus wie richtige Fotos. Ihr seht es im Titelbild dieses Beitrages. Die erste Version dieses Tools ist in Deutschland am 12. Juli 2022 veröffentlicht worden. Das heißt: Wir haben nicht mal ein Jahr von einem verzerrten Etwas bis hin zu einem richtigen Bild gebraucht. Wenn das keine rasante Entwicklung ist.