mitch am :
Hände und Finger mögen inzwischen besser sein, aber ich war neulich auf einer Modellbahnseite und sehe es hier bei Dir auch: KI kann nicht mit Schienen und Gleisverläufen umgehen ;)
Vor einer Weile suchte ich nach einer kostenlosen Möglichkeit, um mir von einer schwachen KI via einer Textbeschreibung Bilder erstellen zu lassen (GenAI, Text to Image). Dabei fand ich Microsofts Bing Image Creator, der sich gar nicht schlecht schlug.
Zur Nutzung muss ein Microsoft-Account erstellt werden, danach ist die kostenlose Nutzung möglich. Dabei ist das System fair und komfortabel: 15 Bilderbeschreibungen können priorisiert bearbeitet werden, danach dauert die Bilderschaffung etwas länger. Am nächsten Tag werden die Priorisierungen wieder aufgefüllt. Das passt gut zu einer regelmäßigen leichten Nutzung, während gleichzeitig Microsoft da wenigstens etwas Ressourcen schont. Im Hintergrund läuft übrigens DALL·E 3.
Doch wie funktioniert die Erstellung? Direkt auf der Startseite werden einige Beispielbilder angezeigt. Fährt man mit dem Mauszeiger über sie, erscheint der Beschreibungstext, via dem sie erstellt wurden. Obendrüber ist eine Texteingabe für genau so eine Beschreibung. In dieser muss also nur das gewünschte Bild als Text umschrieben werden, Enter oder den Button drücken, schon lädt der Generator. Dabei – passend für LLMs – kann in Deutsch oder Englisch formuliert werden. Ausgespuckt werden dann bis zu vier Bilder. Passt davon keines, sollte man die Beschreibung anpassen und es nochmal probieren. Ein Hinweistext fordert dazu auf, möglichst genau zu schreiben, ein anderer, einen Stil anzugeben.
Mein Beispiel zeigt, warum das mit dem Stil eine gute Idee ist. Die erste Bildbeschreibung war Ein brauner Bär schaut in der Antarktis auf einen kleinen Pinguin und produzierte vier Bilder in einem gezeichneten Stil:
Dabei hatte ich in meinem Kopf ein sehr viel realistisches Ergebnis mir vorgestellt. Und etwas dem näheres konnte Microsofts System auch erstellen, nämlich mit Ein brauner Bär schaut in der Antarktis auf einen kleinen Pinguin, realistisch:
Vom ersten Tipp bin ich weniger überzeugt. Das System ist nicht unbedingt gut darin, Details in der Beschreibung zu beachten. Ein echtes Beispiel aus einem kleinen Projekt, The entrance to a zoo. Realistic look, no people produzierte zwar vier Bilder mit einem möglichen Zooeingang, aber auf zweien davon waren eben sehr wohl Menschen zu sehen. Andererseits ist manchmal eine wirklich detaillierte Beschreibung doch zielführend. Zum Beispiel benutzte ich für die folgende Grafik den Beschreibungstext A domino piece in the center, project written on it, surrounded by many other domino pieces with dependency written on it. Arrows go from the outer stones to the inner. Digital style.
Gleichzeitig ist es manchmal beeindruckend, was dabei herauskommt wenn man dem System nur eine grobe Beschreibung gibt. Beispielsweise bei diesem Bild, das ich als Cover für meinen Artikel zu Heinleins "The Moon Is a Harsh Mistress" nutzte, bei dem ich nur sehr grobe Vorgaben zu einer Station auf dem Mond und einer sichtbaren Erde mitgab:
Meine Tests und auch die Bilder offenbaren ein paar Schwächen. Erstens ist da die eben nicht immer gegebene Einhaltung der Beschreibung. Bei manchen Bildern konnte ich nur mit Biegen und Brechen dem von mir gewünschten Ergebnis nahekommen. Mehrfach musste ich danach nochmal mit Gimp ran, was etwas schade ist wenn es nur am nicht sauber arbeitenden Generator hing.
Manchmal ging die Erstellung auch gar nicht. Für den Schwangerschaftsartikel testete ich Beschreibungen um eine auf einem Sofa sitzende, unglücklich schauende Schwangere. Solche Vorgaben verweigerte das System komplett. Ich hatte vorab davon gelesen, dass manche Bildgeneratoren durch ihre Sicherheitssysteme gegen Nacktheit praktisch lobotomiert werden. Hier geht das auch in die Richtung, die Erkennung was verwerflich sein könnte ist fehlerhaft und blockiert harmlose Anwendungsfälle.
Wie oben zu sehen ist sind alle Bilder quadratisch. Um genau zu sein werden sie mit einer Größe von 1024 Pixeln auf jeder Seite ausgegeben. Die Pixelgröße reicht mir hier im Blog, aber quadratisch ist für mich unpraktisch (haben die anderen Bilder hier doch meist ein Breitbildformat) und für viele denkbare Anwendungsmöglichkeiten sind 1024 Pixel zu wenig.
Dann sind da die Generierungsfehler. Während Hände nicht mehr die große Herausforderung zu sein scheinen, ist bei Bing Text der große Problemfall. Alles was mit Text zu tun hat wird praktisch nie sauber ins Bild gebannt. Was auch nicht geht ist Logik, z.B. einen korrekten Graphen zeichnen zu lassen. Das Ergebnis wird zwar beeindruckend ausgestaltet, aber der Graph und seine Bezeichnung ist komplett falsch.
Und schließlich: Fürs Speichern der Ergebnisse hat es nicht gereicht. Es gibt einen Knopf dafür, für einzelne Bilder, aber der produzierte bei mir nur eine Fehlermeldung. Angezeigt werden ansonsten nur die letzten 15 Bilderstellungen, mit ihren (meist) jeweils vier Bildern. Vorherige sind noch eine Weile länger über ihre URL aufrufbar, aber nach einer Weile werden sie gelöscht. Das ist bei einem kostenlosen Angebot verständlich, aber doch auch unkomfortabel. Und das ist auch der Grund, warum ich die Beschreibung für das Mondbasisbild nicht mehr weiß.
Generell packe ich gerne und abseits der Linksammlungen mittlerweile fast immer Bilder in meine Blogartikel. Sie geben ihnen einen Wiedererkennungswert und machen sie visuell unterscheidbarer, hübschen ansonsten die Textwüste auf.
Oft ist die Bildquelle auch gar kein Problem. Schreibe ich über ein Spiel, kann ich meist beim Spielen Screenshots machen und dann diese in den Artikel einbauen. Bei einem Artikel über ein real existierendes Ding kann das Telefon davon Bilder schießen. Bei Webseiten sind es wieder Screenshots derselben, so wie oben hier im Artikel. Bei Filmen und Serien eignen sich Screenshots aus Trailern, da das dafür gedachtes Marketingmaterial ist, wobei auch Screenshots aus dem Werk selbst zulässig wären.
Aber es gibt Artikel, zu denen ich keine eigenen Bilder machen kann. Beispielsweise habe ich mal über typische Argumentationen zu Atomkraft geschrieben. Da kann ich schlecht zu einem AKW für fahren und da hineingehen. Manchmal füllen kostenlose Bildersammlungen wie unsplash dann die Lücke mit sogenannten Stockfotos, wenn sie zufällig etwas passendes haben. Die haben aber den Nachteil, dass ihre Bilder teils oft benutzt werden, das macht das mit dem Wiedererkennungswert etwas kaputt. Da taugt der Bildgenerator als Alternative, um Stockfotos mit genau zum Artikel passenden zu ersetzen.
Und bei manchen speziellen Themen gibt es vorab üblicherweise gar keine passenden Bilder. Da erschaffen Bildgeneratoren dann im Zweifel erstmals ein passendes Bild. Wie das oben zu den Softwareabhängigkeiten beispielsweise. Da habe ich mir selbst eine Abstraktion mit den Dominosteinen ausgedacht, aber ich hätte diese Grafik ohne Generator weder erstellen können noch ist es auch nur im mindestens wahrscheinlich, dass bei unsplash & Co dieses Motiv bereitsteht. Für konkrete Abstraktionen generischer Konzepte sind die Generatoren also ein guter Anwendungsfall.
Ein dritter Einsatzort oder vielleicht ein Unterpunkt des vorherigen sind Visualisierungen von Romanen. Früher hätte ich das Buch selbst fotografiert, mit dem Buchcover hätte das getaugt. Doch mittlerweile lese ich meist E-Books. Die haben zwar auch Covers, aber da die Grafiken rauszuziehen und in einem Artikel zu verwenden halte ich für rechtlich nicht sicher. Stattdessen ist es besser, vom Generator ein zur Handlung des Buches passendes Bild erstellen zu lassen, wie oben die Mondbasis. Das habe ich bei allen Buchvorstellungen hier im Blog nachgeholt, die noch kein eigenes Bild hatten.
Und damit ein Fazit.
Microsofts Bildgenerator funktioniert bereits so gut, dass man damit wirklich etwas anfangen kann. Da seine Nutzung kostenlos ist spricht auch wenig gegen einen Test. Mit den erstellten Bildern lassen sich manche Artikel dann recht nett aufhübschen.
Das tolle daran ist die Flexibilität. Während vorher unsplashs Bildersammlung vorgab, welche Bilderuntermalung möglich war, lassen sich jetzt zum jeweiligen Artikel genau passende Bilder erstellen. Langfristig ist völlig klar, dass Stockfotos hiermit ersetzt werden. Da gibt es neben unsplash ja auch einige kommerzielle Dienste, wie den Käufer der Seite, Getty Images. Wobei unsplash mit unsplash+ selbst auch kostenpflichtige Bilder vertreibt. Und genau das dürfte als Geschäftsmodell wegfallen. Es blieben dann nur noch Pressefotos von Ereignissen.
Aber dieser Wegfall wird nicht morgen passieren. Denn derzeit sind die Limitierungen der Generatoren noch zu einschränkend. Wahrscheinlich reicht es für eine Nutzung hier im Blog, aber selbst da spricht für mich einiges dafür, doch manchmal zuerst nach Stockfotos zu schauen. Weil die im Zweifel hübscher sind, auf jeden Fall aber größer und nicht nur quadratisch. Und wenn ein passende Motiv in der Sammlung ist, findet sich sich das mit der Suche vielleicht auch schneller als ein eigenes Bild zu generieren. Denn nicht nur dauert die Erstellung etwas und braucht der Beschreibungstext vielleicht mehrere Anläufe – vor allem muss ich bei einem Bildgenerator ja erstmal auf die passende Idee kommen, wie ein Thema in einem Bild dargestellt werden kann.
Aber wenn da die Entwicklung weitergeht, die Generierung gleichzeitig exakter wird (wie bei Text in Bildern) und weniger beschränkt (wie bei der schwangeren Frau, aber auch bei Größe und Bildformat), wenn man erstellte Bilder mit Text nochmal anpassen lassen kann ("Und jetzt entferne die anderen Pinguine"), dann werden solche Bildgeneratoren noch hilfreichere Werkzeuge werden. Zumindest für jeden, der gerne mit Bildern unterlegt ins Internet schreibt.
Hände und Finger mögen inzwischen besser sein, aber ich war neulich auf einer Modellbahnseite und sehe es hier bei Dir auch: KI kann nicht mit Schienen und Gleisverläufen umgehen ;)
Auf der Seite einer regulären Schiene fahrende Monorails sind immerhin kreativ ;)
Stimmt schon, sobald man auf solche Details achtet sind die erstellten Bilder oft unsauber.