Verschiedene KI-Dienste, die sich auf Bildgenerierung spezialisiert haben, überraschen uns seit Anfang 2023 mit immer besser werdenden fotorealistischen Bildern von Menschen. Was aber hat es damit auf sich, dass die Hände und Zähne der künstlich erzeugten Menschen zum Teil absurde Dimensionen und häufig eine unrealistische Anzahl haben? Werfen wir darauf einen genaueren Blick.
Pranav Dixit von Buzzfeed ist dem Ganzen einmal nachgegangen: Im März 2023 stieß der 31-jährige Programmierer Miles Zimmerman aus San Francisco auf ein interessantes Phänomen, während er mit Midjourney, einem KI-gesteuerten Tool zur Bildgenerierung, experimentierte. Er stellte fest, dass die generierten Bilder von Menschen zwar fotorealistisch waren, jedoch auffällige Fehler in der Darstellung von Händen und Zähnen aufwiesen.
Dienste wie Midjourney, Stable Diffusion und DALL-E 2 nutzen generative KI, um nahezu jedes gewünschte Bild aus einfachen Textanweisungen zu erstellen. Diese Programme wurden anhand von Milliarden von im Internet gefundenen Bildern und den zugehörigen Textbeschreibungen trainiert.
Trotz der rasanten Fortschritte bei der KI-Bildgenerierung gibt es ein Detail, bei dem sie immer noch Schwierigkeiten hat: realistische menschliche Hände zu erzeugen. Doch warum ist das so? Um diese Frage zu beantworten, kontaktierte der Autor Vertreter von Midjourney, Stability AI und OpenAI. Nur Stability AI antwortete und erklärte, dass in KI-Datensätzen Hände im Vergleich zu Gesichtern weniger sichtbar und meist kleiner in den Quellbildern dargestellt sind.
Um mehr darüber zu erfahren, wurde Amelia Winger-Bearskin, Künstlerin und außerordentliche Professorin für KI und Kunst an der University of Florida, befragt. Sie erklärte, dass generative KI, die auf Milliarden von im Internet gefundenen Bildern trainiert wurde, nicht wirklich versteht, was eine „Hand“ ist oder wie sie anatomisch mit dem menschlichen Körper verbunden ist.
Die KI lernt von Fotos, Gemälden und Screenshots, in denen Hände oft etwas halten oder von Stoffen oder anderen Objekten verdeckt sind. Dadurch versteht die KI nicht genau, wie Hände aufgebaut sind und welche Einschränkungen sie haben.
Hände spielen eine grundlegende Rolle in der Kunstwelt. Sie sind eines der schwierigsten Objekte zum Zeichnen oder Malen. Erst in der Renaissance, als Künstler wie Leonardo da Vinci begannen, Hände zu studieren und zu skizzieren, wurden sie in ihrer ganzen Komplexität dargestellt.
Winger-Bearskin ist zuversichtlich, dass generative KI eines Tages wesentlich besser darin werden wird, realistische Darstellungen von Händen, Füßen und Zähnen zu erzeugen. Sie erklärt, dass die KI „verstehen muss, was es bedeutet, einen menschlichen Körper zu haben, wie genau Hände daran angeschlossen sind und welche Einschränkungen sie haben“. Für die KI, um ein nützliches Werkzeug für die Menschheit zu werden, muss sie das Verständnis dafür entwickeln, was es bedeutet, menschlich zu sein und die anatomische Realität des Menschseins.
Somit zeigt der Buzzfeed-Artikel die Schwierigkeiten und Herausforderungen bei der Erstellung realistischer Bilder von Händen mithilfe von KI-generierten Bildern auf. Trotz der beeindruckenden Fortschritte in der KI-Bildgenerierung bleiben einige Aspekte, wie die Darstellung von Händen, eine anspruchsvolle Aufgabe. Zukünftige Entwicklungen in der KI-Forschung und -Technologie werden aber bestimmt dazu führen, dass diese Schwierigkeiten überwunden und KI-generierte Bilder immer realistischer und menschenähnlicher werden.