Heft 882, November 2022

»I am a coal-truck«

von Berit Glanz

Nature Writing und digitale Literatur

Bei meiner Google-Suche nach Bildern von Kohletransportern erscheinen unzählige Aufnahmen der offenen Fahrzeuge auf dem Bildschirm. Auf den großen Kipplastwagen liegen Berge aus Kohle, und es ist offensichtlich, weswegen die Fahrzeuge in kaum einem Kinderbilderbuch fehlen, auch wenn sie dort heute meist Steine und Sand transportieren. Der mit Kohle gefüllte Lastwagen ist aus dem Alltagsbild der großen Städte verschwunden. Die Verwendung des Kohletransporters als literarisches Motiv, das von einer Sichtbarkeit der Fahrzeuge im öffentlichen Raum ausgeht, würde in Texten der Gegenwart anachronistisch wirken.

Ich war deshalb sehr überrascht, als in der Lyrik, die ich im Herbst 2020 mit dem vortrainierten neuronalen Netzwerk Img2Poem generierte, immer wieder ein Kohletransporter auftauchte. Dieses Netzwerk ist so programmiert, dass es auf Basis von Bildern Lyrik produziert. Dafür beschreibt Img2Poem ein Bild mit Begriffen und generiert auf dieser Grundlage ein englisches Gedicht, das mindestens vier Verse lang ist. Geradezu obstinat kehrte bei meinen Ergebnissen, und zwar bei den unterschiedlichsten Eingabebildern, die Gedichtzeile: »I am a coal-truck« wieder.

Wie kommt der Kohletransporter in die Lyrik? Offensichtlich durch einen Verarbeitungsfehler der Künstlichen Intelligenz. Es ist jedoch eines der konstitutiven Merkmale von KI, dass man nur schwer nachvollziehen kann, wie der Algorithmus zu seinen Ergebnissen kommt. Man muss sich diesen selbst, die Trainingsdaten und das Training sehr genau ansehen, und selbst dann kann es sein, dass sich die Frage nach dem Weg des Netzwerks durch die Menge der Daten nicht eindeutig beantworten lässt.

Lyrik und Algorithmen

Img2Poem wurde von Forscherinnen und Forschern der Universität Kyoto entwickelt. Zum Training des neuronalen Netzwerks wurden zwei Datenkorpora verwendet. Das kleine Korpus MultiM-Poem besteht aus 34 847 Bild-Gedicht-Paaren. Diese wurden nicht automatisch generiert, sondern aus öffentlichen Gruppen der Fotografieplattform Flickr gescraped (also automatisch extrahiert), in denen die Userinnen und User ausdrücklich schon Bilder mit Gedichten kombiniert hatten. Diese Bild-Gedicht-Kombinationen wurden dann von fünf Literaturwissenschaftsstudierenden auf Relevanz überprüft und auf 8292 Kombinationspaare reduziert.

Als zweiter Trainingsdatensatz wurde das sehr viel größere Korpus UniM-Poem verwendet, für das 92 265 englischsprachige Gedichte von unterschiedlichen Websites gescraped wurden: »To achieve robust model training, a poem pre-processing procedure is conducted to filter out those poems with too many lines (> 10) or too few lines (< 3). We also remove poems with strange characters, poems in languages other than English and duplicate poems.«1

Idealerweise sollten die aus den vorliegenden Bildbeschreibungen generierten Gedichte menschlichen Leserinnen und Lesern so poetisch wie im Rahmen des lyrisch Möglichen sinnvoll erscheinen. Dem standen der Forschergruppe zufolge drei Probleme entgegen: Das erste betrifft die »cross-modality« von Bild und Gedicht, also die medialen Unterschiede von Bild und Text. Der leichtere Weg einer Generierung von Gedichten aus einfachen sprachlichen Bildklassifizierungen hätte zu viele Informationen und poetische Anhaltspunkte, vor allem die Ebene symbolischer und konnotativer Bedeutung des Bildes, außer Acht gelassen. So könnte eine auf den sichtbaren Bildinhalt beschränkte Klassifizierung einen Sonnenuntergang nur als Sonnenuntergang beschreiben, bekäme aber die damit zusammenhängenden Assoziationen des Settings von Liebe bis Abschiedsstimmung nicht in den Blick.

Ein weiteres Problem: Einzelne Bilder können zu mehreren Gedichten passen, die Zuordnung würde von Individuen aber als unterschiedlich stimmig bewertet. Eine automatisierte Beschreibung des bloß Dargestellten dagegen wird immer ähnliche Resultate liefern. Literarisch ist Mehrdeutigkeit in der Regel erwünscht. Im Kontext der KI dagegen ist sie ein Problem. Es ist nämlich nicht leicht zu entscheiden, ob der Algorithmus beliebige Gedichte generiert, die zu allen Bildern passen könnten, oder ob er der Aufgabe gerecht wird, zu bestimmten Bildern passende Lyrik zu generieren, die dennoch über eine reine Inhaltsbeschreibung hinausgeht.