Heft 899, April 2024

KI-Kolumne

Diversität in Daten? von Paola Lopez

Diversität in Daten?

Oft wird berichtet, dass es Schieflagen, Bias, in Datensets gibt. Manche Aspekte mancher Gruppen von Menschen werden weniger sichtbar, übertrieben sichtbar oder aber falsch abgebildet. Die KI-Modelle, die auf Grundlage verzerrter Daten gebaut werden, liefern entsprechend problematische Outputs. Ein bekanntes Beispiel ist mangelnde Diversität in den Trainingsdaten von automatisierter Gesichtserkennung.

Das ist mühsam, wenn man per Frontkamera sein Smartphone entsperren möchte, die Kamera das eigene Gesicht aber nicht als Gesicht erkennt – und es kann lebensbedrohlich sein, wenn die Polizei in Ermittlungsverfahren Matching-Algorithmen einsetzt, um ein Gesicht auf dem Bild einer Überwachungskamera mit dem zentralen Register der Führerscheinbilder abzugleichen, und dabei Fehler geschehen. Menschen, die laut KI-Matching ein hinreichend ähnliches Gesicht haben wie der oder die Schuldige, können ohne eigenes Zutun unvermittelt in die Fahndungsmaschinerie geraten. Aufgrund des Bias in den Daten trifft das überproportional viele Menschen mit dunklerem Hautton.

Ich habe darüber geschrieben, dass Sprachmodelle wie ChatGPT zu stereotypen Outputs neigen. Ein Chatbot, den das österreichische Arbeitsmarktservice (AMS) auf seinen Seiten anbietet, hat das exemplarisch gezeigt: Öffentlich zugänglich, soll der »Berufsinfomat« Informationen und Tipps zur beruflichen Orientierung geben. Er soll Ausbildungswege zum Wunschberuf anzeigen und, wenn es keinen Wunschberuf gibt, dabei helfen, einen zu finden. Der Chatbot basiert auf ChatGPT und wurde zusätzlich mit AMS-internem Infomaterial angereichert, um die entsprechenden Informationen in gut verträglicher dialogischer Form den Nutzerinnen und Nutzern zur Verfügung zu stellen. Am Tag nach der Veröffentlichung tauchten die ersten Screenshots von Outputs des »Berufsinfomat« auf. Einem achtzehnjährigen Mann mit sehr gutem Schulabschluss wurde eine Karriere im IT-Bereich nahegelegt, einer achtzehnjährigen Frau mit sehr gutem Schulabschluss ein Studium der Gender Studies. Es ist wie ein schlechter Scherz. Und es ist das, was die zuständige staatliche Stelle mit staatlichem Auftrag der Öffentlichkeit als Service bereitstellt. Interessant ist, dass offenbar niemand auch nur den basalsten Bias-Test im Vorfeld durchgeführt hat. Stattdessen veröffentlichte man den Chatbot, gab sich am nächsten Tag gekränkt ob des »Hohns«, arbeitete dann aber die unbezahlte Arbeit von Privatpersonen ein und verbesserte das Produkt ein klein wenig durch ex post eingefügte quick fixes.

Als Lösung für die Problematik solcher KI-basierten Prognosen, Klassifizierungen, Matchings, Rankings, Chatbots, Bildergeneratoren, etc. werden oft diversere Datensets vorgeschlagen. Wenn in Datensets mehr Diversität vorhanden ist, so das Argument, dann »sieht« das darauf aufbauende KI-Modell auch die volle Heterogenität von Gesichtern, Menschen, Erwerbsbiografien und so weiter und kann sie entsprechend abbilden. Mit »Diversität« meint man dabei nicht irgendeine Verschiedenartigkeit unter Menschen, sondern Kategorien, die man mit gesellschaftlichen Ungleichheiten in Verbindung sieht. Das sind oft Kategorien, die im Antidiskriminierungsrecht als geschützte Merkmale aufscheinen und die sich vergleichsweise gut datafizieren – also in Daten gießen – lassen. Im Folgenden möchte ich diesen Lösungsvorschlag in vier Punkten verkomplizieren.

Erstens: Die gezielte Beschaffung von »diverseren Daten« kann ausbeuterisch sein. Im Jahr 2019 präsentierte Google sein neues Smartphone Pixel 4, zusammen mit einem Werbeclip: In diesem Video entsperrt eine schwarze Frau mit dunklem Hautton in einem dunklen Raum ihr Smartphone per Gesichtserkennung. Der Videoclip ist als direkte Antwort auf die damals schon existierende Bias-Debatte zu verstehen, und Google berief sich ausdrücklich auf die bessere Inklusivität des Verfahrens. Wenn man als Hersteller ein KI-System baut, das anhand vieler Daten das Erkennen von Gesichtern lernen soll, und feststellt, dass die Funktionalität für dunklere Hauttöne nicht zufriedenstellend ist, dann braucht man Trainingsdaten von bisher nicht hinreichend repräsentierten Hauttönen. Am besten möglichst schnell, möglichst unaufwändig und möglichst kosteneffizient, denn dieses Unterfangen ist immer noch in die Logiken eines Unternehmens eingebettet.

Möchten Sie weiterlesen?

Mit dem Digital-Abo erhalten Sie freien Zugang zum gesamten MERKUR, mit allen Texten von 1947 bis heute. Testen Sie 3 Monate Digital-Abo zum Sonderpreis von nur 9,90 Euro.

Jetzt Probelesen

Weitere Artikel des Autors