Explizitheit. Klangkolumne

Nach dem Essen sitzen wir noch etwas beisammen. Das Familienoberhaupt stellt eine frisch angeschaffte, moderne Apparatur vor, die den Alltag im Haus bereichern soll. Der unüberhörbare Stolz wird diskret überspielt mit Hinweisen auf den Nutzen und den pragmatischen Umgang – sowie die etlichen Erleichterungen im täglichen Leben, die das neue Gerät doch bereiten würde: »Alexa: Wie ist das Wetter?«, »Alexa: Was ist in den Nachrichten?«, »Alexa, spiele Musik!«, »Alexa, Einkaufsliste!« Sofort hüpfen alle Kinder und Jugendlichen der anwesenden Familien wie aufgestachelt umher, bilden kleine Trauben um das Gerät und führen ihren neuen Freunden vor, was dieses erstaunliche kleine schwarze Ding so alles kann; freilich wird auch sofort gezeigt, wie es zu veräppeln ist, alle lachen und wollen es zu merkwürdigen, untypischen Reaktionen provozieren: »Alexa: Erzähl’ einen Witz!«, »Alexa: Ich bin Dein Vater«, »Alexa: Bist Du doof?«, »Alexa: Mach’ mir ein Sandwich.«

Das erinnert an die Lust am Ausreißen von Fühlern und Beinchen bei kleinen Insekten, sie einzusperren, ihr verwirrtes Umherkrabbeln: Was macht das Ding nun? Wie führt es sich auf? Wann zeigt es, dass es halt doch keine höhere Lebensform ist? Der Sadismus der Kinder hat etwas Entdeckerisches, Welterkundendes: Empfindet das Ding vielleicht doch etwas? Kann es seine Wut, seinen Ärger, Hass vielleicht auch zeigen? Oder können wir es bis zum Letzten bringen – zu einer Art Selbstvernichtung? Sobald aber die äußerste Grenze der Quälerei, der abstrusen Frageinhalte oder Aufgabenstellungen für den handtellergroßen, dicken, schwarzen Diskus erreicht ist, so spricht das Ding: »Entschuldigung, auf diese Frage habe ich leider keine Antwort.«

Die neuen Dienstmägde

Über zwei Dutzend unterschiedliche konversationsfähige Sprachassistenten sind auf dem Markt. Vertrieben und entwickelt werden sie von globalen Software-, Mobiltelefon- und Onlinekaufhäusern. Zur Markteinführung werden sie jeweils angepriesen als Erleichterung für die Kunden, die nun unkomplizierter konsumieren und mit dem Anbieter interagieren können: »Sagen, was man will, wie man es will – Bosch bringt einen Sprachassistenten ins Auto, der Autofahrer versteht, wie ein Mensch«, »Der Smart Speaker ist ein intelligenter Assistent, der die Services der Telekom zuhause mit dem Zuruf ›Hallo Magenta‹ steuert und so durch die Sprachsteuerung den Alltag erleichtert«, »OTTO ist ab sofort mit dem Google Assistant und damit unter anderem mit dem Smart Speaker Google Home kompatibel. Damit gehört OTTO zu den ersten Drittanbietern, mit denen Googles digitaler Assistent in Deutschland zusammenarbeitet.«

Auch diese Generation technischer Neuerungen wirbt also vor allem mit größerer Bequemlichkeit, ihrer (immer noch leidlich) futuristischen Faszinationskraft und ihrer unabweisbaren Attraktivität. Neue Gadgets, Designobjekte oder Websites der Gegenwart zeigen sich gleichermaßen niedlich, verführerisch und angriffslustig, wie Rachel Law und McKenzie Wark schreiben: » Berühr’ mich , sagt das haptische Interface und lächelt durch seine app-runden Augen. Spiel’ mich , sagt das Symbol frisch aufgeschlagener Sahne auf dem gläsernen Monitor. Liebe mich , sagen sie alle. Irgendwie sehen sie alle so vertraut aus, so menschlich mit ihren gemütlichen Formen, aufmerksamen Feedbackschleifen und Glücksfarben. Jeden Tag sind sie zuhause bei uns, sitzen an unseren Betten oder halten unsere Hosentaschen warm … Unsere Anfälligkeit für Affekte und umgekehrt auch das Vortäuschen von Affekten, das alles wird hier zur Waffe.« 1

Das Begehren, das Käuferinnen und Käufer zu diesen neuen Apparaturen hintreibt, es verändert – wird es einmal erfüllt – vorsätzlich das Familienleben im Haus oder der Wohnung. Denn mit den Sprachassistenten stoßen neue Mitbewohner, Kollegen, Familienmitglieder zu uns. Diesen neuen Akteurinnen in unserer Mitte sprechen wir klarerweise keine volle Handlungsmacht und Personalität zu; wir erwarten keine begeisterten Vorschläge fürs gemeinsame Fortgehen, keine Beziehungsgespräche, auch keine einvernehmliche Zukunftsplanung mit ihnen. Dennoch können und wollen diese Akteure eine lange Liste von Einzelentscheidungen, Datenübertragungen, Such- und Vernetzungsaufgaben für uns erledigen. Täglich nehmen sie viele Stunden lang an unserem Familien- oder Berufsleben teil, leisten uns Hilfestellung, hören gut zu (und vergessen hoffentlich das meiste, was nicht für ihre Mikrofone bestimmt war), und sie nehmen uns ausgewählte Aufgaben auf Zuruf ab.

Diese Smart Speaker sind somit Teil unserer kleinen heimischen Lebenswelt geworden – ähnlich wie der Hund, die Katze, das MacBook, das kostbare Rennrad oder Automobil, der Thermomix, das Aquarium oder auch das Paar hochwertige, lang gesuchte Lautsprecher. All diese Dinge, Tiere, Apparaturen und Möbel verbindet, dass wir zusammen mit ihnen leben – wenigstens in der idealtypisch wohlgeordneten, mittelständischen Heterofamilienutopie (die faktisch nirgendwo existiert). Wir empfinden Fürsorge, Hingabe, Zugehörigkeit, eine gewisse Zärtlichkeit für diese Akteurinnen und Akteure in unserem häuslichen Umfeld – selbst, wenn es keine wahlberechtigten oder vertragsfähigen Personen sind.

Wir sorgen uns um ihr Wohlergehen, um Symptome schadhaften Verfalls, Krankheiten und Fehlfunktionen. Wir genießen ihre Anwesenheit, und im Fall der Sprachassistenten genießen wir vor allem ihre Dienstleistungen, unkompliziert und prompt bereitgestellt. Es stört uns gar nicht, dass diese Dinge, denen wir Namen geben, die wir anschimpfen oder für ihr Wohlverhalten loben, oft keine Antwort haben, sich nicht einmal im engeren Sinne geschmeichelt fühlen, sondern schlichtweg weiter ihren Dienst tun: Sie sind Teil unseres Heims. Sind Sprachassistenten, die Intelligent Virtual Assistants ( IVA ), also unser neues Hauspersonal und Gesinde, unsere Leibeigenen und Lakaien? Sprechen wir den Smart Speakern nicht exakt den Grad an anonymer, doch präsenter und reagierender Personalität zu, der in früheren Jahrhunderten am ehesten noch Dienstmägden oder Dienstboten zugesprochen wurde?

Das Geschlecht der Maschine

Die meisten der IVA’s sind tatsächlich Assistent innen : Die Stimmfärbungen und der Sprachduktus, die überwiegend angeboten oder gewählt werden, sind die einer jungen, bedachten, hinreichend unterwürfigen, doch selbstbewusst-hilfsbereiten Dienstmagd. Nur wenige Smart Speaker bieten überhaupt die Möglichkeit einer männlich klingenden Stimmfärbung an. Der Default ist weiblich. Die Geschichte dieser Stimmfärbung und ihre Vergeschlechtlichung ist dabei ziemlich gewunden und noch keineswegs abgeschlossen.

Was aber ist der Grund für die geschlechtliche Kodierung? Weshalb sollte eine technische Apparatur, die in der Regel weder Geschlechtsorgane zu ihrer Reproduktion noch sexualisiertes Verhalten zur Erledigung ihrer Aufgaben benötigt, sich überhaupt in geschlechtlich eindeutig zugeordneter Manier artikulieren? Wäre eine geschlechtlich hinreichend neutrale Stimmfärbung, ein sozusagen sächliches oder apparatisches Geschlecht nicht viel angemessener? Wäre es nicht der Erledigung der Aufgaben zuträglicher? Sollte man nicht gerade verhindern wollen, dass Vorurteile, Sexismen und Rassismen, das ganze intersektionale Repertoire an Diskriminierungsformen qua Stimmfärbung und Habitus, in Software eingebaut werden – so wie dies die prominent besetzte Initiative Equal AI kürzlich forderte?

Die Geschlechtszuweisung lässt sich nicht technisch, sehr wohl aber kulturell und historisch begründen. Es sind die Projektionen der Entwickler und deren Mutmaßungen über Nutzerwünsche, die die Vergeschlechtlichung vorantreiben – mitunter auch entgegen ausdrücklicher Kundenwünsche. Legendär ist die Ablehnung einer weiblichen Stimme von GPS-Assistenzsystemen zur Verkehrsnavigation der BMW-5er-Reihe in den 1990er Jahren. Die Käufer scheinen damals die Verkehrshinweise einer (obwohl ganz offensichtlich künstlich generierten) weiblichen Stimme als völlig unangemessen, befremdlich und wenig vertrauenerweckend empfunden zu haben: eine klar patriarchalische Inkompetenzzuschreibung durch die soziale Gruppe der Fahrer und Käufer höherpreisiger Limousinen jener Epoche. 2

Diese historische Ablehnung einer weiblichen Fahrerassistenz hat sich gewandelt. Zwei Gründe lassen sich dafür anführen: Zum einen wurde die Rolle der elektronischen Assistentin vielen Nutzern und Fahrern zunehmend vertrauter durch ihre wiederholte Darstellung und damit auch kulturelle Einübung etwa in Science-Fiction-Filmen, -Fernsehserien, -Romanen, später auch in Computerspielen und vielen anderen künstlerischen Werken. Die weibliche Stimme aus dem Computer wurde von einer belehrenden, göttinnengleichen, ungreifbar-überlegenen Instanz zu einer vertrauten Helferin, Beibringerin, eben einer Dienstmagd und hilfreichen Assistentin.

icon printMehr Merkur?
Jetzt drei Ausgaben im Probe-Abo lesen!

 

Neben dieser Wandlung der kulturellen Einbettung hat sich zum anderen auch die Technik der Stimmerzeugung weiterentwickelt; lange wurden Geschlechter allein durch Tonhöhen repräsentiert, von den kuriosen Apparaturen zur Simulation einer menschlichen Stimme durch Blaseblag, Rohrblatt, Pfeife und Gummimund im 19. Jahrhundert bis zur elektrischen Spracherzeugung durch Filtern und Modulieren von Klangsignalen im 20. Jahrhundert. Im 21. Jahrhundert nun erlauben es die neueren Anwendungen, bestehende Aufnahmen von Lauten und Worten erstaunlich differenziert miteinander zu verschmelzen, zu modellieren und anzupassen. Denn Geschlecht wird kaum allein durch Tonhöhe repräsentiert: Tiefe Frauenstimmen oder hohe Männerstimmen werden gleichermaßen als beeindruckende Performances der jeweiligen Geschlechtlichkeit gehört.

Die aktuellen Techniken der Stimmerzeugung können weibliche Stimmen nun nicht mehr nur durch ihre Tonhöhe von männlichen absetzen, sondern die Mixtur der Frequenzen und Formanten, die eine Stimme ausmachen, werden in Verbindung mit etlichen weiteren Charakteristika abgemischt, wie etwa dem Sprechtempo, Anhauch, Auslautung, Pausensetzungen und Artikulationsklarheit. Die künstlichen weiblichen Stimmen der 2010er Jahre ähneln somit in wesentlich mehr und komplexer aufeinander bezogenen Punkten dem Timbre einer Stimme, die wir auch im täglichen Hören als eher weiblich einordnen würden – selbst wenn das biologische Geschlecht ein männliches ist und die Tonhöhe eher im unteren Register von Bariton oder Bassbariton liegt. Die binäre Matrix der zwei Geschlechter bleibt aber auch hier der Goldstandard, an dem ängstlich festgehalten wird. Wie könnte eine Stimme jenseits dieser Matrix klingen?

Womöglich muss der Umgang mit Sprachassistenten erst länger eingeübt worden sein, bevor das vermeintlich unumgängliche Vergeschlechtlichen ähnlich altmodisch und befremdlich anmutet wie Computer, die wie Schreibmaschinen, Automobile, die wie Pferdefuhrwerke, oder Mobiltelefone, die wie Telefonhörer aussehen müssen. Die Formgebung einer neuen Technik wird erst dann eigenständiger, wenn die allgemeine Erinnerung an das alte Vorbild verblasst.

Das explizite Sprechen

Die Bezeichnung als Sprachassistent für diese Geräte hat sich indes weitgehend durchgesetzt und ebenso auch die kumpeligen Eigennamen zwischen Alice und Alexa, Siri, Bixby, Clova und Xiaowei. Ein wichtiges strategisches Ziel der Unternehmen ist damit schon erreicht: Die Anthropomorphisierung von Such-, Bestell- und Bezahldienstleistungen. Das Heimischwerden von Technologie im täglichen Leben beschrieb der britische Mediensoziologe Roger Silverstone einst als Prozess der Domestizierung . 3

Die Nutzerinnen und Nutzer domestizieren hierbei nach Markteinführung das neue wilde Tier aus den Entwicklerlabors, bis es zum unverzichtbaren und nicht mehr störenden Teil ihres Lebens geworden ist – durch Aufkleber, Wallpaper und Skins, durch Handytaschen und persönliche Ticks, die geläufige Bedienung und den lakonischen Zugriff bis hin zu Lagerplätzen am Bett, im Wohnzimmer, im Auto oder Rucksack. Doch auch die Nutzer oder Nutzerinnen selbst werden durch das Technikmonster im Gegenzug domestiziert, indem es zu neuen Verhaltensweisen auffordert, Verhaltensänderungen verlangt und nicht selten abhängig macht von seinem Gebrauch: abhängig von einem Ding, das vor wenigen Wochen oder Monaten noch kaum bekannt war.

Aus Perspektive der Sound-Design-Forschung scheint sich die Domestizierung der Nutzer durch Sprachassistentinnen nun – dies eine erste Annäherung – vor allem in ihren neu gelernten Wortketten, ihrem Sprechduktus und ihrer körperlichen Sprechhaltung abzubilden. Für diese neuen Gesprächspartner bringen die Nutzer etwa folgende Anpassungsleistungen auf: Zum einen übernehmen sie nach einer Zeit des Ausprobierens, Spielens, Ärgerns und Scherzens eine Reihe von formelhaften Sätzen, die als sogenannte Befehle dem Gerät zugerufen werden; hier finden sich sowohl von anderen Nutzern aufbereitete Listen der »nützlichsten Sprachbefehle« als auch der übliche Austausch unter Neunutzern, wie denn dieses Gerät noch besser zu handhaben wäre. Ähnlich wie Hunde oder Katzen etwa ihrem neuen Besitzer beibringen können, wann ihre liebsten Gassizeiten, welches ihre liebsten Schlafplätze sind und welche Art von Futter sie besonders schätzen, so werden auch hier die neuen Herrchen und Frauchen faktisch von den Softwareentwicklern einer neuerworbenen Sprachassistentin erzogen.

Zum anderen wird unmittelbar – oft sicher durch die erwähnten Filmstimmen gelernt – ein bestimmter Duktus der erhobenen Stimme und des überdeutlichen Artikulierens angenommen: Mit der Zeit mag dieser sich abschleifen, doch die Erwartung an die Spracheingabe ist, dass sie eine erhöhte Klarheit und Deutlichkeit des Sprechens benötigt – ähnlich wie offenbar auch ein Hausherr seinem Dienstpersonal oder ein höherrangiger Militär seinen Untergebenen überdeutlich und unmissverständlich Befehle erteilt. Bis dem Nutzer einer Sprachassistentin nun klar ist, wo er überdeutlich reden sollte (etwa bei Schlüsselbegriffen) und wo er auch mal kurz nuscheln kann (bei wiederkehrenden Formeln), dauert es einige Zeit; dann schleift sich das streberhafte Überartikulieren ab.

Drittens schließlich wird körperlich zum Gerät hin artikuliert, jedoch nicht in der Zugewandtheit, die wir für einen menschlichen Gesprächspartner aufbringen; die Nutzer sprechen zwar für das Gerät, doch nicht zu ihm, denn: Dieses Sprechen ist nicht auf Antwort hin angelegt, auf Diskurs oder Austausch. Das Sprechen zu einer Sprachassistentin enthält explizite Befehle und ist als gesprochene Eingabe in eine Suchmaske zu verstehen. Solche Äußerungen erwarten lediglich zwei Reaktionsformen: verstehen und entsprechend handeln – oder: nicht verstehen und um Erklärung bitten. Ein sprachlicher Austausch in Form eines Gesprächs, das potentiell die Annahmen und Erwartungen, auch die Haltungen und Positionen oder gar die Beziehung und die Wertschätzung beider Gesprächsteilnehmerinnen zueinander transformieren könnte, ein solcher Austausch wird weder erwartet noch vorangetrieben.

Es ist ein vollständig explizites Sprechen, das hier zu praktizieren ist. Allein das, was unmissverständlich und ausdrücklich ausgesprochen wird, wird auch verstanden. Das Reich des Impliziten, das aber jede noch so winzige unserer Äußerungen umgibt und in einen endlos anmutenden Raum aus Kontexten, Konnotationen und Assoziationen einfügt, aus Bezügen auf gemeinsam Erlebtes und verdeckt Erwartetes, aus unausgetragenen Konflikten und untergründigem Begehren – alles das, was unser Sprechen maßgeblich bestimmt, das alles muss ignoriert, unterbunden und unterdrückt werden. Das Gegenüber wird es nicht verstehen. Es bleiben die erwähnten Befehlssätze, die einen analytischen Philosophen wohl in Verzückung geraten ließen: Sprache aus reinen Propositionen.

Ganz so rein ist aber selbst dieses Sprechen nicht, da genügend andere Kontexte und Konnotationen mitgeführt werden. Diese Kontexte entspringen der Tätigkeitsbeschreibung der digitalen Dienstmägde, die vor allem zum Vollzug kommerzieller Transaktionen und zum Durchsuchen öffentlich zugänglicher Datensätze angestellt wurden. In der Fachsprache der IVA-Entwickler heißt dies »conversational commerce«, der gesprächsbasierte Verkauf. Vernachlässigbar ist hierbei der Unterschied, ob Konsumprodukte geordert, Dienstleistungen ausgeführt oder Datenbanken kostenpflichtig oder werbefinanziert abgefragt werden. Die digitalen Dienstmägde sind Marketenderinnen, die ihren Verkaufsstand praktischerweise gleich dort aufgestellt haben, wo ihre potentiellen Kunden sich besonders konsumfreudig und wenig marketingskeptisch zeigen: an der Wohnzimmercouch, auf der Küchenarbeitsfläche, im Badezimmer.

Eine Sorge bei der Einführung dieser neuen Apparaturen schien vor allem die besseren Stände zuletzt sehr zu beschäftigen: 4 Würden ihre Kinder nun den Befehlston, auch das sadistische Spielen mit Sprachassistentinnen völlig übernehmen und mit allen Gesprächspartnern so umgehen? Diese kulturpessimistische und recht distinktionsgesättigte Erziehungsangst zielt jedoch an der grundlegenderen gesellschaftlichen Transformation vorbei, die en passant befestigt wird. Denn wie frühere neueingeführte Apparaturen oder Genres – Schallplatten, Fernsehprogramme, Videospiele oder Mobiltelefone – werden Sprachassistentinnen ihren Platz im täglichen Leben finden, und wir werden unsere Umgangsform mit diesen neuen Mitbewohnern verfeinern. Kinder werden weiterhin ausprobieren, was nicht verboten scheint – jedoch auch lernen, was schädigt, was sanktioniert und was auf die Dauer fad wird. Diese entschärfende und normalisierende Einbettung neuer Apparate in bestehende Gefüge aus Handlungsgewohnheiten, überlieferten Traditionen und Bedürfnissen nach lebensweltlicher Konstanz ist das Ergebnis auch einer kulturellen Massenträgheit, die Umbrüche eher kleinredet als aufbläht.

Eine größere Sprengkraft – auch größer als die überwachungsstaatlich ausnutzbare Datenspeicherung und die bedrohliche Autonomie solcher Geräte – erscheint demgegenüber die Fortsetzung der Merkantilisierung des täglichen Lebens und noch der intimsten Momente zu besitzen. Hier handelt es sich nicht um eher lokale und vorübergehende Zweifel an angemessenen Lebensstilen und Erziehungszielen einer bestimmten Gesellschaftsschicht, sondern um länger wirkende Veränderungen der Alltagskultur. Denn die Forderung nach explizitem Sprechen verweist darauf, dass vor allen Dingen eindeutige Bestellvorgänge erwünscht und andere Formen des Umgangs nachgeordnet oder zu vernachlässigen sind.

Sprachassistentinnen tragen durch ihre Präsenz zur Normalisierung und Entschärfung dieses Sprechens bei. Ganz ohne Ironie, ohne anspielungsreiche Verweise wird im Wohnzimmer im expliziten Ton des Dienstbotenauftrags ohne erkennbare Hintergedanken gesprochen. Dieses Sprechen gerät dabei an seine Grenzen, die des Unausgesprochenen, jedoch dringlich Mitgemeinten, wenn die Benutzer von Sprachassistentinnen diese nicht mehr allein als bequemes und (noch) distinktionsreiches Interface benutzen, sondern es dringend brauchen, um ihr tägliches Leben zu bewerkstelligen.

Behinderte Menschen nutzen diese Geräte nämlich vermehrt als recht günstige Haushalts- und Alltagshilfe. Sollte diese große gesellschaftliche Aufgabe tatsächlich ein Anliegen der Hersteller sein, müsste das explizite Sprechen ins metaphorische Eingabefeld als Modell aufgegeben werden. Stattdessen würde ein sensorisch komplexes, nicht sprachzentriertes Verständnis für kontextbezogene und stark implizite Hinweise der Nutzerinnen ausgebaut werden. Nicht wenige Entwickler werden wohl auch diese Nutzung aktuell bearbeiten, die fraglichen Datenschutzbedenken hierbei wohl auch ausräumen – und bei Erfolg einen entscheidenden Beitrag dazu leisten, implizites Sprechen und nonverbales Artikulieren von Bedürfnissen bei der Programmierung künstlicher Assistenten zu berücksichtigen: Assistenten, die – wie Sie oder ich – weit mehr sein könnten als nur Dienstleister mit raffiniertem Datenbankzugriff und Auftragsservice, deren Sprachein- und -ausgabegeräte unsere Bestellungen beim angeschlossenen Internetkaufhaus erleichtern.

FUSSNOTEN & QUELLENANGABEN

  1. Rachel Law /McKenzie Wark, W.A.N.T: Weaponized Adorables Negotiation Tactics. New York: Kickstarter 2013.
  2. Leila Takayama /Clifford Nass, Driver safety and information from afar: An experimental driving simulator study of wireless vs. in-car information services. In: International Journal of Human-Computer Studies, Nr. 66 /3, März 2008.
  3. Roger Silverstone /Eric Hirsch (Hrsg.), Consuming Technologies. Media and Information in Domestic Spaces. London: Routledge 1992; Thomas Berker /Maren Hartmann u.a., Domestication of Media and Technology. London: Open University Press 2005.
  4. Amazon Echo Is Magical. It’s Also Turning My Kid Into an Asshole. In: Hunter Walk vom 6. April 2016.

2 Kommentare

  1. Max sagt:

    Ein ‚einen entscheidenden Beitrag‘ hat sich im letzten Absatz doppelt eingeschlichen.

    Beste Grüße

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *


* Die Checkbox für die Zustimmung zur Speicherung ist nach DSGVO zwingend.

Ich stimme zu.