KI-Kunst und das Posthumane
Medientheoretisch-philosophische Überlegungen zu Alexander Schuberts Convergence (2021)
Simon Tönies
Am Beispiel von Alexander Schuberts Bühnenkomposition Convergence untersucht der Artikel Anknüpfungspunkte experimenteller KI-Kunst an posthumanistische Theorie. Zuerst wird analysiert, inwiefern das Stück KI als mediale Differenz inszeniert. Die Ergebnisse werden dann in einen Dialog mit posthumanistischen Ansätzen von Autor:innen wie Karen Barad, Jane Bennett und Bruno Latour gebracht. Aus dieser Perspektive stellen sich insbesondere die Produktionsverhältnisse und -prozesse als performative Kritik des inszenatorischen Settings heraus. Zuletzt wird der Frage nachgegangen, welche Erkenntnispotenziale künstlerische Praxis umgekehrt für die philosophische Theoriebildung entfalten kann.
Using Alexander Schubert’s stage composition Convergence as an example, the article examines intersections between experimental AI art and post-human theory. First, the extent to which the piece conceptualizes AI as medial difference is analysed. The results are then brought into dialogue with post-human approaches by authors such as Karen Barad, Jane Bennett, and Bruno Latour. From this perspective, the relations and processes of production appear as a performative critique of the staged setting. Finally, the question of what epistemological potential artistic practice can precipitate for philosophical theory-building is explored.
Spätestens seit Mitte des 20. Jahrhunderts zeichnet sich eine medienreflexive Tendenz neuer und zeitgenössischer Musik[1] ab.[2] Nicht nur quantitativ führt die »Verfransung der Künste«[3] zu einer Ausdifferenzierung der Medien (Elektronik, Tonband, Video, Performance usw.), sondern auch qualitativ wird die umfassende Medialität von Kunst immer öfter explizit verhandelt – sie ist Teil des Konzepts. Dabei geht es einerseits darum, die Semiose verschiedener Informationskanäle bei der Rezeption auszuloten, andererseits aber auch um die Intramedialität des Kompositionsprozesses selbst – von der Materialität des Computerbildschirms bis zu den ökonomischen, sozialen oder kulturellen Kontexten. Die Arbeit mit Künstlicher Intelligenz (KI) ist dabei ein relativ neues, in seinen Auswirkungen aber besonders signifikantes Experimentierfeld.
KI im engeren Sinne meint heute vor allem diejenigen digitalen Technologien, die konnektionistisch arbeiten, d. h. die nicht über ein Bündel programmierter Regeln schrittweise eine Aufgabe erledigen (wie etwa die expert systems[4] der 1980er Jahre), sondern die über komplexe, in ihrer Vorgehensweise nicht mehr überschaubare neuronale Netzwerke gesteuert werden. Analog zum menschlichen Nervensystem sind diese künstlichen Netzwerke in der Lage, die Verbindungen zwischen den ›Neuronen‹ – den einzelnen Minirechenzellen – stetig anzupassen und auf diese Weise dazuzulernen, also die gestellte Aufgabe immer zuverlässiger, effizienter und akkurater auszuführen.[5]
Die gesellschaftlichen Auswirkungen solcher KI-Systeme müssen kaum mehr hervorgehoben werden – von den Empfehlungsalgorithmen der Streamingdienste[6] und Onlineshops über selbstfahrende Autos bis zu autonomen Waffensystemen. Als Marshall McLuhan 1964 die Aufmerksamkeit auf die Medien (als nichtmenschliche Instrumente menschlicher Interaktion) und ihre politisch-transformatorische Eigendynamiken gelenkt hat, statt sie lediglich als Werkzeuge dem Menschen unterzuordnen,[7] war die Bedeutung der in den Kinderschuhen steckenden KI-Systeme noch nicht absehbar, die heute für alle Lebensbereiche offensichtlich ist. Die künstlerische Beschäftigung mit KI ist aufgrund dieser soziopolitischen Bedeutung immer auch Konzept – unabhängig von der konkreten Herangehensweise ist schon das Wissen um die mediale Einbettung von KI etwas, das die Rezeption beeinflusst und assoziativ anreichert.
Die medienreflexive Tendenz zeitgenössischer Kunst zeigt sich bereits daran, dass Künstler:innen sich dieses konzeptuellen Eigenwerts digitaler Medien bewusst sind und ihn zum integralen Bestandteil ihrer Arbeit machen.[8] Am weitesten gehen dabei Künstler:innen und Komponist:innen wie Adrianne Wortzel oder Alexander Schubert, die eine posthumanistische[9] Perspektive einnehmen, indem sie etwa fragen, »how machines, if they could, would relate to humans«[10] oder »[w]hat constitutes the gaze of the digital itself«.[11] Aber auch jenseits dieses spekulativ-posthumanistischen Einschlags interessieren sich Künstler:innen in ihren Arbeiten für mediale Differenz. So sucht etwa Artemi-Maria Gitoi nach der »intersection between human and computational decision-making«;[12] ähnlich fragen Gustavo Crembil und Paula Gaetano Adi, »how ideas about difference are enacted and distributed in the performance of technoscience«.[13] Es geht Künstler:innen offenbar gerade darum, KI sichtbar zu machen als handelnde Akteurin.
Interessant ist, dass Forschungsarbeiten aus dem Umfeld der Computer Sciences und Neurowissenschaften oftmals genau die entgegengesetzte Perspektive einnehmen mit dem Ideal einer widerstandslosen, möglichst unmerklichen Integration von KI in den menschlichen Schaffensprozess. So preist François Pachet ein Programm, das als selbstlernender Improvisationspartner »easily and seamlessly integrated in the playing mode of the musician«[14] werden könne, Christopher Longuet-Higgins diskutiert ein Modell für eine »faithful representation of a sophisticated pianoforte composition«[15] und Rebecca Chamberlain präsentiert neurowissenschaftliche Studien zur Rezeption von KI-Kunst mit der Empfehlung, »anthropomorphic qualities of robotic and computational art«[16] zu erhöhen für eine größere Akzeptanz solcher Kunstformen beim Publikum.
Jay David Bolter und Richard Grusin haben für die unterschiedlichen Haltungen zum Status von Medien im Schaffensprozess die Begriffe immediacy und hypermediacy eingeführt. Sie unterscheiden damit ein Unmittelbarkeitsideal, in dem Medien als möglichst unsichtbare und neutrale Trägerstoffe fungieren sollen, von einer Betonung und Massierung medialer Differenz.[17] Eine der Hauptthesen ist, dass Medien Spielfelder für beide Positionen sein können, dies allerdings primär über eine gemeinsame Strategie erreichen: Sie inkorporieren oder zitieren Funktionsweisen anderer Medien. Diesen Inkorporierungsmechanismus nennen Bolter und Grusin remediation: Er trete bei neuen, digitalen Medien besonders offenkundig zutage, sei aber nicht auf diese beschränkt. Eher müssten wir uns ein Wechselspiel, d. h. eine ständige gegenseitige Beeinflussung von alten und neuen Medien vorstellen:
In the first instance, we may think of something like a historical progression, of newer media remediating older ones and in particular of digital media remediating their predecessors. But ours is a genealogy of affiliations, not a linear history, and in this genealogy, older media can also remediate newer ones.[18]
Medienreflexive Kunst bewegt sich in diesen Spannungsfeldern: auf der Produktionsseite zwischen objektorientierten Positionen, nach denen die Handlungsfähigkeit menschlicher Akteur:innen durch Medien gelenkt und bestimmt wird, und subjektorientierten, die Medien als Verlängerung menschlichen Weltbezugs fassen; auf der Rezeptionsseite zwischen Neutralität und medialer Differenz – jeweils vermittelt durch intramediale Wechselbeziehungen. Dabei zeigt sie zunehmend auch ein Denken, das die Grenzziehung zwischen menschlichen und nichtmenschlichen Entitäten, zwischen Subjekten und Objekten generell in Frage stellt, wie an den Statements der oben zitierten Künster:innen bereits deutlich geworden ist. Dieses relativ neue Paradigma, das Kunst weniger als Zusammenspiel aus Menschen und ihren Medien, sondern eher als Konstellation von menschlichen und nichtmenschlichen Aktanten versteht, möchte ich im Folgenden begrifflich genauer fassen. Dabei werde ich an Theoriemodelle aus posthumanistischen und neomaterialistischen Diskursen anknüpfen, die Theorie aber auch in kritischen Dialog mit der Kunstpraxis treten lassen. Alexander Schuberts Arbeit Convergence (2021) scheint mir dafür ein gutes Fallbeispiel zu sein. Im ersten Teil sollen allgemeine medienreflexive Aspekte und Strategien der Komposition beleuchtet werden. Nach einem theoretischen Exkurs möchte ich dann genauer betrachten, inwiefern sich ästhetische Subjektivität und Objektivität im Werkprozess rekonfigurieren. Die Einbindung von KI wird für meine Betrachtungen eine Schlüsselrolle einnehmen.
Spiel mit medialer Differenz in Alexander Schuberts Convergence
Convergence für Streichensemble und KI-System ist eine medienintegrative Komposition in zwei Fassungen: einer Bühnenfassung, die im Februar 2021 beim Eclat-Festival uraufgeführt wurde, und einer Online-Videofassung (siehe https://youtu.be/o5UXkJWJciQ). Während in der Live-Version Musiker:innen des Ensemble Resonanz vor einer großen Videoprojektion im Bühnenhintergrund mit zwei LED-Bildschirmen interagieren, arbeitet die Videoversion mit Ein- und Überblendungen. Die folgenden Ausführungen und Zeitangaben im Fließtext beziehen sich auf diese Videofassung.[19] Als Partitur diente ein in Takte unterteiltes Excel-Spreadsheet mit Angaben jeweils zu Tempo, Taktart, chronometrischer Zeit, Szenentitel (z. B. »Introduction«, T. 2 oder »Hallucinogen«, T. 387), Zuspielungen der Computerstimme und Spielanweisungen für die Musiker:innen.[20] Hauptquelle zum medialen Setting und den technischen Hintergründen der Komposition ist ein ausführlicher Videovortrag, den Schubert zeitgleich mit dem Performance-Video veröffentlicht hat.[21]
Wollen wir eine sehr grobe dramaturgische Unterteilung vornehmen, können wir das Stück in zwei Abschnitte unterteilen: Die ersten 20 Minuten (und damit knapp zwei Drittel des Stücks) sind geprägt von einem reenactment der zum Training der KI-Systeme notwendigen Aufnahmesessions sowie einer Konfrontation der Musiker:innen mit so entstandenen virtuellen Avataren. Im zweiten Teil öffnet sich dieses Setting in Richtung freierer, assoziativerer und collagenhafter Situationen, in denen einerseits die Übergänge zwischen den anfangs noch klar separierten realen und virtuellen Welten ineinanderfließen, andererseits durch gesprochenen bzw. eingeblendeten Text konkrete philosophische Motive aufgegriffen werden wie Identität, Konstruktivität, Performativität, Hybridität, das Posthumane usw.
Eine Schlüsselrolle im medialen Setting übernimmt das KI-System und hier vor allem der variational auto-encoder (VAE). Seine Funktionsweise muss kurz erläutert werden: Ein VAE ist, wie andere KI-Systeme auch, ein künstliches neuronales Netzwerk; allerdings ist es darauf ausgelegt, Input-Daten zu kategorisieren, um in einem zweiten Schritt aus diesem virtuellen ›Wissen‹ über die eingespeisten Daten und ihre verschiedenen Parameter wieder einen Output zu generieren, der die Input-Daten so gut wie möglich imitiert. Ein solches Modell zerlegt einen Input (wie etwa ein Foto von einem Gesicht) also zuerst in eine ganze Reihe digital berechenbarer Einzelparameter (wie Blickrichtung, Stellung der Mundwinkel usw.), um es dann nur anhand dieses parametrischen Wissens wieder neu zusammenzusetzen. Im Innern dieses Modells entsteht so eine Art vieldimensionales Koordinatensystem, in dem jede Achse für einen Parameter steht. Springen wir in diesem virtuellen Koordinatensystem (dem latent space) zu einem bestimmten Punkt, erhalten wir einen Output, der mitunter weit von dem entfernt sein kann, was jemals in das System eingespeist wurde.[22]
VAEs kommen in Convergence sowohl auf auditiver als auch auf visueller Ebene zum Einsatz. Für den Audiopart wurde die KI mit Instrumental- und Vokalsamples der Musiker:innen gefüttert. Je nach Klassifizierung der Samples im Trainingsdatenset ist die KI in distinkte Modelle unterteilt. So ist z. B. ein Modell nur mit konventionellen Spieltechniken trainiert, eines mit erweiterten Spieltechniken. Zwei weitere Modelle arbeiten mit gesungenen bzw. gesprochenen Samples.[23] Der Videopart wurde entsprechend mit Videoaufnahmen trainiert. Die einzelnen Modelle umfassen Gesichtsausdrücke (wütend, lachend usw.) und Interaktionen der Musiker:innen mit ihren Instrumenten.[24]
Die so trainierten KI-Modelle werden in der Performance zu eigenständigen Aktanten und Interaktionspartnern für die Musiker:innen. Dabei lassen sich drei Grundkonstellationen unterscheiden:
Reenactment der Aufnahmesessions: Eine Computerstimme gibt einzelnen Musiker:innen Anweisungen wie »turn head to the left« (00:01:50) oder »smile« (00:02:46), während eingeblendete Code-Zeilen und Balkendiagramme den Anschein erwecken, diese Bewegungen in Echtzeit auszuwerten.[25] Die Sessions enden mit einer Überblendung des computergenerierten Outputs (also eines ›fehlerhaften‹ und verfremdeten Avatars) über die tatsächliche Person.
Freistehende Audio- und Videoeinblendungen: Interpolation verschiedener Trainingsdatensets und freie Navigation durch den latent space ohne Live-Input durch die Musiker:innen (z. B. 00:17:30). Das Ergebnis sind besonders bizarre, stark verfremdete Bilder und Klänge.
Echtzeit-Imitation Mensch KI: Musiker:innen führen eine Aktion aus und werden dann von der KI imitiert mittels Audio- und Videoeinblendung. Der Output ist Resultat der tatsächlichen Aufnahmesessions und die KI ist mit Varianten derselben oder, weitaus häufiger, einer grundsätzlich anderen Aktionsart trainiert (domain transformation, z. B. geräuschhafte Strichtechniken rekonstruiert durch Singen/Schreien, 00:12:28). Durch Manipulation der Parameter im latent space kann das Resultat zusätzlich verfremdet und transformiert werden.
Jede dieser Konstellationen zielt auf hypermediale Sichtbarmachung des KI-Systems: In der ersten Konstellation betrachten wir die Musiker:innen aus dem Blickwinkel der Maschine. Die ironisch-provozierende Parametrisierung menschlicher Emotionen in einer sterilen Laboratmosphäre zitiert das Narrativ eines inkommensurablen, wenn nicht antagonistischen Mensch-Maschine-Verhältnisses. Die Einblendung des Quellcodes, der sich als Motiv durch die gesamte Performance zieht (z. B. auch 00:07:40), macht die Spezifik des Mediums KI – Parametrisierung und symbolische Repräsentation von Welt – explizit. In der zweiten Konstellation wird diese Perspektivierung umgedreht: Wir betrachten nun aus menschlicher Perspektive die computergenerierten Avatare und nehmen dabei gerade das wahr, was von der Realität abweicht, nämlich die bizarren Artefakte, die Unmöglichkeiten und Verrenkungen, die Interpolationen und glitches die das parametrische Verfahren im latent space hervorruft. Betrachten wir in der ersten Konstellation also menschliche Alterität aus der Perspektive der Maschine, erleben wir in der zweiten umgekehrt maschinelle Alterität aus der menschlichen Perspektive. In einem Interview geht Schubert auf dieses Spiel mit Perspektivwechseln näher ein:
What really interests me in general, I would say, is […] building these kind of settings, kind of test settings, that have a certain simulation character to them, and when the immersion works then at some point play with the interface and kind of put a different perspective on it in a way. And I, like artistically speaking, I often do that through the use of errors or glitches to kind of expose […] the interface or to expose the technology. Because once that happens […] your perception then is stuck at the medium or the interface itself.[26]
Auch die dritte Konstellation, die menschliche ›Realität‹ und maschinelle ›Virtualität‹ in direkten Dialog treten lässt, betont die Differenz dieser beider Welten – sei es durch die offensichtlichen Verluste bei der Kodierung, sei es durch ein bewusst inkommensurables Trainingsset. Die Hypermedialität wird durch zusätzliche Aspekte der Komposition noch unterstützt – dazu gehören die Anweisungen und Kommentare einer mal geschlechtlich markierten, mal nichtbinären, aber immer artifiziell verfremdeten Computerstimme oder auch das Leitmotiv des ›Frames‹ in Gestalt einer meist weißen Bildumrandung, das als Metapher einer durch digitale Medien beeinflussten menschlichen Weltwahrnehmung interpretiert werden kann, gleichzeitig aber auch die Medialität der Performance selbst hervorhebt.[27]
Es mag vielleicht überraschen, dass eine Performance, in der es um Differenz zwischen ›Realität‹ und ›Virtualität‹, zwischen ›dem Menschlichen‹ und dessen medialer Vermittlung geht, gleichzeitig posthumanistische Philosopheme zitiert, die ja bei der Betonung medialer Eigendynamik nicht stehen bleiben, sondern die Trennung zwischen Mensch und Medium, Subjekt und Objekt, grundlegend in Frage stellen.[28] So beschwört z. B. die Computerstimme gegen Ende des Stücks eine Utopie fluider Identitäten (00:30:59): »Drifting off into a half-world of a dreamlike morphed reality. Where we see that other representations of us are possible. That our self is fluid, fragile, constructed, and diverse, post human.« Auf diesen Widerspruch – Differenz vs. Hybridität – werde ich zum Schluss noch einmal zurückkommen. Für den Moment soll nur festgehalten werden, dass der Posthumanismus offenbar eine Referenz ist, die im Stück thematisiert und verhandelt wird. Im Folgenden möchte ich dieser Referenz nachgehen und schauen, inwiefern sie für die Beschreibung der in Convergence vorzufindenden Prozesse und Dynamiken fruchtbar gemacht werden kann.
Das Kunstwerk als Konstellation menschlicher und nichtmenschlicher Aktanten
In meiner Doktorarbeit[29] schlage ich ein Modell zur Beschreibung zeitgenössischer Musik vor, das sich einerseits auf eine Analyse früher serieller Musik stützt, andererseits auf materialistische und neomaterialistische bzw. posthumanistische Theoriebildung. Dieses Modell, das ich »Werkkonstellation« nenne, versucht dem Bedeutungsgewinn medialer Differenz und den damit einhergehenden Verschiebungen zwischen ästhetischer Subjektivität und Objektivität Rechnung zu tragen, die sich im Serialismus der Fünfzigerjahre bereits abzeichnen und in KI-Kompositionen neue Relevanz erhalten.[30] In Anlehnung an Jane Bennetts Gefügebegriff, Bruno Latours Netzwerkbegriff und vor allem Karen Barads Apparatbegriff argumentiere ich dafür, Kunstwerke als materiell-diskursive Praktiken zu verstehen, die die Grenzziehung zwischen ästhetischer Subjektivität bzw. Objektivität performativ aushandeln.[31] Der Mechanismus, über den dies geschieht und den es zu analysieren gilt, ist die je individuelle Verteilung von Wirkmächtigkeit zwischen menschlichen und nichtmenschlichen Aktanten. Es geht dabei weniger darum, die Subjekt-Objekt-Konstellation eines Werks als etwas Feststehendes zu beschreiben, sondern zu schauen, welchen Einfluss die einzelnen Aktanten auf den Werkprozess und somit möglicherweise auch auf die Konstellation selbst ausüben.
Das Kunstwerk als Werkkonstellation greift somit einige Kernthesen posthumanistischer Theoriebildung auf (zu der ich in einem weiter gefassten Sinn auch Latours Akteur-Netzwerk-Theorie zähle),[32] die hier nur angerissen werden können: ein Netzwerkdenken, das die Komplexität der Beziehungen zwischen den Aktanten ernst nimmt, eine Betonung von Materialität gegenüber ausschließlich menschlicher Intentionalität sowie ein Performativitätsdenken, in dem bestimmte Hierarchien (etwa zwischen Objekten und Subjekten) erst hergestellt werden müssen und somit auch veränderbar bleiben.
Latours Netzwerkbegriff ersetzt Jane Bennett mit Rekurs auf Gilles Deleuze und Félix Guattari durch den Begriff des Gefüges: »Gefüge sind ad hoc entstehende Gruppierungen unterschiedlicher Elemente, lebhafter Materialien aller Art.«[33] Auch Rosi Braidotti spricht – übrigens explizit mit Blick auf KI-Systeme – von einer Situation, die angelegt sei als »transversale Verbindung oder als ein ›Gefüge‹ menschlicher und nichtmenschlicher Akteure«.[34] In beiden Zitaten steckt auch schon der zweite Aspekt, die Betonung von Materialität und ihrer Wirkmächtigkeit, also in Bennets Worten, »die Fähigkeit von Dingen – etwa von essbaren Gegenständen, Waren, Stürmen, Metallen –, den Willen und die Vorhaben von Menschen nicht nur zu behindern und zu blockieren, sondern darüber hinaus auch als Quasi-Aktanten oder Kräfte mit eigenen Entwicklungsverläufen, Neigungen oder Tendenzen zu wirken«.[35] Den performativen Charakter solcher Konstellationen, also den dritten Aspekt, betont besonders Karen Barad: »Die Materie ist weder fest und gegeben noch das bloße Endergebnis verschiedener Prozesse. Materie wird produziert und ist produktiv, sie wird erzeugt und ist zeugungsfähig. Materie ist ein Agens und kein festes Wesen oder eine Eigenschaft von Dingen.«[36] Barad schlägt vor, solche Prozesse (Barad nennt sie »Apparate«) als »Rekonfigurationen«[37] zu beschreiben, »durch die ›Objekte‹ und ›Subjekte‹ entstehen.«[38]
Alexander Schuberts Stück öffnet explizit diesen posthumanistischen Assoziationsraum. Unabhängig von dieser expliziten Bedeutungsschicht möchte ich im Folgenden aber auch schauen, inwiefern das Stück selbst performativ als Werkkonstellation gefasst werden kann, d. h. als aktiver Aushandlungsort von Wirkmächtigkeit ästhetischer Subjektivität bzw. Objektivität.
Convergence als Werkkonstellation
Die zahllosen menschlichen und nichtmenschlichen Aktanten in Convergence können kaum vollständig erfasst werden. Eine Auswahl besonders wichtiger, d. h. wirkmächtiger Aktanten umfasste sicherlich die Person Alexander Schubert, die Programmierer:innen vom IRCAM (Philippe Esling, Benjamin Levy, Antoine Caillon, Jorge Davila-Chacon), das Ensemble Resonanz und das KI-System. Aber natürlich spielen auch das Publikum eine Rolle, die Instrumente der Musiker:innen, das IRCAM als Institution, Beleuchtung und Bühnentechnik usw. Ich werde mich in der folgenden Analyse auf den Einfluss des KI-Systems im Kompositionsprozess konzentrieren. Die Entscheidung, ein KI-System zum zentralen Bestandteil einer quasi-musiktheatralen Performance zu machen, ist zweifellos ihrerseits bereits durch eine Vielzahl analysierbarer Aktanten vermittelt, soll aber hier als Ausgangspunkt dienen.
Zunächst führte diese Entscheidung zu Konsequenzen in der personellen Aufstellung: Komplexe KI-Systeme wie VAEs (dazu kommen auch sogenannte generative adversarial networks zum Einsatz) erfordern Expert:innen, die diese Systeme programmieren und bedienen können. Indem diese nicht nur Anweisungen ausführen, sondern natürlich auch beratend ihr Fachwissen einbringen, indem sie sagen, was möglich ist und was nicht, schließlich auch bei der Umsetzung fortlaufend Entscheidungen treffen, nehmen sie Einfluss auf den Kompositionsprozess. Wir können also bereits hier von einer Verteilung oder Dezentralisierung kompositorischer Kontrolle sprechen. Weitere Aspekte kompositorischer Dezentralisierung sind Abhängigkeiten von Institutionen, Geldgeber:innen, Auftraggeber:innen usw., die freilich musikgeschichtlich immer schon eine Rolle gespielt haben, im Umgang mit kostenintensiven Technologien wie KI jedoch besonders stark ins Gewicht fallen dürften.
Am Kompositionsprozess nehmen also verschiedene menschliche Aktanten teil, von denen niemand den Anspruch erheben kann, ›das‹ kompositorische Subjekt zu sein. Darüber hinaus ist der Kompositionsprozess aber auch entscheidend geprägt durch die Anforderungen des KI-Systems: Jedes KI-System, das auf maschinellem Lernen beruht, benötigt Daten, mit denen das System trainiert werden kann. Diese Notwendigkeit führte im Fall von Convergence zu extensiven Aufnahmesessions, bei denen sowohl Video- als auch Audiosamples gesammelt und in die Datenbank eingespeist werden mussten. Das wiederum verlangt entsprechendes Equipment, Infrastruktur, Zeitpläne usw. Wesentliche Teile des kreativen Prozesses waren also durch die Einbeziehung des KI-Systems bereits disponiert; die romantische Vorstellung eines genialen, einsam und aus sich heraus produzierenden Subjekts wird dieser Anlage distribuierter Wirkmächtigkeit kaum mehr gerecht. Ästhetische Subjektivität verteilt sich vielmehr auf menschliche sowie nichtmenschliche Aktanten, wobei jede:r von ihnen vermittelst dieser Interdependenzen gleichzeitig auch als Objekt fungiert.
Diese Konstellationen ästhetischer Subjektivität und Objektivität sind nicht statisch, sondern verändern sich im Werkprozess. So ergab sich etwa während der Arbeit an Convergence folgende Verschiebung: Ursprünglich hätten die Musiker:innen Schubert zufolge in den Aufnahmesessions frei improvisieren sollen. Das System hätte dann dieses relativ unstrukturierte Material eigenständig unterteilen und klassifizieren müssen. Dieses Vorgehen habe sich aber bald als impraktikabel erwiesen:
The first approach was to just kind of let the musicians sort of improvise with whatever they wanted to do, and in the second step we decided to go for a bit more an instructional part in which I basically created successions of instructions for movements and also for generating sounds […] and for speaking […] in order to kind of create a structured […] dataset of […] materials. So […] that was purely […] a pragmatic choice in the beginning. So it was […] just a way of making sure that we can kind of gather the data that we need in order to train the system.[39]
Die Logik eines VAEs – Dekonstruktion, Parametrisierung und Rekonstruktion von Input-Daten – hatte demzufolge eine Neuausrichtung der Vorgehensweise erzwungen. Statt Improvisation zum Ausgangspunkt einer deskriptiven maschinellen Klassifikation zu nehmen, wird die Klassifikation präskriptiv. Zwischen der ursprünglichen Idee und dem tatsächlichen Vorgehen verzeichnen wir eine signifikante Verschiebung innerhalb des Werkgefüges – Wirkmächtigkeit, somit auch Subjektstatus, geht von den Musiker:innen auf das KI-System über.
Die größte Verschiebung betrifft die Dramaturgie der Performance selbst. Schubert beschreibt das Ursprungskonzept wie folgt:
So in a way the development process meant to generate an interface that could create artificial beings, so to say, that have resemblance to the actual players but that can also change and can go beyond that and interpolate between them but also generate results that are fundamentally different. And within the actual performance or concert situation the players would kind of meet these entities, interact with them, and play together with them.[40]
Diese Beschreibung trifft recht gut den zweiten Teil der Performance, in der tatsächlich die Interaktion der Musiker:innen mit den maschinell erzeugten Avataren treibende Kraft ist. Was allerdings das Stück in der Endfassung eher noch stärker prägt, ist das reenactment der Aufnahmesessions zu Beginn. Dieser Teil fand erst später Eingang in die Werkkonzeption. Er ist – und das ist entscheidend – erst durch die konkrete Erfahrung der Musiker:innen während der Aufnahmesessions inspiriert:
Slightly surprising it […] made quite an impact both on me and on the musicians in a way. So, this whole process […] had a performative aspect to it and also […] a trance-like or kind of meditation-like state where you kind of let go in a way and […] act out very basic instructions.[41]
Es war demnach gerade die formalisierte Strenge, die akkurat zu befolgenden Instruktionen anstelle freier Improvisation, mit anderen Worten das so zunächst gar nicht vorgesehene Anschmiegen menschlichen Handelns an die Logik der Maschine, in denen die Beteiligten eine ästhetisch-performative Qualität entdeckten. Die Entscheidung, diese Situation zum Teil der Bühnenperformance zu machen, begründet Schubert durch eine zunächst nicht antizipierte ästhetische Erfahrung: »It kind of felt like a piece of its own.«[42] Interessant ist, dass die empfundene ästhetische Qualität unmittelbar zusammenhängt mit der Frage der Wirkmächtigkeit. Schubert sagt: »It’s a bit unclear also who’s in control here.«[43] Es waren also gerade die Verschiebungen und Ambivalenzen der Subjekt-Objekt-Konstitution, die das Interesse der beteiligten Akteur:innen weckten und dann auch zum Thema der Bühnenperformance wurden. Die spezifische Logik des KI-Systems stellt sich als treibende Kraft hinter all diesen Verschiebungen und Entscheidungen heraus. In der Werkkonstellation kommt der KI ein Grad an Wirkmächtigkeit zu, der den Subjektstatus der menschlichen Akteur:innen schwächt und ihr somit selbst einen Subjektstatus zuerkennt. Damit wird aber auch die Trennung des Menschlichen vom Medium, also die Grenzziehung zwischen dem Organischen und Maschinellen, dem Realen und Virtuellen, letztlich dem für-sich-seienenden Geist und an-sich-seienden Objekt kritisiert, die die Inszenierung und Dramaturgie der Performance mit ihrer Betonung medialer Differenz gleichzeitig prägt.
Spekulative Theorie vs. experimentelle Praxis
Idee dieses Aufsatzes war, Posthumanismus und KI-Kunst in einen kritischen, für beide Seiten fruchtbaren Dialog treten zu lassen. Aus einigen Kernthesen posthumanistischer und neomaterialistischer Theorie lässt sich ein Instrumentarium zur Beschreibung zeitgenössischer Kunstwerke ableiten, das ich Werkkonstellation nenne. Innerhalb einer Werkkonstellation begegnen sich menschliche und nichtmenschliche Aktanten, die ästhetische Subjektivität bzw. Objektivität performativ unter sich aushandeln und verteilen. Für die Analyse solcher Prozesse diente Alexander Schuberts Arbeit Convergence als Beispiel.
Die Rekonstruktion der Werkgenese konnte zeigen, dass die Einbindung von KI-Systemen bereits zu einer personellen und institutionellen Verteilung kompositorischer Kontrolle geführt hat, die das traditionelle Bild eines starken Komponist:innensubjekts unterwandert. Vor allem aber wurde deutlich, dass sich während des Kompositionsprozesses kontinuierlich weitere Verschiebungen ergeben haben, bei denen die Wirkmächtigkeit nichtmenschlicher Aktanten gegenüber den menschlichen ins Gewicht fiel. Besonders deutlich wurde die Delegation kompositorischer Kontrolle an die Logik des Mediums in der Entscheidung, den Akt des Datensammelns zum Teil der Bühnenperformance zu machen: »The scanning aspect […] actually forms […] a vital part of the piece. So, something that was more a technical necessity has become a major […] compositional aspect within the piece.«[44] Es zeigte sich, dass das Stück jene klare Grenzziehung zwischen dem Menschlichen und dem Nichtmenschlichen performativ, d. h. durch die konkreten Handlungen der am Werkprozess beteiligten Aktanten hindurch kritisiert, die gleichzeitig Ausgangspunkt seines medialen und inszenatorischen Settings ist.
Aspekte posthumanistischer Theorie wie der Netzwerk- bzw. Gefügebegriff, die Betonung von Materialität und ihrer Wirkmächtigkeit sowie die Performativität der Subjekt-Objekt-Konstitution erweisen sich somit als fruchtbar für die Analyse und Kritik experimentell-künstlerischer Praxis. Aber auch umgekehrt liefert die Praxis meines Erachtens Ansatzpunkte für eine Kritik der Theorie. Hierauf möchte ich abschließend noch in Kürze eingehen.
Im posthumanistischen Diskurs verbinden sich die oben genannten Aspekte – Betonung von Interdependenz, Materialität und Performativität – mit einer spekulativen Ontologie, also einer Philosophie, die Hypothesen über das eigentliche Sein der von ihr beleuchteten menschlichen und nichtmenschlichen Existenzformen aufstellt. Dabei zeichnet sich als Tendenz eine Identitätssetzung im Sinne eines (physikalischen) Monismus ab: Geistige Vorgänge, die wir vor allem Menschen zuschreiben, sind nach dieser Auffassung letztlich physikalische Vorgänge. So formuliert etwa Jane Bennett die Aufgabe einer »Auflösung der onto-theologischen Dichotomien Leben und Materie, Mensch und Tier, Wille und Determinismus sowie organisch und anorganisch« und zwar »unter Verwendung von Argumenten und anderen rhetorischen Mitteln, die in menschlichen Körpern eine ästhetisch-affektive Offenheit für die materielle Vitalität erzeugen sollen«.[45] Mit Rekurs auf Spinoza vertritt Bennett die These, »dass alles aus derselben Substanz geschaffen ist« und bringt dies, wiederum mit Deleuze, auf die Formel »ontologisch eins, formal verschieden«.[46] Diese Argumentation hat zweifellos ihre Wurzeln im poststrukturalistischen Feminismus und seiner Dekonstruktion binärer Sprachstrukturen. Ähnlich bringt Rosi Braidotti das Plädoyer für ein »nicht-dualistisches Verständnis von Natur und Kultur« ausdrücklich mit einer »monistischen Philosophie«[47] in Zusammenhang, also einer ontologischen Identitätssetzung. Und auch Karen Barad schlägt eine Ontologie vor, die »Getrenntheit nicht als ein wesentliches Merkmal der Beschaffenheit der Welt«[48] betrachtet. Zwar solle diese Ontologie Getrenntheit wiederum nicht zu einer »bloßen Illusion« bzw. zu einem »Artefakt eines irregeleiteten menschlichen Bewußtseins«[49] herabstufen, jedoch spielen sich die Subjekt-Objekt-Grenzziehungen in Barads ›Apparaten‹ ausdrücklich »innerhalb des Phänomens der vorgegebenen ontologischen (und semantischen) Unbestimmtheit«[50] ab, also innerhalb eines neutralen, die Partikularität der Existenzformen wieder in sich zurücknehmenden Urzustands.
Angeregt durch die Werkbetrachtung ließe sich aber fragen, ob eine Kritik ideologisch erstarrter Denkmuster (etwa Mensch vs. Maschine) wirklich davon profitiert, wenn wir ihr mit »rhetorischen Mitteln«[51] eine Alternative entgegenhalten, die nun ihrerseits genauso abstrakt und bewegungslos erscheint (Differenz als Funktion von Identität). Schuberts Beispiel scheint mir dagegen gerade deswegen instruktiv, weil es bei konkreter Nichtidentität ansetzt, d. h. bei den geschichtlich gewachsenen Antagonismen, so wie sie uns real und handgreiflich erscheinen. Ob diese Existenzformen auf einer ontologischen Ebene identisch sind, wissen wir nicht. Aber wir wissen um die geschichtlichen Antagonismen, deren Gestalt sie annehmen: ›Menschliche‹ Arbeit hat in der Geschichte die sehr konkrete Erfahrung gemacht, ihr Existenzrecht an ›maschinelle‹ Arbeit abzutreten (und freilich auch immer wieder Neues durch diese zu erhalten). Die ökonomische Bedrohung, die Komponist:innen durch Entwicklungen der KI-Technologie erfahren,[52] ist so real wie die durch KI geschaffenen neuen Möglichkeitsräume. Aus der Ideologie eines Mensch-Maschine-Antagonismus auszusteigen oder sie aus einer vermeintlichen Außenperspektive ontologisch aufzulösen, scheint mir daher problematisch. Wie wir im ersten Teil dieses Beitrags gesehen haben, nimmt Schuberts Stück andersherum die scheinbare Inkommensurabilität des Menschlichen und Nichtmenschlichen (als geschichtlich sedimentierte Grenzziehung) zum Ausgangspunkt ohne diese zu zementieren. Es macht mediale Differenz erlebbar und erforscht die Dynamik, die sich gerade aus dieser Ausgangssituation heraus ergibt – um schließlich, als immanente Kritik, diese Ausgangssituation zu hinterfragen bzw. ihren Konstruktionscharakter offenzulegen.
Im Kontext sozialwissenschaftlicher Netzwerkanalyse wurde bereits auf das Potenzial von Experimenten für die Offenlegung von Vernetzungsprozessen hingewiesen: »In ihnen [den Experimenten] können dynamische Interaktionsprozesse in ihren Entstehungsbedingungen erforscht werden.«[53] Kunst kann das leisten. Sie kann Experimentalsituationen schaffen, in denen quasi unter Laborbedingungen komplexe Beziehungen unterschiedlicher Aktanten reproduziert und in ihrer Dynamik nachvollziehbar gemacht werden können. Sie kann ein Spielfeld sein, in dem sich Denkkategorien durch ihre Eigendynamik hindurch rekonfigurieren. So kann Kunst im besten Fall auch auf die Theoriebildung zurückstrahlen.
Anmerkungen
In Anlehnung an Peter Osbornes Kunsttheorie verstehe ich unter zeitgenössischer Musik Formen primär westlich geprägter Kunstmusik mit konzeptuellem Einschlag (siehe Osborne 2013, 46–51). Gemeint ist also eine Musikpraxis innerhalb eines spezifischen kulturgeschichtlichen Kontexts, nicht ›die‹ Musik der Gegenwart. | |
Eine Bestandsaufnahme mit medienwissenschaftlicher Reflexion liefert Saxer (Hg.) 2011. Für einen Überblick speziell zu medienintegrativer Klaviermusik siehe Nakamura/Saxer/Tönies (Hg.) 2021. | |
Adorno 1996, 432. | |
Für einen geschichtlichen Überblick zur KI-Forschung siehe Franklin 2014. Der Begriff expert system leitet sich Franklin zufolge nicht daraus ab, dass das KI-System ›Experte‹ für etwas wäre, sondern aus dem in die Programmierung eingeflossenen Expert:innenwissen in Bezug auf die Aufgabenstellung (vgl. ebd., 20). | |
Siehe dazu Sun 2014. | |
Maximilian Haberer analysiert beispielsweise, wie die Spotify-Empfehlungsalgorithmen ästhetisch und sozialpsychologisch als »mit Macht ausgestattete, diskriminierende Handlungsträger« wirken (2020, 153). | |
Siehe McLuhan 1995. | |
Zu erwähnen sind hier u. a. die Arbeiten von Terence Broad, Michael McCrea, Mick Grierson oder Robert Twomey. | |
Rosi Braidotti unterscheidet drei Hauptströmungen posthumanistischen Denkens: einen ›negativen‹ Posthumanismus, der bestrebt sei, humanistisch-universalistische Ideale zu reaktualisieren, einen analytischen, aus der Wissenschafts- und Technikforschung hervorgegangen, sowie einen ›kritischen‹, dem feministischen Antihumanismus nahestehenden (vgl. Braidotti 2014, 42–54). Janina Loh betont vor allem diesen kritischen Aspekt, wenn sie sagt, dem Posthumanismus sei »nicht mehr primär an ›dem‹ Menschen gelegen«, sondern er hinterfrage stattdessen »die tradierten, zumeist humanistischen Dichotomien wie etwa Frau/Mann, Natur/Kultur oder Subjekt/Objekt« (Loh 2018, 11). | |
Wortzel 2007, 387. | |
Schubert 2021c, 155. | |
Gioti 2018. | |
Crembil/Adi 2017, 136. | |
Pachet 2002, 131. | |
Longuet-Higgins 1994, 103. | |
Chamberlain/Mullin/Scheerlinck/Wagemans 2018, 190. | |
Vgl. Bolter/Grusin 2000, 20–51. | |
Ebd., 55. | |
Schubert 2021a. | |
Die Partitur ist momentan in Überarbeitung und bleibt vorerst unveröffentlicht. Ich danke Alexander Schubert für die Bereitstellung von Auszügen. | |
Schubert 2021b. Die Transkription der in diesem Beitrag zitierten Passagen erfolgte durch den Autor. Eine unabhängige Prüfung der in dem Videovortrag vermittelten Informationen hätte eine ethnografische Begleitung des Schaffensprozesses erfordert; ihre Validität wird im Folgenden vorausgesetzt. | |
Zur Funktionsweise eines VAEs in musikbezogenen Anwendungsbereichen siehe beispielhaft Roberts/Engel/Oore/Eck 2018. | |
Vgl. Schubert 2021b, 00:19:30–00:35:40. | |
Vgl. ebd., 00:45:40–00:56:57. | |
Analog zu den vorbereitenden Aufnahmesessions im Studio wird während der Performance tatsächlich ein neues Trainingsdatenset erstellt und in Echtzeit berechnet, wie mir Alexander Schubert in einer E-Mail vom 29. November 2022 mitgeteilt hat. Alle weiteren KI-Interaktionen nutzen dagegen die im Vorfeld gesammelten Daten. | |
Schubert 2021d, 00:05:17. | |
Siehe dazu Schubert 2021b, 01:13:00. | |
Siehe Fußnote 8. | |
Tönies 2023. | |
Die Entwicklung von den Anfängen serieller, d. h. wesentlich algorithmischer Musik über Computermusik bis zur Implementierung von KI ist nur einer von mehreren Schauplätzen, an denen sich eine Abkehr vom bürgerlichen Werkbegriff vollzogen hat, d. h. von einer vorgefassten, die Produktion eines Werktextes zentrierenden Subjekt-Objekt-Konstellation mit einem menschlichen, autonomen, schöpferischen Subjekt und einem nichtmenschlichen, widerständigen, zu produzierenden Objekt hin zu offeneren, u. a. auch die Rezeption stärker integrierenden Konzepten. Eine kultursoziologische Analyse und Theorie des bürgerlichen Subjektbegriffs legt Reckwitz vor (2020). | |
Vgl. Tönies 2023, 200–206. | |
Viele Posthumanist:innen stehen der feministischen und queerfeministischen Theorie nahe, jedoch ist die Akteur-Netzwerk-Theorie ein regelmäßiger und stabiler Bezugspunkt (vgl. z. B. Bennett 2020, 38; Braidotti 2014, 44 und Barad 2012, 23). Latour selbst spricht zwar von „posthumanistische[n] Ideologien“ (2019, 359), verweist aber ausdrücklich auch auf die Affinität eines Netzwerkdenkens zu feministischer Theoriebildung (ebd.). | |
Bennett 2020, 59. | |
Braidotti 2014, 49 f. | |
Bennett 2020, 8. | |
Barad 2012, 14 f. | |
Ebd., 34. | |
Ebd. | |
Schubert 2021b, 00:58:20. | |
Ebd., 00:02:48. | |
Ebd., 00:59:55. | |
Ebd., 01:02:50. | |
Ebd., 01:06:55. | |
Ebd., 01:18:26. | |
Bennett 2020, 11. | |
Ebd., 12. | |
Braidotti 2014, 9. | |
Barad 2012, 14. | |
Ebd. | |
Ebd., 20. | |
Bennett 2020, 11. | |
Etwa im Bereich der Film- und Computerspielmusik. Programme wie AIVA (https://www.aiva.ai) oder Amper Music (https://www.ampermusic.com) komponieren Musik unterschiedlicher Stile für den kommerziellen Gebrauch. | |
Peuker 2010, 571. |
Literatur
Adorno, Theodor W. (1996), »Die Kunst und die Künste«, in: Gesammelte Schriften 10/1, hg. von Rolf Tiedemann, Frankfurt a. M.: Suhrkamp, 432–453.
Barad, Karen (2012), Agentieller Realismus. Über die Bedeutung materiell-diskursiver Praktiken [2003], übers. von Jürgen Schröder, Berlin: Suhrkamp.
Bennett, Jane (2020), Lebhafte Materie. Eine politische Ökologie der Dinge [2009], übers. von Max Henninger, Berlin: Matthes & Seitz.
Bolter, Jay David / Richard Grusin (2000), Remediation. Understanding New Media, Cambridge: MIT Press.
Braidotti, Rosi (2014), Posthumanismus. Leben jenseits des Menschen [2013], übers. von Thomas Laugstien, Frankfurt a. M.: Campus.
Chamberlain, Rebecca / Caitlin Mullin / Bram Scheerlinck / Johan Wagemans (2018), »Putting the Art in Artificial: Aesthetic Responses to Computer-Generated Art«, Psychology of Aesthetics, Creativity, and the Arts 12/2, 177–192.
Crembil, Gustavo / Paula Gaetano Adi (2017), »Mestizo Robotics«, Leonardo 50/2, 132–137.
Franklin, Stan (2014), »History, Motivations, and Core Themes«, in: The Cambridge Handbook of Artificial Intelligence, hg. von Keith Frankish und William M. Ramsey, Cambridge: Cambridge University Press, 15–33.
Gioti, Artemi-Maria (2018), »Neurons: An Interactive Composition Using a Neural Network for Recognition of Playing Techniques«, in: Proceedings des 6th International Workshop on Musical Metacreation (MUMW 2018), hg. von Philippe Pasquier, Oliver Bown und Arne Eigenfeldt, https://musicalmetacreation.org/proceedings/mume-2018/ (11.8.2022)
Haberer, Maximilian (2020), »Versuch über Spotify, oder: Musikstreaming als Arbeit am Subjekt«, in: Wissen im Klang. Neue Wege der Musikästhetik, hg. von José Gálvez, Jonas Reichert und Elizaveta Willert, Bielefeld: transcript, 145–162.
Latour, Bruno (2019), Eine neue Soziologie für eine neue Gesellschaft [2005], übers. von Gustav Rößler, Frankfurt a .M.: Suhrkamp.
Loh, Janina (2018), Trans- und Posthumanismus zur Einführung, Hamburg: Junius.
Longuet-Higgins, Christopher (1994), »Artificial Intelligence and Musical Cognition«, Philosophical Transactions: Physical Sciences and Engineering 349/1689, 103–113.
McLuhan, Marshall (1995), Die magischen Kanäle. Understanding Media [1964], übers. von Meinrad Amann, Dresden: Verlag der Kunst.
Nakamura, Rei / Marion Saxer / Simon Tönies (Hg.) (2021), Movement to Sound, Sound to Movement. Interpreting Multimedia Piano Compositions, Hofheim: Wolke.
Osborne, Peter (2013), Anywhere or Not at All. Philosophy of Contemporary Art, London: Verso.
Pachet, François (2002), »Interacting with a Musical Learning System: The Continuator«, in: Music and Artificial Intelligence, hg. von Christina Anagnostopoulou und Miguel Ferrand, Berlin: Springer, 119–132.
Peuker, Birgit (2010), »Untersuchung von Risikokontroversen mittels netzwerkanalytischer Methoden«, in: Netzwerkanalyse und Netzwerktheorie, hg. von Christian Stegbauer, Wiesbaden: Springer, 557–565.
Reckwitz, Andreas (2020), Das hybride Subjekt. Eine Theorie der Subjektkulturen von der bürgerlichen Moderne zur Postmoderne [2006], Frankfurt a. M.: Suhrkamp.
Roberts, Adam / Jesse Engel / Sageev Oore / Douglas Eck (2018), »Learning Latent Represenations of Music to Generate Interactive Musical Palettes«, in: Joint Proceedings of the ACM IUI 2018 Workshops. http://ceur-ws.org/Vol-2068/milc7.pdf (8.9.2022)
Saxer, Marion (Hg.) (2011), Mind the Gap! Medienkonstellationen zwischen zeitgenössischer Musik und Klangkunst, Friedberg: Pfau.
Schubert, Alexander (2021a), Convergence [Ensemble Resonanz] @Kampnagel/Eclat. https://youtu.be/o5UXkJWJciQ (8.9.2022)
Schubert, Alexander (2021b), Presentation “Convergence” [@Eclat Festival Presentation Series]. https://youtu.be/laoV7cGXUNo (8.9.2022)
Schubert, Alexander (2021c), Switching Worlds, Hofheim: Wolke.
Schubert, Alexander (2021d), Gespräch mit Jonathan Harth im Rahmen der internationalen Tagung Intersection Art, Society and Technology in Musical Innovation, Valladolid (Spanien). https://youtu.be/LuOJqBo0b2k (8.9.2022)
Sun, Ron (2014), »Connectionism and Neural Networks«, in: The Cambridge Handbook of Artificial Intelligence, hg. von Keith Frankish und William M. Ramsey, Cambridge: Cambridge University Press, 108–127.
Tönies, Simon (2023), Ins Unbekannte. Technik und Ästhetik in Pierre Boulez’ Polyphonie X, Hofheim: Wolke.
Wortzel, Adrianne (2007), »The Dynamik Darwinian Diorama: A Landlocked Archipelago Enhances Epistemology« in: 50 Years of Artificial Intelligence. Essays Dedicated to the 50th Anniversary of Artificial Intelligence, hg. von Max Lungarella, Fumiya Iida, Josh Bongard und Rolf Pfeifer, Berlin: Springer, 386–398.
Dieser Text erscheint im Open Access und ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.
This is an open access article licensed under a Creative Commons Attribution 4.0 International License.