KI-Systeme wie ChatGPT und Claude ist seit zwei Jahren in aller Munde. Zwei Jahre, in denen die Schreibenden und Schauspielenden Hollywoods sich unter anderem im Rahmen eines historischen Streiks gegen die unlautere Verwendung ihrer Arbeit im Zeitalter der Künstlichen Intelligenz zur Wehr gesetzt haben.
Wie notwendig diese kritische Auseinandersetzung mit diesen Large Language Models (LLMs) ist, wurde jetzt wieder deutlich, als eine neue Quelle offenbart wurde, mit der die großen Datensätze dieser Systeme gespeist werden.
Neuer KI-Skandal enthüllt: Etwa 139.000 Filme und Serien im Datensatz zum Training der Künstlichen Intelligenz
Was haben Alf und Der Pate gemeinsam? Es sind zwei Titel, die den investigativen Tech-Journalismus von The Atlantic -Autor Alex Reisner auf den Weg gebracht haben. Eine Person aus dem Drehbuchbereich hatte ihm gesteckt, dass generative KI sowohl die Alien-Sitcom, als auch das Mafia-Epos mehr oder weniger reproduzieren könne.
Das war aber erst der Anfang, denn wie der Journalist im folgenden aufdeckte, wurden über 53.000 Filme und über 85.000 TV-Episoden für einen Datensatz namens The Pile verwendet, die unter anderem KI von Microsoft, Meta, Apple, Anthropic trainiert.
Überraschend ist vor allem die Entdeckung, wo diese Datensätze herkommen: Sie stammen von einer Website, auf der man sich gerippte Untertitel-Daten mit Film- und Seriendialogen herunterladen kann. Über 9 Millionen verschiedene Daten liegen dort vor.
Mithilfe seiner technischen Expertise konnte Reisner daraufhin die in den KI-Systemen vorliegenden Files zurückverfolgen und offenbarte Erstaunliches: Jeder Oscar-nominierte Film von 1950 bis 2016 ist im Daten-Set vorhanden, sowie 616 Folgen von Die Simpsons, 170 Episoden von Seinfeld plus Prestige-Serien wie Twin Peaks, The Wire, Breaking Bad und Die Sopranos.
KI vor Gericht: Kreative hinter Titeln wie Game of Thrones und Breaking Bad setzen sich zur Wehr
Erst im letzten Jahr hatte der selbe Autor (ebenfalls im Atlantic ) darüber berichtet, wie 183.000 Bücher für diese Daten genutzt wurden. Wie Variety zu dieser Zeit meldete, hatten prominente Autor:innen wie George R.R. Martin (Game of Thrones) und andere bereits angefangen, sich juristisch dagegen zur Wehr zu setzen. Der Prozess läuft noch.
Breaking Bad-Schöpfer Vince Gilligan ahnte zu dieser Zeit sogar, dass sein Serienmeisterwerk vermutlich längst (ungefragt) in die KI-Maschinerie hineingebacken wurde. In einem offenen Brief (via Variety ) schrieb er unter anderem:
Ich bin sicher, dass jedes Wort aus Breaking Bad irgendwo da reingequetscht wurde. Ich erinnere mich nur nicht, meine Erlaubnis erteilt zu haben. [...] Vielleicht haben diese Unternehmen herausgefunden, dass es besser wäre, um Vergebung statt nach Erlaubnis zu fragen.
Die Rechtslage zur KI-Entwicklung und ihren Datensätzen ist in vielen Bereichen noch ungeklärt. Dürfen LLMs urhebergeschütztes Material lizenzlos verwenden? Und sind Schöpfungen von KI im Umkehrschluss urheberrechtlich schützbar, wenn sie im Grunde nur menschlich geschaffenes Material remixen?
All das muss in naher Zukunft juristisch entschieden werden – und zum Schutz der unzähligen Kreativen, die unsere Filme und Serien herstellen, besser früher als später.