KI-Lizenzierung wird zur Plattform-Schlacht

Microsoft und Amazon lancieren KI-Lizenzierungs-Marktplätze

Foto/Video: KI-generiert, Freepik

Microsoft hat gerade seinen Publisher Content Marketplace (PCM) angekündigt, Amazon soll in Kürze nachziehen. Die beiden Tech-Riesen etablieren damit zentrale Plattformen für die Lizenzierung von Verlagsinhalten für KI-Training – ein Versuch, den jahrelangen Streit um urheberrechtlich geschützte Inhalte in geordnete kommerzielle Bahnen zu lenken.

Microsofts PCM wurde in Zusammenarbeit mit großen US-Content-Anbietern entwickelt, darunter Associated Press, Condé Nast, Hearst Magazines, Vox Media und USA Today. Buchverlage fehlen in der Startaufstellung explizit. Publisher definieren auf der Plattform Lizenz- und Nutzungsbedingungen selbst, während KI-Entwickler Inhalte für spezifische Anwendungsfälle lizenzieren können. Ein nutzungsbasiertes Reporting soll Verlagen Transparenz über die Verwertung ihrer Inhalte verschaffen. Zunächst wird die Plattform Microsoft Copilot mit Inhalten versorgen.

Und auch Amazon Web Services plant Berichten von "The Information" zufolge die Ankündigung eines eigenen AI Content Licensing Marketplace. Amazon selbst äußert sich zurückhaltend, betont aber langjährige Beziehungen zu Publishern.

Einordnung: Der schwierige Weg zur Lizenzierung

Die Initiativen von Microsoft und Amazon reihen sich in einen größeren Kontext ein, in dem die KI-Industrie versucht, ihr "Original Sin" – die nicht-konsensuale Nutzung urheberrechtlich geschützter Materialien für das Training großer Sprachmodelle – durch nachträgliche Lizenzierungsdeals zu legitimieren. Wie der Publishing-Analyst Thad McIlroy in einer umfassenden Analyse darlegt, folgen die KI-Konzerne damit einem bewährten Tech-Muster: "Erst machen, dann um Erlaubnis fragen – und sich mit Geld freikaufen."

Bislang konzentrierten sich Lizenzdeals primär auf News-Organisationen. OpenAI, Microsoft, Amazon und Perplexity schlossen Vereinbarungen mit AP, Financial Times, New York Times, News Corp, Springer und The Atlantic. Die Buchverlags-Seite bleibt hingegen überschaubar: Wiley agiert als aggressivster Dealmaker, Taylor & Francis/Informa erscheint dreimal in der Tracking-Liste von Ithaka S+R, dazu kommen drei Universitätsverlage und ein Trade Publisher – "Is that all there is?", fragt McIlroy.

Das Dilemma: Unsichtbarkeit versus Kapitulation

Die Frage, ob Lizenzierung Lösung oder Kapitulation darstellt, spaltet die Branche. Autoren fühlen sich – so zitiert McIlroy einen Branchenvertreter – als hätten KI-Firmen "nicht nur in ihre Häuser eingebrochen, sondern auch die Kinder entführt." Die Wut speist sich aus der Nutzung der Book3-Korpus sowie heruntergeladenen Raubkopien von Library Genesis und Pirate Library Mirror für das Training mehrerer großer Sprachmodelle.

Doch McIlroy weist auf ein fundamentales Problem hin: Ohne Lizenzierung droht Unsichtbarkeit. "Wenn Google Search deinen Blogpost nicht findet, ist er technisch vielleicht existent, praktisch aber unsichtbar. So verhält es sich auch mit KI-Interaktionen." In einer Welt, in der Nutzerinteraktionen zunehmend durch LLM-basierte KI vermittelt werden, könnte fehlende Lizenzierung faktisch Nichtexistenz bedeuten.

Zwei Trainingsarten, unterschiedliche Perspektiven

McIlroy unterscheidet zwei Typen von KI-Training: Allgemeines LLM-Training, bei dem Inhalte als "Bags of Words" zur Sprachfähigkeit beitragen, und RAG (Retrieval-Augmented Generation) für spezifischen Faktenabruf. Für Verlage dürfte RAG die vielversprechendere Perspektive bieten: Hier zählt der konkrete Inhalt mehr als die Wortmenge – und Attribution wird Teil des Modells.

Die finanziellen Realitäten bleiben ernüchternd: Während das vielzitierte HarperCollins-Angebot von 5.000 Dollar für ein Kinderbuch als Ausreißer gilt, hat sich branchenweit ein Tarif von rund 100 Dollar pro Buch etabliert. Bei Word-basierten Deals für "Tonnage"-Content liegen die Preise noch niedriger – etwa 0,001 Cent pro Wort, was für ein durchschnittliches Buch 75 Dollar entspräche. McIlroy schätzt den Gesamtwert aller bisher bekannten Text-Lizenzdeals auf 300 Millionen Dollar – ein Tropfen angesichts der KI-Trainingskosten.

Perfect Information Problem

Ein strukturelles Problem bleibt: KI-Firmen streben nach "Perfect Information" – vollständiger Abdeckung von Themengebieten. Für breite Bereiche wie Wirtschaft mag die bereits erfasste Datenmenge ausreichen. Für spezialisierte Themen – McIlroy nennt das "No-Trade Theorem" in der Ökonomie – wären 30 bis 40 gezielte Lizenzen nötig, viele davon hinter Paywalls. Will KI wirklich autoritativ sein, nicht nur scheinbar intelligent, braucht sie Zugang zu allem.

Konkurrenz der Intermediäre

Die Unsicherheit hat ein eigenes Ökosystem geschaffen: McIlroy listet 30 Intermediäre auf, die zwischen Rechteinhabern und KI-Firmen vermitteln wollen – von Copyright Clearance Center über Startups wie Amlet, Cashmere und Created by Humans bis zu spezialisierten Diensten wie Wiley und Bookwire. Microsofts und Amazons eigene Marktplätze konkurrieren nun mit diesen Anbietern.

Zentrale Fragen bleiben unbeantwortet: Wie wirken sich die häufig genannten dreijährigen Vertragslaufzeiten aus, wenn trainierte Inhalte nicht wieder "herausgenommen" werden können? Setzen sich nutzungsbasierte Vergütungsmodelle durch, die Verlage zunehmend fordern? Und kann die Branche sich auf gemeinsame Lizenzierungsstandards einigen, oder wird sie – so McIlroys Befürchtung – weiterhin fragmentiert agieren und damit Kontrolle abgeben?

Die Microsoft- und Amazon-Plattformen könnten einen De-facto-Standard setzen – ob zum Vorteil oder Nachteil der Verlage, wird sich zeigen.

MEHR INFOS (Artikel Thad McIlroy)