Autor: Dr. Carsten Siara
Der Inhalt im Überblick
Technische Fragen: wie funktioniert das Training einer künstlichen Intelligenz (KI)?
Generative KI ist eine besondere Form künstlicher Intelligenz, die etwa Texte, Bilder, Musik oder andere Inhalte autonom produzieren kann, also in gewisser Weise „kreativ“ tätig wird. Um dies bewerkstelligen zu können, muss eine generative KI „trainiert“ werden. Hierzu wertet die KI in automatisierter Form eine Vielzahl von Daten und Dateien aus, um sogenannte Gewichtungsinformationen zu gewinnen. Meistens erfolgt dies durch den automatisierten Zugriff auf öffentlich zugängliche Dateien, insbesondere solche, die im Internet frei zugänglich sind (sogenanntes „Web Scraping“). Hierzu wertet die KI eine möglichst große Vielzahl von Dateien aus, um dadurch statistische Daten über die Wahrscheinlichkeiten bestimmter Gestaltungsvarianten in bestimmten Konstellationen zu gewinnen. Beispielsweise entwickeln Large Language Models (LLM) wie ChatGPT Gewichtungsparameter dadurch, dass die Wahrscheinlichkeit bestimmter Wortfolgen anhand einer Vielzahl von Texten bestimmt wird. Die bloße statistische Auswertung von Dateien stellt – zumindest aus urheberrechtlicher Sicht – regelmäßig kein Problem dar. Allerdings erfordert die Auswertung durch die KI zumeist auch die Anfertigung einer digitalen Kopie.
Worin liegt die urheberrechtlich relevante Nutzungshandlung?
Soweit es sich hierbei um nicht geschützte Daten handelt (etwa Börsendaten, Wetterdaten), ist diese Vorgehensweise zumindest urheberrechtlich unproblematisch. Etwas anderes gilt aber dann, wenn die ausgewerteten Produkte durch Urheberrechte oder Leistungsschutzrechte geschützt sind, was häufig bei Texten, Bildern, Bewegtbildsequenzen oder Musikstücken der Fall ist. Um diese Auswertungen sinnvoll durchführen zu können, muss die KI die auszuwertenden Dateien vervielfältigen und in einen sogenannten „Korpus“ überführen. Auch wenn diese Trainingsdateien unmittelbar nach der Auswertung gelöscht werden (vgl. Pukas, GRUR 2023, 614, 615; Gräfe/Kahl, MMR 2021, 121, 124), liegt hierin die urheberrechtlich relevante Nutzungshandlung der Vervielfältigung (§ 16 UrhG) vor. Eine Vervielfältigung nach § 16 UrhG würde lediglich dann entfallen, wenn die Datei nur in so kleinen Auszügen übernommen würde, dass diese für sich nicht die wesentlichen Grundzüge des Werks oder der geschützten Leistung widerspiegeln und damit keinen urheberrechtlich relevanten Teil des Produkts darstellen.
Nach Abschluss des Trainings und dem Löschen der Trainingsdaten werden in der KI regelmäßig nur statistische Parameter (d. h. die besagten Gewichtungsinformationen) gespeichert, die es der KI ermöglichen, in bestimmten Gestaltungsvarianten bestimmte kreative Entscheidungen zu treffen. Bei den Large Language Models von ChatGPT stellt sich dies (vereinfacht) so dar, dass einzelne Wörter oder Wortelemente vor dem Hintergrund der schon vorhandenen Wörter und Satzteile mit einem Wahrscheinlichkeitswert versehen und auf dieser Grundlage dem Text hinzugefügt werden (vertiefend: Stephen Wolfram (2023), “What Is ChatGPT Doing … And Why Does It Work?“). In der Speicherung solcher Parameter liegt keine Vervielfältigung der Originaldatei, da das ursprüngliche Werk anhand der gespeicherten Parameter menschlichen Nutzern nicht mehr wahrnehmbar gemacht werden kann. Somit liegt keine Reproduzierbarkeit des Werks vor, die aber Voraussetzung einer Vervielfältigung wäre (so auch Pesch/Böhme, GRUR 2023,997, 1004). Anders ist es nur, wenn ausnahmsweise Einzelwerke oder wesentliche Bestandteile desselben direkt als echte Vervielfältigungen in der KI abgelegt werden.
Richtiger Adressat für mögliche Ansprüche wegen unberechtigter Vervielfältigungshandlungen ist neben eventuellen Datendienstleistern regelmäßig die Person, die die KI einsetzt und damit die Vervielfältigungen adäquat kausal veranlasst hat (Dreier/Schulze/Specht-Riemenschneider, UrhG § 97 Rn. 24).
Rechtfertigung durch § 44a UrhG?
Fraglich ist daher, ob sich die urheberrechtlich relevanten Vervielfältigungshandlungen im Rahmen des KI-Trainings durch Schrankenbestimmung rechtfertigen lassen. Dabei kommt eine Rechtfertigung durch § 44a UrhG (vorübergehende Vervielfältigungshandlungen) nicht in Betracht. Auch wenn Datenvervielfältigungen im Rahmen des KI-Trainings oft nur vorübergehender Natur sind, sind sie keineswegs nur untergeordnete integrale Bestandteile eines technischen Verfahrens, sondern haben wegen ihrer Auswirkungen auf die Qualität des KI-Modells eine eigene technische und wirtschaftliche Bedeutung.
Rechtfertigung durch § 44b UrhG?
Vielversprechender ist der Versuch, die Vervielfältigung im Rahmen des KI-Trainings auf die Bestimmung des § 44b UrhG (Text und Data Mining) zu stützen. Für Hochschulen, Forschungsinstitute oder sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, findet sich für das Text und Data Mining sogar eine Sondervorschrift in § 60d UrhG. Für die Praxis relevanter ist allerdings § 44b UrhG, da er – anders als § 60d UrhG – auch die Nutzung zu kommerziellen Zwecken ermöglicht. Nach dieser Vorschrift ist die Vervielfältigung von digitalen oder digitalisierten Werken zulässig, um daraus Informationen, insbesondere über Muster, Trends und Korrelationen zu gewinnen (§ 44b Abs. 1 UrhG). Bei den verwendeten Produkten muss es sich um rechtmäßig zugängliche Werke handeln, wobei hierunter bereits die freie Zugänglichkeit eines Werks über das Internet fällt (Dreier/Schulze/Dreier, UrhG § 44b Rn. 8). § 44b Abs. 2 S. 2 UrhG fordert zudem, dass die Vervielfältigungen zu löschen sind, wenn sie für das Text und Data Mining nicht mehr erforderlich sind. Auch wenn § 44b UrhG von „Werken“ spricht, gilt er nicht nur für urheberrechtliche Werke nach § 2 UrhG, sondern auch für Produkte, die von Leistungsschutzrechten erfasst werden (z. B. Lichtbilder, Laufbilder oder Datenbanken).
Kritisch ist allerdings die Ausnahmeregelung des § 44b Abs. 3 UrhG, der zugunsten des Werkinhabers einen Opt-Out-Mechanismus aus der Vervielfältigung vorsieht. Danach scheidet die Anwendbarkeit der Schrankenbestimmung dann aus, wenn sich der Rechtsinhaber die Nutzung vorbehalten hat. Hierbei erfolgt bei Werken, die über das Internet zugänglich gemacht werden, der Ausschluss in maschinenlesbarer Form. An die Maschinenlesbarkeit sind nach gegenwärtigem Verständnis keine allzu hohen Anforderungen zu stellen. Sie ist bereits gegeben, wenn der Vorbehalt so ausgestaltet ist, dass er durch Mittel des Standes der Technik erkannt und ausgewertet werden kann (Pukas, GRUR 2023, 614, 615). Somit genügt bereits eine Ausschlusserklärung im Impressum oder in den AGB einer Website, sofern der Ausschluss von dem Crawler der KI automatisch erkannt werden kann (z. B. durch das Auslesen einer robots.txt-Datei). Die Zukunft wird zeigen, ob sich § 44b Abs. 3 UrhG für die weitere Entwicklung der KI in Deutschland als großes Hindernis erweisen wird oder nicht.
Fazit
Die Nutzung von Dateien zum Zweck des KI-Trainings ist insbesondere bei generativen KIs ein wesentliches Element. Ohne sinnvolles Training kann eine KI nicht wirklich funktionieren. Soweit es sich bei den zum Training verwendeten Produkten um urheberrechtsfähige oder durch Leistungsschutzrechte geschützte Erzeugnisse handelt, entsteht ein Konflikt zwischen den Anforderungen des Trainings und dem Urheberrechtsgesetz, da zum Zweck des Trainings zumindest vorübergehende Vervielfältigungen hergestellt werden müssen. Eine wesentliche Vorschrift in diesem Zusammenhang ist die Schrankenbestimmung des § 44b UrhG, die eine vorübergehende Vervielfältigung zur Auswertung von urheberrechtlich oder leistungsschutzrechtlich geschützten Erzeugnissen zulässt, um Informationen zu gewinnen. Hinderlich kann hier allerdings die Regelung des § 44b Abs. 3 UrhG sein, die es dem Werkberechtigten erlaubt, sich die Nutzung mittels eines maschinenlesbaren Ausschlusses vorzubehalten. Diese Ausnahme birgt das Potenzial, den Aufbau generativer KI in Deutschland erheblich zu behindern.