Das hab ich nur ausversehen auswendig gelernt
Ihr glaubt, KI-Modelle “lernen” nur aus Büchern? Falsch gedacht! Eine brandneue Studie zeigt: Metas Llama 3.1 70B hat immerhin 42 Prozent von J. K. Rowlings Harry Potter und der Stein der Weisen so gut auswendig gelernt, dass es 50-Token-Auszüge in mindestens der Hälfte der Zeit reproduzieren konnte. Das ist kein “Lernen” mehr - das ist digitaler Diebstahl im Industriemaßstab.
Stellt euch vor, ihr schreibt ein Buch, werdet dafür gefeiert, macht damit Millionen - und dann kommt Meta daher, füttert eure kompletten Werke in ihre KI-Maschine und macht damit noch mehr Millionen. Ohne zu fragen. Ohne zu bezahlen. Einfach so.
Das Perverse daran: Metas Vorgängermodell Llama 1 65B kam nur auf 4,4 Prozent. Das deutet darauf hin, dass trotz der potenziellen rechtlichen Haftung nicht viel unternommen wurde, um das Auswendiglernen zu verhindern. Meta wusste also, dass sie sich in rechtlich dünnem Eis bewegen - und haben trotzdem nachgelegt!
Die Forscher von Stanford, Cornell und West Virginia haben 13 große Sprachmodelle getestet - und das Ergebnis ist erschreckend. Je populärer ein Buch, desto höher die Reproduktionsrate. Harry Potter ist dabei nur die Spitze des Eisbergs. Auch Klassiker wie 1984 oder Der Hobbit werden von den KI-Systemen quasi digital fotokopiert.
Das ist ein systematischer Raubzug durch die Weltliteratur. Autoren schreiben jahrelang an ihren Werken, Verlage investieren Millionen in Marketing und Vertrieb - und dann kommen die Tech-Giganten und schneiden sich einfach ein fettes Stück vom Kuchen ab. Ohne Genehmigung, ohne Bezahlung, ohne Scham.
Meta behauptet natürlich, das sei alles “Fair Use”. Bullshit! Fair Use bedeutet, dass man kleine Teile eines Werks für Kritik, Kommentar oder Bildung verwenden darf. Aber 42 Prozent eines kompletten Romans? Das ist kein Fair Use, das ist industrieller Diebstahl.
Das Schlimmste: Während Unternehmen wie OpenAI, Google oder Anthropic ihre Modelle zunehmend abschotten, macht Meta mit seinen Open-Source-Modellen alles transparent. Dadurch können Forscher beweisen, was alle schon lange vermutet haben: Die KI-Industrie baut ihr Geschäftsmodell auf geklauten Inhalten auf.
Aber hier wird’s richtig interessant: Meta hat sich mit der Open-Source-Strategie möglicherweise selbst ins Knie geschossen. Während andere ihre Geheimnisse hüten, liegt bei Llama alles offen. Jeder kann nachprüfen, wie viel urheberrechtlich geschütztes Material drin steckt. Das macht Meta zum perfekten Angriffsziel für Anwälte.
Die juristische Debatte läuft auf drei Fronten: Erstens - ist schon das Training mit geschütztem Material illegal? Zweitens - ist das KI-Modell selbst ein “abgeleitetes Werk” und damit eine Urheberrechtsverletzung? Drittens - macht sich jeder User strafbar, der das Modell nutzt und dabei geschützte Inhalte reproduziert?
Alle drei Fragen werden gerade vor US-Gerichten verhandelt. Und das Ergebnis könnte die komplette KI-Industrie zerlegen. Stellt euch vor, Meta müsste für jeden reproduzierten Satz Lizenzgebühren zahlen. Bei 42 Prozent von Harry Potter wären das schon mal ein paar Millionen nur für ein Buch.
Das Timing ist perfekt für die Kläger. Die KI-Euphorie der letzten Jahre hat dazu geführt, dass alle Regeln über Bord geworfen wurden. “Move fast and break things” war das Motto - auch wenn die “things” das Urheberrecht war. Jetzt kommt die Rechnung.
J.K. Rowling hat übrigens schon mehrfach klargemacht, dass sie ihre Rechte energisch verteidigen wird. Wenn sie gegen Meta klagt und gewinnt, könnte das eine Lawine auslösen. Dann werden alle anderen Autoren nachziehen. Stephen King, Dan Brown, George R.R. Martin - die haben alle erstklassige Anwälte und sehr tiefe Taschen.
Meta und Co. haben ein fundamentales Problem: Sie können nicht beweisen, dass ihre KI-Systeme ohne geschützte Inhalte genauso gut funktionieren würden. Das komplette Internet ist voll mit urheberrechtlich geschütztem Material. Ohne diese Daten wären die Modelle wahrscheinlich nur halb so gut.
Die Ironie dabei: Meta hat Milliarden in die Entwicklung von Llama gesteckt, um unabhängig von OpenAI zu werden. Aber durch die Open-Source-Strategie haben sie sich selbst die größte Angriffsfläche geschaffen. OpenAI kann immer behaupten, ihre Modelle würden nicht kopieren - Meta kann das nicht mehr, die Beweise sind öffentlich zugänglich.
Das wird teuer für Zuckerberg. Sehr teuer. Und das ist auch gut so. Die Tech-Giganten haben viel zu lange gedacht, sie könnten sich alles nehmen, was im Internet steht. Jetzt lernen sie, dass geistiges Eigentum nicht gratis ist.
Die Autoren der Welt sollten sich zusammenschließen und geschlossen gegen Meta vorgehen. Das ist ihre Chance, Gerechtigkeit zu bekommen und sicherzustellen, dass ihre Arbeit endlich respektiert wird. Harry Potter war nur der Anfang - jetzt kommt der große Showdown.
Upvoted! Thank you for supporting witness @jswit.