AI-dom: Böcker får användas som träningsdata utan författares tillstånd

En av de allra första domarna gällande träningsdata för LLM:s (stora språkmodeller) ses som en seger för AI-bolagen, i detta fall Anthropic. Som dock kan få betala skadestånd för piratkopiering. Illustratio: iStock.

En domare i San Fransisco ger Anthropic rätt i att använda utgivna böcker som träningsdata – utan författarnas tillstånd. Däremot riskerar bolaget rejäla skadestånd för att ha använt piratkopierade böcker istället för att köpa dem.

Idag anordnade KLYS ett seminarium i Visby där man lanserade sina rekommendationer för användning av generativ AI. Under seminariet nämndes att det saknas domslut i frågan om vad som är tillåtet för AI-jättarna när det gäller träningsdata. Men igår kom faktiskt ett första domslut borta i Kalifornien där flera författare stämt AI-bolaget Anthropic för att ha tränat sin LLM på deras böcker utan tillåtelse, fallet kallas Bartz v. Anthropic.

AI-bolagen menar att det är “fair use” att träna modellerna på böcker och andra texter och att det inte skiljer sig från hur människor kan träna på samma sätt. Även om en människa inte klarar av att läsa miljontals böcker.

Boktugg Medium - välj din egen prenumerationsavgift från 200 kr per år!
99 % av Boktugg är gratis att läsa. Regelbunden läsare? Stötta oss gärna genom att prenumerera.


Seger för AI-bolagens fair use-argument

Den federala domaren i San Fransisco går dock på Anthropics linje och menar att även upphovsrättsskyddat material faller inom ramen för fair use, på svenska ungefär skälig eller rimlig användning, rapporterar bland andra TechCrunch.

Det här är en stor seger för AI-bolagen eftersom det figurerar ett antal andra stämningar upplagda på ungefär samma sätt. Däremot fick författarna delvis rätt. Anthropic hade nämligen inte köpt alla de böcker som användes i träningsdatan, där fanns sju miljoner böcker som laddats ner från en sajt med piratkopierade böcker. Och det ansåg inte domaren var okej, skriver Authors Alliance.

Piratkopierade böcker kan ändå kosta miljarder

Därför ska denna piratkopiering prövas separat. Enligt nyhetsbrevet The Bottom Line är den lägsta ersättningen för denna typ av upphovsrättsintrång runt 750 dollar per titel men kan också sträcka sig upp till 150 000 dollar, enligt Authors Alliance. Det kan alltså bli en otroligt dyr affär för AI-företagen.

Anthropic har dock inte enbart förlitat sig på böcker nedladdade från piratsajter utan även köpt fysiska böcker som scannats, några av dessa överlappade dessutom de piratkopierade. I vissa fall har de köpt böcker från förlagen, sammanlagt miljontals böcker för flera miljoner dollar. Även detta anser domaren är fair use, men det innebär inte att de går fria från ansvar för det piratkopierade materialet.

Sannolikt med förlikningar utan rättegång

Den stora frågan är dock ifall författarna kan göra det hela till en grupptalan liksom hur många böcker som faktiskt är copyrightskyddade då många äldre titlar är public domain och andra saknar enskilda upphovsmän. En del experter tror att resultatet blir förlikning i detta fall och andra liknande. Författarna hoppas nu att det innebär skadestånd och kompensation. Kanske från varje AI-bolag som tränat sina LLM:s på liknande sätt. Facebooks ägare Meta är ju ett aktuellt exempel där även svenska piratkopierade böcker förekommer.

Däremot kan domen tolkas som att AI-bolag inte behöver licensiera böcker som träningsdata utan enbart se till att köpa ett exemplar på laglig väg.

Hur domare kommer att bedöma liknande fall som rör bilder som använts som träningsdata återstår att se.

Fotnot: Anthropic grundades 2021 och har utvecklat en LLM-familj som kallas Claude. Amazon har investerat i bolaget i flera omgångar och är en av bolagets största ägare tillsammans med Google och en rad riskkapitalbolag.

Boktugg Medium - välj din egen prenumerationsavgift från 200 kr per år!
99 % av Boktugg är gratis att läsa. Regelbunden läsare? Stötta oss gärna genom att prenumerera.


Sölve Dahlgren

Sölve Dahlgren

Sölve Dahlgren är journalist sedan 30 år tillbaka och författare till mer än tio böcker. VD och chefredaktör för Boktugg.

solve@boktugg.se

Gör som ...

… och alla våra andra sponsorer som stöttar oss ekonomiskt. Vill ditt företag bli sponsor? Kontakta sales@boktugg.se för mer information. Privatpersoner och mindre företag som vill bidra swishar valfritt belopp till 123-483 18 71 (klicka här för QR-kod) eller med andra betalmedel.

Ett hav av fjärilar – ett spektra av känslor

“Ett hav av fjärilar” är en novellsamling som innehåller tio olika noveller. Berättelserna tar med sina läsare på en känslomässig berg- och dalbana. Boken vänder sig framför allt till unga kvinnor.