En domare i San Fransisco ger Anthropic rätt i att använda utgivna böcker som träningsdata – utan författarnas tillstånd. Däremot riskerar bolaget rejäla skadestånd för att ha använt piratkopierade böcker istället för att köpa dem.
Idag anordnade KLYS ett seminarium i Visby där man lanserade sina rekommendationer för användning av generativ AI. Under seminariet nämndes att det saknas domslut i frågan om vad som är tillåtet för AI-jättarna när det gäller träningsdata. Men igår kom faktiskt ett första domslut borta i Kalifornien där flera författare stämt AI-bolaget Anthropic för att ha tränat sin LLM på deras böcker utan tillåtelse, fallet kallas Bartz v. Anthropic.
AI-bolagen menar att det är “fair use” att träna modellerna på böcker och andra texter och att det inte skiljer sig från hur människor kan träna på samma sätt. Även om en människa inte klarar av att läsa miljontals böcker.
Seger för AI-bolagens fair use-argument
Den federala domaren i San Fransisco går dock på Anthropics linje och menar att även upphovsrättsskyddat material faller inom ramen för fair use, på svenska ungefär skälig eller rimlig användning, rapporterar bland andra TechCrunch.
Det här är en stor seger för AI-bolagen eftersom det figurerar ett antal andra stämningar upplagda på ungefär samma sätt. Däremot fick författarna delvis rätt. Anthropic hade nämligen inte köpt alla de böcker som användes i träningsdatan, där fanns sju miljoner böcker som laddats ner från en sajt med piratkopierade böcker. Och det ansåg inte domaren var okej, skriver Authors Alliance.
Piratkopierade böcker kan ändå kosta miljarder
Därför ska denna piratkopiering prövas separat. Enligt nyhetsbrevet The Bottom Line är den lägsta ersättningen för denna typ av upphovsrättsintrång runt 750 dollar per titel men kan också sträcka sig upp till 150 000 dollar, enligt Authors Alliance. Det kan alltså bli en otroligt dyr affär för AI-företagen.
Anthropic har dock inte enbart förlitat sig på böcker nedladdade från piratsajter utan även köpt fysiska böcker som scannats, några av dessa överlappade dessutom de piratkopierade. I vissa fall har de köpt böcker från förlagen, sammanlagt miljontals böcker för flera miljoner dollar. Även detta anser domaren är fair use, men det innebär inte att de går fria från ansvar för det piratkopierade materialet.
Sannolikt med förlikningar utan rättegång
Den stora frågan är dock ifall författarna kan göra det hela till en grupptalan liksom hur många böcker som faktiskt är copyrightskyddade då många äldre titlar är public domain och andra saknar enskilda upphovsmän. En del experter tror att resultatet blir förlikning i detta fall och andra liknande. Författarna hoppas nu att det innebär skadestånd och kompensation. Kanske från varje AI-bolag som tränat sina LLM:s på liknande sätt. Facebooks ägare Meta är ju ett aktuellt exempel där även svenska piratkopierade böcker förekommer.
Däremot kan domen tolkas som att AI-bolag inte behöver licensiera böcker som träningsdata utan enbart se till att köpa ett exemplar på laglig väg.
Hur domare kommer att bedöma liknande fall som rör bilder som använts som träningsdata återstår att se.
Fotnot: Anthropic grundades 2021 och har utvecklat en LLM-familj som kallas Claude. Amazon har investerat i bolaget i flera omgångar och är en av bolagets största ägare tillsammans med Google och en rad riskkapitalbolag.