Pravni Sudnji dan za generativni AI ChatGPT ako bude uhvaćen u plagiranju ili kršenju prava, upozorava na etiku AI i zakon o AI

Da li generativna umjetna inteligencija, kao što je ChatGPT, otima naše web stranice i sadržaj koji su osmislili ljudi? Budite svjesni, budite … [+] uznemiren, budi spreman.

getty

Dajte kredit tamo gdje kredit dospijeva.

To je malo mudre mudrosti u koju ste možda odgajani da čvrsto vjerujete. Zaista, neko pretpostavlja ili zamišlja da bismo se svi mogli donekle razumno složiti da je ovo pošteno i razumno pravilo u životu. Kada neko uradi nešto što zaslužuje priznanje, pobrinite se da dobije zasluženo priznanje.

Suprotno gledište izgledalo bi mnogo manje uvjerljivo.

Ako bi neko hodao uokolo inzistirajući da bi kredit trebao ne biti priznat kada kredit dospijeva, pa, mogli biste tvrditi da je takvo uvjerenje nepristojno i vjerovatno lažno. Često smo jako uznemireni kada se nekome ko je postigao nešto značajno prevari zasluge. Usuđujem se reći da mi posebno ne volimo kada drugi lažno pripisuju zasluge za rad drugih. To je uznemirujući dvostruki udarac. Osobi koja je trebala dobiti kredit je uskraćen trenutak na suncu. Osim toga, varalica uživa u reflektorima iako nas pogrešno obmanjuju da prisvajamo naše naklonosti.

Čemu sav ovaj diskurs o stjecanju kredita na najispravniji način i izbjegavanju pogrešnih i prezira?

Zato što se čini da se suočavamo sa sličnim problemom kada je u pitanju najnovije u oblasti veštačke inteligencije (AI).

Da, tvrdnje su da se to dešava vidljivo putem vrste AI poznate kao Generativna AI. Postoji mnogo tvrdnji da je Generativna AI, najtoplija AI u vijestima ovih dana, već preuzela zasluge za ono za šta ne zaslužuje. A ovo će se vjerovatno pogoršati kako se generativna AI sve više širi i koristi. Sve više i više zasluga prožimaju generativnu AI, dok nažalost oni koji itekako zaslužuju istinsku zaslugu ostaju u prašini.

Moj ponuđeni način da jasno označim ovaj navodni fenomen je kroz dvije elegantne fraze:

1) Plagijat u velikim razmjerima
2) Kršenje autorskih prava u velikim razmjerima

Pretpostavljam da ste možda svjesni generativne AI zbog široko popularne AI aplikacije poznate kao ChatGPT koju je OpenAI objavio u novembru. Uskoro ću reći više o generativnoj AI i ChatGPT-u. Drži se.

Hajdemo odmah do srži onoga što je, takoreći, dobijanje koza ljudi.

Neki se gorljivo žale da generativna AI potencijalno krade ljude koji su kreirali sadržaj. Vidite, većina generativnih AI aplikacija su podaci obučeni ispitivanjem podataka pronađenih na internetu. Na osnovu tih podataka, algoritmi mogu usavršiti ogromnu internu mrežu za uparivanje uzoraka unutar AI aplikacije koja može naknadno proizvesti naizgled novi sadržaj koji nevjerovatno izgleda kao da ga je osmislila ljudska ruka, a ne dio automatizacije.

Ovaj izvanredan podvig je u velikoj mjeri rezultat korištenja sadržaja skeniranog na Internetu. Bez obima i bogatstva internet sadržaja kao izvora za obuku podataka, generativna AI bi bila prilično prazna i bila bi malo ili nimalo interesantna za korištenje. Time što AI ispituje milione i milione onlajn dokumenata i teksta, zajedno sa svim vrstama pridruženog sadržaja, usklađivanje uzoraka se postepeno izvodi kako bi se pokušao oponašati sadržaj koji je napravio čovjek.

Što se više sadržaja ispita, izgledi su da će se podudaranje šablona bolje izoštriti i postati još bolje u mimikriji, pod uslovom da je sve ostalo jednako.

Evo pitanja od milion dolara:

Veliko pitanje: Ako vi ili drugi imate sadržaj na internetu za koji je obučena neka generativna AI aplikacija, čineći to vjerojatno bez vaše direktne dozvole i možda u potpunosti bez vaše svijesti, ako imate pravo na dio kolača u vezi s bilo kojom vrijednošću koja proizlazi iz taj generativni trening AI podataka?

Neki žestoko tvrde da je jedini ispravan odgovor Da, posebno da ti kreatori ljudskih sadržaja zaista zaslužuju svoj dio akcije. Stvar je u tome da bi vam bilo teško pronaći nekoga ko je dobio svoj pošten udio, a što je još gore, skoro niko nije dobio nikakav udio. Kreatorima internet sadržaja koji su nehotice i nesvjesno doprinijeli u suštini se uskraćuje njihova zasluga.

Ovo bi se moglo okarakterisati kao grozno i nečuveno. Upravo smo prošli kroz raspakivanje mudre mudrosti da zasluge treba dati tamo gdje zasluge pripadaju. U slučaju generativne AI, očigledno nije tako. Čini se da je dugotrajno i dobro pravilo o kreditu bezosjećajno prekršeno.

Vau, replika ide, potpuno preuveličavate i pogrešno navodite situaciju. Naravno, generativna AI je ispitala sadržaj na internetu. Naravno, ovo je bilo od velike pomoći kao dio obuke podataka generativne AI. Doduše, impresivne generativne AI aplikacije danas ne bi bile tako impresivne bez ovog promišljenog pristupa. Ali otišli ste predaleko kada kažete da kreatorima sadržaja treba pripisati bilo kakav poseban privid zasluga.

Logika je sljedeća. Ljudi izlaze na internet i uče stvari s interneta, radeći to rutinski i bez ikakve buke. Osoba koja čita blogove o vodoinstalaterskim radovima, a zatim gleda besplatno dostupne video zapise o popravljanju vodovoda mogla bi sljedećeg dana otići i dobiti posao kao vodoinstalater. Da li treba da daju dio svoje doznake vezane za vodovod blogeru koji je pisao o tome kako da odvede umivaonik? Da li treba da daju honorar vlogeru koji je napravio video koji prikazuje korake za popravku kade koja curi?

Gotovo sigurno ne.

Obuka podataka generativne AI je samo sredstvo za razvoj obrazaca. Sve dok rezultati generativne AI nisu samo regurgitacija upravo onoga što je ispitano, mogli biste uvjerljivo tvrditi da su oni „naučili“ i da stoga ne podliježu davanju bilo kakvog posebnog priznanja bilo kojem specifičnom izvoru. Osim ako ne možete uhvatiti generativnu AI u izvođenju tačne regurgitacije, indikacije su da se AI generalizirao izvan bilo kojeg određenog izvora.

Nikome se ne duguje kredit. Ili, pretpostavljamo, moglo bi se reći da zasluge pripadaju svima. Zaslužan je zbirni tekst i drugi sadržaji čovječanstva koji se nalaze na internetu. Svi dobijamo kredit. Pokušaj da se precizira zasluga određenog izvora je besmislen. Budite radosni što je AI napredna i što će čovječanstvo imati koristi od svega. Ove objave na Internetu trebale bi biti počašćene što su doprinijele budućnosti napretka u umjetnoj inteligenciji i kako će to pomoći čovječanstvu za vječnost.

Imaću više da kažem o oba ova suprotna pogleda.

U međuvremenu, naginjete li se taboru koji kaže da je kredit dospio i kasni za one koji imaju web stranice na Internetu, ili smatrate da je suprotna strana koja kaže da su kreatori internetskih sadržaja odlučno ne biti opljačkan je uvjerljiviji stav?

Enigma i zagonetka spojeni zajedno.

Hajde da ovo raspakujemo.

U današnjoj kolumni ću se pozabaviti ovim izraženim zabrinutostima da generativna AI u suštini plagira ili eventualno krši autorska prava sadržaja koji je objavljen na Internetu (koji se smatra pitanjem prava intelektualnog vlasništva ili IP). Pogledat ćemo osnovu za ove nedoumice. Povremeno ću se pozivati na ChatGPT tokom ove diskusije jer je to gorila od 600 funti generativne AI, iako imajte na umu da postoji mnogo drugih generativnih AI aplikacija i one su općenito zasnovane na istim općim principima.

U međuvremenu, možda se pitate šta je zapravo generativna AI.

Hajde da prvo pokrijemo osnove generativne veštačke inteligencije, a zatim možemo izbliza da pogledamo hitnu temu.

U sve ovo dolazi niz razmatranja etike AI i prava.

Imajte na umu da postoje stalni napori da se etički principi AI unesu u razvoj i primjenu AI aplikacija. Sve veći kontingent zabrinutih i nekadašnjih etičara AI pokušava osigurati da napori na osmišljavanju i usvajanju AI uzimaju u obzir pogled na rad AI za dobro i odvraćanje AI za loše. Isto tako, postoje predloženi novi zakoni o umjetnoj inteligenciji koji se razmjenjuju kao potencijalna rješenja kako bi nastojanja umjetne inteligencije spriječila da pobesne o ljudskim pravima i slično. Za moje kontinuirano i opsežno pokrivanje etike AI i prava AI, pogledajte link ovdje i link ovdje, Da nabrojimo samo neke.

Razvoj i objavljivanje etičkih pravila AI se nastavljaju kako bi se, nadamo se, spriječilo da društvo upadne u bezbroj zamki koje izazivaju AI. Za moje izvještavanje o etičkim principima UN AI koje je osmislilo i podržalo skoro 200 zemalja kroz napore UNESCO-a, vidi link ovdje. Na sličan način, istražuju se novi zakoni o AI kako bi se pokušala održati AI na ravnoj kobilici. Jedan od najnovijih snimaka sastoji se od skupa predloženih AI Povelja o pravima koju je američka Bijela kuća nedavno objavila da identifikuje ljudska prava u doba AI, vidi link ovdje. Potrebno je selo da se AI i AI programeri održe na pravom putu i odvrate namjerne ili slučajne lažne napore koji bi mogli potkopati društvo.

U ovu diskusiju ću preplitati razmatranja vezana za etiku umjetne inteligencije i pravo na umjetnu inteligenciju.

Osnove generativne AI

Najpoznatiji primjer generativne AI predstavlja AI aplikacija pod nazivom ChatGPT. ChatGPT je ušao u javnu svijest još u novembru kada ga je objavila AI istraživačka firma OpenAI. Otkako je ChatGPT pokupio velike naslove i zapanjujuće premašio svojih petnaest minuta slave.

Pretpostavljam da ste vjerovatno čuli za ChatGPT ili možda čak znate nekoga ko ga je koristio.

ChatGPT se smatra generativnom AI aplikacijom jer uzima kao unos neki tekst od korisnika, a zatim generiše ili proizvodi rezultat koji se sastoji od eseja. AI je generator teksta u tekst, iako ja opisujem AI kao generator teksta u esej jer to lakše pojašnjava za šta se obično koristi. Možete koristiti generativnu umjetnu inteligenciju za sastavljanje dugih kompozicija ili je možete natjerati da ponudi prilično kratke sadržajne komentare. Sve je po vašoj želji.

Sve što trebate učiniti je unijeti upit i AI aplikacija će za vas generirati esej koji pokušava odgovoriti na vaš upit. Sastavljeni tekst će izgledati kao da je esej pisan ljudskom rukom i umom. Ako unesete prompt koji kaže „Pričaj mi o Abrahamu Linkolnu“, generativna AI će vam dati esej o Linkolnu. Postoje i drugi načini generativne AI, kao što su tekst u umjetnost i tekst u video. Ovdje ću se fokusirati na varijaciju teksta u tekst.

Vaša prva pomisao bi mogla biti da ova generativna sposobnost ne izgleda tako velika stvar u smislu izrade eseja. Možete lako pretražiti internet na internetu i lako pronaći tone i tone eseja o predsjedniku Linkolnu. Potres u slučaju generativne AI je da je generirani esej relativno jedinstven i daje originalnu kompoziciju, a ne kopiju. Ako biste pokušali pronaći esej koji je proizvela umjetna inteligencija negdje na internetu, malo je vjerovatno da ćete ga otkriti.

Generativna AI je unaprijed obučena i koristi složenu matematičku i računsku formulaciju koja je postavljena ispitivanjem obrazaca u pisanim riječima i pričama širom weba. Kao rezultat ispitivanja hiljada i miliona pisanih pasusa, AI može izbaciti nove eseje i priče koje su mešavina onoga što je pronađeno. Dodavanjem različitih probabilističkih funkcionalnosti, rezultirajući tekst je prilično jedinstven u poređenju sa onim što je korišteno u setu za obuku.

Postoje brojne zabrinutosti oko generativne AI.

Jedna ključna mana je da eseji koje proizvodi generativna AI aplikacija mogu imati ugrađene različite neistine, uključujući očigledno neistinite činjenice, činjenice koje su pogrešno prikazane i prividne činjenice koje su u potpunosti izmišljene. Ti izmišljeni aspekti se često nazivaju oblikom AI halucinacije, fraza koju ne volim, ali na žalost izgleda da ionako postaje popularna (za moje detaljno objašnjenje zašto je ovo loša i neprikladna terminologija, pogledajte moje izvješće na link ovdje).

Još jedna zabrinutost je da ljudi mogu lako preuzeti zasluge za generativni esej koji je proizvela umjetna inteligencija, uprkos tome što sami nisu sastavili esej. Možda ste čuli da su nastavnici i škole prilično zabrinuti zbog pojave generativnih AI aplikacija. Učenici potencijalno mogu koristiti generativnu umjetnu inteligenciju za pisanje zadatih eseja. Ako učenik tvrdi da je esej napisan svojom rukom, male su šanse da će nastavnik moći razaznati da li ga je umjesto toga krivotvorila generativna AI. Za moju analizu ovog zbunjujućeg aspekta učenika i nastavnika, pogledajte moje izvješće na link ovdje i link ovdje.

Na društvenim mrežama pojavile su se neke lude prevelike tvrdnje o tome Generativna AI tvrdeći da je ova najnovija verzija AI u stvari razumna AI (ne, nisu u pravu!). Oni iz oblasti etike veštačke inteligencije i prava veštačke inteligencije posebno su zabrinuti zbog ovog rastućeg trenda rasprostranjenih potraživanja. Mogli biste pristojno reći da neki ljudi precjenjuju ono što današnja umjetna inteligencija zapravo može učiniti. Pretpostavljaju da AI ima sposobnosti koje mi još nismo uspjeli postići. To je nesretno. Što je još gore, mogu dozvoliti sebi i drugima da dođu u strašne situacije zbog pretpostavke da će AI biti razuman ili sličan čovjeku u mogućnosti da preduzme akciju.

Nemojte antropomorfizirati AI.

Na taj način ćete biti uhvaćeni u ljepljivu i krutu zamku oslanjanja na očekivanje da AI radi stvari koje nije u stanju da izvede. Uz to, najnovija generativna AI je relativno impresivna za ono što može učiniti. Ipak, budite svjesni da postoje značajna ograničenja koja biste trebali stalno imati na umu kada koristite bilo koju generativnu AI aplikaciju.

Za sada jedno poslednje upozorenje.

Šta god da vidite ili pročitate u generativnom odgovoru AI čini da bude preneto kao čisto činjenično (datumi, mesta, ljudi, itd.), budite skeptični i budite spremni da još jednom proverite šta vidite.

Da, datumi se mogu izmisliti, mjesta se mogu izmišljati, a elementi za koje obično očekujemo da će biti bez zamjerke su sve predmet sumnji. Ne vjerujte onome što pročitate i budite skeptični kada ispitujete bilo kakve generativne eseje ili rezultate AI. Ako vam generativna AI aplikacija kaže da je Abraham Lincoln leteo po zemlji u svom privatnom avionu, nesumnjivo biste znali da je to malargija. Nažalost, neki ljudi možda ne shvataju da mlaznjaci nisu postojali u njegovo vreme, ili možda znaju, ali ne primećuju da esej iznosi ovu drsku i nečuveno lažnu tvrdnju.

Jaka doza zdravog skepticizma i uporni način razmišljanja u nevjerici bit će vaša najbolja prednost kada koristite generativnu umjetnu inteligenciju.

Spremni smo da pređemo u sledeću fazu ovog rasvetljavanja.

Internet i generativna AI su u ovome zajedno

Sada kada imate privid onoga što je generativna AI, možemo istražiti mučno pitanje da li je generativna AI pošteno ili nepravedno „upotrebljiva“, ili bi neki rekli očigledno eksploatacija Internet sadržaj.

Evo moje četiri ključne teme koje se odnose na ovu temu:

1) Dvostruki problemi: plagijat i kršenje autorskih prava
2) Pokušaj da se dokaže plagijat ili kršenje autorskih prava će biti pokušaj
3) Iznošenje tužbe za plagijat ili kršenje autorskih prava
4) Legalne nagazne mine čekaju

Pokriti ću svaku od ovih važnih tema i ponuditi pronicljiva razmatranja o kojima bi svi trebali pažljivo razmišljati. Svaka od ovih tema sastavni je dio veće slagalice. Ne možete gledati samo jedan komad. Niti možete gledati bilo koji komad odvojeno od ostalih komada.

Ovo je zamršen mozaik i cijeloj slagalici treba posvetiti odgovarajuću harmonično razmatranje.

Dvostruki problem: plagijat i kršenje autorskih prava

Dvostruki problem s kojim se suočavaju oni koji proizvode i koriste generativnu umjetnu inteligenciju je to što njihova roba može činiti dvije loše stvari:

1) Plagijat. Generativna AI bi se mogla protumačiti kao plagiranje sadržaj koji postoji na Internetu prema Internet skeniranju koje se dogodilo tokom obuke podataka AI.
2) Kršenje autorskih prava. Generativna AI bi se mogla smatrati poduhvatom kršenje autorskih prava povezan sa internetskim sadržajem koji je skeniran tokom obuke podataka.

Da pojasnimo, na Internetu postoji mnogo više sadržaja nego što se obično skenira za obuku podataka generativne AI. Obično se koristi samo mali dio interneta. Dakle, možemo pretpostaviti da bilo koji sadržaj koji nije skeniran tokom treninga podataka nema posebnu prednost sa generativnom AI.

Ovo je donekle diskutabilno jer biste potencijalno mogli povući liniju koja povezuje drugi sadržaj koji je skeniran sa sadržajem koji nije skeniran. Takođe, još jedna važna odredba je da čak i ako postoji sadržaj koji nije skeniran, i dalje bi se moglo tvrditi da je plagiran i/ili da je prekršen autorska prava ako se rezultati generativne AI verovatno nađu na istom verbiju. Moja poenta je da u svemu ovome ima dosta gnjecavosti.

Donja linija: Generativna AI je puna potencijalnih etičkih i zakonskih zagonetki AI kada je u pitanju plagijat i kršenje autorskih prava podupirući preovlađujuće prakse obuke podataka.

Do sada su proizvođači umjetne inteligencije i istraživači umjetne inteligencije klizali kroz ovo prilično bezbrižno, uprkos maču koji se nazire i nesigurno visi iznad njih. Do danas je pokrenuto samo nekoliko tužbi protiv ove prakse. Možda ste čuli ili vidjeli novinske članke o takvim pravnim radnjama. Jedan, na primjer, uključuje kompanije za pretvaranje teksta u sliku Midjourney and Stability AI zbog kršenja autorskih prava na umjetnički sadržaj objavljen na Internetu. Drugi uključuje kršenje prava na tekst u kod protiv GitHuba, Microsofta i OpenAI zbog softvera Copilot koji proizvodi AI aplikacije. Getty Images je također imao za cilj da se uhvati u koštac sa Stability AI zbog kršenja autorskih prava između teksta u sliku.

Možete očekivati da će biti podneseno još ovakvih tužbi.

Trenutno je malo šanse pokrenuti te tužbe jer je ishod relativno nepoznat. Hoće li sud stati na stranu kreatora umjetne inteligencije ili će pobjednici biti oni koji vjeruju da je njihov sadržaj nepravedno iskorišten? Skupa pravna bitka je uvijek ozbiljna stvar. Povećanje velikih pravnih troškova mora se odvagnuti u odnosu na šanse za pobjedu ili gubitak.

Čini se da proizvođači umjetne inteligencije gotovo nemaju izbora nego da se bore. Ako bi pokleknuli, makar i malo, velika je vjerovatnoća da će rezultirati bujica dodatnih tužbi (u suštini, otvarajući vrata povećanim šansama da i drugi prevladaju). Jednom kada u vodi bude legalne krvi, preostale legalne ajkule će pojuriti do smatranog "lakog rezultata" i sigurno će doći do novčanog krvoprolića mlaćenja i prebijanja.

Neki vjeruju da bismo trebali donijeti nove zakone o umjetnoj inteligenciji koji bi zaštitili proizvođače umjetne inteligencije. Zaštita bi mogla biti čak i retroaktivna. Osnova za ovo je da ako želimo da vidimo generativna AI napredovanja, moramo da damo kreatorima veštačke inteligencije neku pistu sigurne zone. Kada tužbe počnu da donose pobede protiv proizvođača veštačke inteligencije, ako do toga dođe (još ne znamo), zabrinutost je da će generativna AI nestati jer niko neće biti voljan da pruži podršku kompanijama sa veštačkom inteligencijom.

Kao što je vešto istaknuto u nedavnom članku Bloomberg Law pod naslovom „ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI“ dr. Ilia Kolochenko i Gordon Platt, Bloomberg Law, februar 2023., evo dva vitalna odlomka koji odražavaju ova gledišta:

„Među američkim pravnim naučnicima i profesorima prava intelektualne svojine sada se vodi žestoka debata o tome da li neovlašćeno scraping i naknadna upotreba podataka zaštićenih autorskim pravima predstavljaju kršenje autorskih prava. Ako prevlada mišljenje pravnika koji vide kršenje autorskih prava u takvoj praksi, korisnici takvih sistema AI mogu također biti odgovorni za sekundarno kršenje i potencijalno se suočiti s pravnim posljedicama.”
„Da bi se sveobuhvatno pozabavili izazovom, zakonodavci bi trebali razmotriti ne samo modernizaciju postojećeg zakonodavstva o autorskim pravima, već i implementaciju skupa zakona i propisa specifičnih za umjetnu inteligenciju.“

Podsjetimo da smo kao društvo uspostavili pravnu zaštitu za Ekspanzija Interneta, o čemu sada svjedoči Vrhovni sud koji revidira čuveni ili zloglasni Odjeljak 230. Stoga se čini u okviru razuma i presedana da bismo možda bili spremni da učinimo neke slične zaštite za unapređenje generativne AI. Možda bi se zaštita mogla postaviti privremeno, koja ističe nakon što generativna AI dostigne neki unaprijed određeni nivo stručnosti. Mogle bi se smisliti i druge zaštitne odredbe.

Uskoro ću objaviti svoju analizu o tome kako procjena Vrhovnog suda i konačna odluka o Odjeljku 230 mogu uticati na pojavu generativne AI. Budite u potrazi za tu nadolazeću objavu!

Da se vratimo oštro izrečenom mišljenju da bismo trebali dati prostor za tehnološku inovaciju koja izaziva strahopoštovanje u društvu poznatoj kao generativna AI. Neki bi rekli da čak i ako se kršenje autorskih prava za koje se tvrdi da postoji ili se dešava, društvo u cjelini treba biti spremno to dozvoliti u specifične svrhe unapređenja generativne AI.

Nadamo se da će novi zakoni o AI biti pažljivo izrađeni i prilagođeni detaljima povezanim s obukom podataka za generativnu AI.

Postoji mnogo kontraargumenata ovoj ideji osmišljavanja novih zakona o AI u tu svrhu. Jedna zabrinutost je da će svaki takav novi zakon o AI otvoriti vrata za sve vrste kršenja autorskih prava. Žalit ćemo dan kada smo dozvolili da takvi novi zakoni o AI-u slete u knjige. Bez obzira koliko se trudili da ovo ograničite samo na obuku AI podataka, drugi će prikriveno ili pametno pronaći rupe u zakonu koje će dovesti do nesputanog i rasprostranjenog kršenja autorskih prava.

Argumenti idu u krug.

Jedan od argumenata koji baš i ne drži vodu ima veze sa pokušajem da se tuži samu veštačku inteligenciju. Primijetite da sam mislio na tvorca AI ili istraživače AI kao na krive dionike. To su ljudi i kompanije. Neki sugeriraju da bismo trebali ciljati AI kao stranku koja će biti tužena. Opširno sam raspravljao u svojoj kolumni da još ne pripisujemo pravno lice AI, vidi link ovdje na primjer, i stoga bi se takve tužbe usmjerene na AI per se smatrale besmislenim trenutno.

Kao dodatak pitanju koga ili šta treba tužiti, ovo otvara još jednu sočnu temu.

Pretpostavimo da je određenu generativnu AI aplikaciju osmislio neki AI proizvođač kojeg ćemo nazvati Widget Company. Widget Company je relativno mala po veličini i nema mnogo prihoda, niti mnogo sredstava. Tužbom protiv njih vjerovatno neće doći do velikog bogatstva koje neko možda traži. U najboljem slučaju, samo biste imali zadovoljstvo da ispravite ono što smatrate pogrešnim.

Želiš da ideš za velikom ribom.

Evo kako će to nastati. Proizvođač veštačke inteligencije odlučuje da svoju generativnu veštačku inteligenciju stavi na raspolaganje kompaniji Big Time, velikom konglomeratu sa tonama testa i tonama sredstava. Tužba za imenovanje Widget Company sada bi imala bolju metu na vidiku, naime i imenovanjem Big Time Company. Ovo je borba Davida i Golijata u kojoj bi advokati uživali. Naravno, Big Time Company će nesumnjivo pokušati da se otrgne od udice. Da li to mogu učiniti, opet je pravno pitanje koje je neizvjesno, a mogli bi se beznadežno zaglaviti u blatu.

Prije nego što krenemo mnogo dalje od ovoga, želio bih iznijeti nešto ključno na stolu o sumnjivim napadima generativne AI zbog obuke podataka. Siguran sam da intuitivno shvaćate da su plagijat i kršenje autorskih prava dvije donekle različite zvijeri. Imaju mnogo toga zajedničkog, iako se i značajno razlikuju.

Evo zgodnog sažetog opisa sa Univerziteta Duke koji objašnjava ovo dvoje:

„Plagijat se najbolje definiše kao nepriznato korištenje rada druge osobe. To je etičko pitanje koje uključuje potraživanje kredita za rad koji podnosilac zahtjeva nije stvorio. Neko može plagirati tuđi rad bez obzira na status autorskog prava tog djela. Na primjer, ipak je plagijat kopirati iz knjige ili članka koji su prestari da bi još uvijek bili pod autorskim pravima. Također je plagijat korištenje podataka preuzetih iz nepoznatog izvora, iako činjenični materijal poput podataka možda nije zaštićen autorskim pravima. Plagijat se, međutim, lako izliječi – pravilno citiranje izvornog izvora materijala.”
“S druge strane, kršenje autorskih prava je neovlašćeno korištenje tuđeg djela. Ovo je pravno pitanje koje ovisi o tome da li je djelo zaštićeno autorskim pravom ili ne, kao io pojedinostima poput toga koliko se koristi i svrha upotrebe. Ako neko kopira previše zaštićenog djela ili kopira u neovlaštenu svrhu, jednostavno priznanje originalnog izvora neće riješiti problem. Samo traženjem prethodne dozvole od nosioca autorskih prava izbjegava se rizik od optužbe za kršenje.”

Ističem važnost ove dvije brige kako biste shvatili da se lijekovi u skladu s tim mogu razlikovati. Takođe, oboje su upleteni u razmatranja koja prožimaju etiku veštačke inteligencije i zakon o veštačkoj inteligenciji, što ih čini podjednako vrednim za ispitivanje.

Hajde da istražimo traženi lijek ili rješenje. Vidjet ćete da bi to moglo pomoći jednom od dvostrukih problema, ali ne i drugom.

Neki su insistirali da sve što proizvođači veštačke inteligencije moraju da urade jeste da citiraju svoje izvore. Kada generativna AI proizvede esej, samo uključite specifične citate za sve što je navedeno u eseju. Navedite različite URL-ove i druge naznake o tome koji je internetski sadržaj korišten. Čini se da ih ovo oslobađa bojazni oko plagijata. Izlazni esej bi vjerovatno jasno identificirao koji su izvori korišteni za formulaciju koja se proizvodi.

Postoje neke nedoumice u tom rešenju, ali na nivou od 30,000 stopa, recimo, to služi kao polu-zadovoljavajući lek za dilemu plagijata. Kao što je gore navedeno u objašnjenju kršenja autorskih prava, citiranje izvornog materijala ne mora nužno da vas izvuče iz kućice za pse. Pod pretpostavkom da je sadržaj zaštićen autorskim pravima i u zavisnosti od drugih faktora kao što je količina materijala upotrijebljena, mač koji čeka na kršenje autorskih prava može se naglo i konačno spustiti.

Dvostruka nevolja je ovdje ključna riječ.

Pokušaj da se dokaže plagijat ili kršenje autorskih prava će biti pokušaj

Dokaži to!

To je izlizani refren koji smo svi čuli u različitim periodima života.

Znaš kako to ide. Možete tvrditi da se nešto dešava ili da se dogodilo. Možda znate u svom srcu da se to dogodilo. Ali kada je u pitanju push-versus-shove, morate imati dokaz.

Današnjim jezikom, morate pokazati primanja, kako kažu.

Moje pitanje za vas je ovo: Kako ćemo dokazati da je generativna AI neprikladno eksploatisala internet sadržaj?

Pretpostavlja se da bi odgovor trebao biti lak. Zamolite ili kažete generativnoj umjetnoj inteligenciji da proizvede esej. Zatim uzmete esej i uporedite ga sa onim što se može naći na internetu. Ako nađeš esej, bam, imaš generativnu umjetnu inteligenciju prikovanu za poslovični zid.

Čini se da život nikad nije tako lak.

Zamislite da dobijemo generativnu umjetnu inteligenciju za izradu eseja koji sadrži oko 100 riječi. Idemo okolo i pokušavamo doći do svih kutaka interneta, tražeći tih 100 riječi. Ako pronađemo 100 riječi, prikazanih istim redoslijedom i na identičan način, čini se da smo se uhvatili za jednu vruću.

Pretpostavimo ipak da na internetu pronađemo naizgled „uporediv“ esej iako se poklapa sa samo 80 od 100 riječi. Ovo se čini još uvijek dovoljnim, možda. Ali zamislite da pronađemo samo primjer od 10 riječi od 100 koje se podudaraju. Da li je to dovoljno da se tvrdi da je došlo do plagijata ili da je došlo do kršenja autorskih prava?

Sivilo postoji.

Tekst je smiješan na taj način.

Uporedite ovo sa okolnostima od teksta do slike ili teksta do umetnosti. Kada generativna AI pruža mogućnost pretvaranja teksta u sliku ili teksta u umjetnost, unosite tekstualni upit i aplikacija AI proizvodi sliku donekle zasnovanu na upitu koji ste dali. Slika može biti različita od bilo koje slike koja je ikada viđena na ovoj ili bilo kojoj drugoj planeti.

S druge strane, slika može podsjećati na druge slike koje postoje. Možemo pogledati generativnu sliku koju je proizvela umjetna inteligencija i pomalo instinktivno reći da sigurno izgleda kao neka druga slika koju smo ranije vidjeli. Generalno, the vizuelan aspekti poređenja i kontrasta se malo lakše primjenjuju. Imajući to u vidu, imajte na umu da velike pravne debate osiguravaju šta predstavlja preklapanje ili replikaciju jedne slike s drugom.

Druga slična situacija postoji sa muzikom. Postoje generativne AI aplikacije koje vam omogućavaju da unesete tekstualni prompt, a izlaz koji proizvodi AI je audio muzika. Ove AI mogućnosti pretvaranja teksta u zvuk ili teksta u muziku tek počinju da se pojavljuju. Jedna stvar na koju se možete kladiti u svoj najveći dolar je da će muzika koju proizvodi generativna AI biti pod strogim nadzorom zbog kršenja. Čini se da znamo kada čujemo muzičko kršenje, iako je opet ovo složeno pravno pitanje koje se ne zasniva samo na tome kako se osjećamo u vezi s percipiranom replikacijom.

Dozvolite mi još jedan primjer.

Text-to-code generativna AI pruža vam mogućnost da unesete tekstualni prompt i AI će za vas proizvesti programski kod. Zatim možete koristiti ovaj kod za pripremu kompjuterskog programa. Možete koristiti kod točno onako kako je generiran, ili se možete odlučiti za uređivanje i prilagođavanje koda kako bi odgovarao vašim potrebama. Također je potrebno osigurati da je kod prikladan i izvodljiv jer je moguće da se u generiranom kodu mogu pojaviti greške i neistine.

Vaša prva pretpostavka bi mogla biti da se programski kod ne razlikuje od teksta. To je samo tekst. Naravno, to je tekst koji ima određenu svrhu, ali to je i dalje tekst.

Pa, ne baš. Većina programskih jezika ima strogi format i strukturu prema prirodi kodnih izjava tog jezika. Ovo je u određenom smislu mnogo uže od slobodnog prirodnog jezika. Pomalo ste zatvoreni u pogledu toga kako su formulisani izrazi kodiranja. Isto tako, redoslijed i način na koji se iskazi koriste i raspoređuju donekle su uokvireni.

Sve u svemu, mogućnost da se pokaže da je programski kod plagiran ili prekršen je gotovo lakša nego što se kaže u prirodnom jeziku. Dakle, kada generativna AI ode da skenira programski kod na Internetu i kasnije generiše programski kod, šanse da se tvrdi da je kod očigledno repliciran biće relativno ubedljivije. Nije zakucavanje, pa očekujte da će se oko ovoga voditi gorke bitke.

Moja sveobuhvatna poenta je da ćemo imati iste probleme etike AI i zakona koji se suočavaju sa svim modusima generativne AI.

Plagijat i kršenje autorskih prava bit će problematični za:

Tekst u tekst ili tekst u esej
Tekst u sliku ili tekst u umjetnost
Tekst u audio ili tekst u muziku
Tekst-u-video
Tekst u kod
Itd

Svi su podložni istim problemima. Neke je možda lakše “dokazati” od drugih. Svi oni će imati svoje različite noćne more zasnovane na etici veštačke inteligencije i zakonu o veštačkoj inteligenciji.

Iznošenje tužbe za plagijat ili kršenje autorskih prava

Za potrebe diskusije, fokusirajmo se na generativnu umjetnu inteligenciju za pretvaranje teksta u tekst ili tekst u esej. Djelimično to činim zbog ogromne popularnosti ChatGPT-a, koji je tip generativne umjetne inteligencije za pretvaranje teksta u tekst. Mnogo je ljudi koji koriste ChatGPT, kao i mnogi drugi koji koriste različite slične AI aplikacije za generiranje teksta u tekst.

Znaju li oni ljudi koji koriste generativne AI aplikacije da se potencijalno oslanjaju na plagijat ili kršenje autorskih prava?

Čini se sumnjivim da to rade.

Usudio bih se reći da je preovlađujuća pretpostavka da ako je generativna AI aplikacija dostupna za korištenje, proizvođač umjetne inteligencije ili kompanija koja je postavila AI moraju znati ili biti uvjereni da nema ništa loše u vezi sa robom koju nude za upotrebu. Ako ga možete koristiti, mora biti iznad ploče.

Vratimo se na moj raniji komentar o tome kako ćemo pokušati dokazati da određena generativna AI radi na pogrešnoj osnovi što se tiče obuke podataka.

Takođe bih mogao da dodam da ako uspemo da uhvatimo jednu generativnu veštačku inteligenciju u tome, šanse da uhvatimo druge će verovatno biti povećane. Ne kažem da bi sve generativne AI aplikacije bile u istom čamcu. Ali oni će se naći u prilično oštrim morima kada jedan od njih bude prikovan za zid.

Zato će također biti neizmjerno vrijedno paziti na postojeće tužbe. Prva koja pobijedi u pogledu navodnog kršenja, ako se to dogodi, vjerovatno će izazvati propast i turobnost za druge generativne AI aplikacije, osim ako neka uskost ne izbjegne šire probleme. Oni koji izgube u vezi sa kršenjem prava ne znače nužno da generativne AI aplikacije mogu zvoniti i slaviti. Moguće je da se gubitak pripisuje drugim faktorima koji nisu toliko relevantni za druge generativne AI aplikacije, i tako dalje.

Spomenuo sam da ako uzmemo esej od 100 riječi i pokušamo pronaći te riječi u potpuno istom nizu na internetu, možda ćemo imati relativno čvrst slučaj za plagijat ili kršenje autorskih prava, pod uslovom da je sve ostalo jednako. Ali ako je broj riječi koje se podudaraju mali, činilo bi se da smo na tankom ledu.

Voleo bih da kopam dublje u to.

Očigledan aspekt poređenja sastoji se od potpuno istih riječi u potpuno istom nizu. Ovo se može dogoditi za čitave pasuse. Ovo bi bilo zgodno uočiti, skoro kao da nam se predaje na srebrnom poslužavniku.

Također bismo mogli biti sumnjičavi ako se poklapa samo dio riječi. Ideja bi bila da vidimo da li su to ključne reči ili možda dodatne reči koje možemo lako ukloniti ili ignorisati. Takođe ne želimo da budemo prevareni upotrebom reči u njihovom prošlom ili budućem vremenu, ili nekom drugom glupošću. Te varijacije u riječima također treba uzeti u obzir.

Drugi nivo poređenja bi bio kada riječi nisu u velikoj mjeri iste riječi, a čini se da riječi čak iu različitom stanju i dalje ističu. Na primjer, sažetak će često koristiti prilično slične riječi kao izvorni izvor, ali možemo uočiti da sažetak izgleda zasnovano na originalnom izvoru.

Najteži nivo poređenja bio bi zasnovan na konceptima ili idejama. Pretpostavimo da vidimo esej koji nema iste ili slične riječi kao bazu za poređenje, ali su suština ili ideje iste. Doduše, ulazimo u grubu teritoriju. Kada bismo spremno rekli da su ideje strogo zaštićene, stavili bismo poklopac na gotovo sve oblike znanja i proširenja znanja.

Još jednom se možemo osvrnuti na zgodno objašnjenje sa Univerziteta Duke:

“Autorska prava ne štite ideje, već samo specifično izražavanje ideje. Na primjer, sud je odlučio da Dan Brown nije prekršio autorska prava na raniju knjigu kada je napisao The Da Vinci Code jer sve što je pozajmio iz ranijeg rada bile su osnovne ideje, a ne specifičnosti zapleta ili dijaloga. Budući da je autorsko pravo namijenjeno podsticanju kreativne produkcije, korištenje tuđih ideja za izradu novog i originalnog djela podržava svrhu autorskog prava, ono ga ne krši. Samo ako neko kopira tuđi izraz bez dozvole je potencijalno povrijeđena autorska prava.”
„Da bi se izbjegao plagijat, s druge strane, mora se priznati izvor čak i ideja koje su posuđene od nekog drugog, bez obzira da li je izraz tih ideja posuđen s njima. Dakle, parafraza zahtijeva citiranje, iako rijetko pokreće bilo kakav problem s autorskim pravima.”

Imajte na umu kako je ranije identificirano razlike između dvostrukih aspekata problema.

Dakle, primjena pristupa poređenja u praksi je nešto što se dešava već dugi niz godina. Razmislite o tome na ovaj način. Učenici koji pišu eseje za svoje školske zadatke mogli bi biti u iskušenju da uzmu sadržaj s interneta i pretvaraju se da su autori riječi nagrađenih Pulitzerovom nagradom.

Nastavnici već duže vrijeme koriste programe za provjeru plagijata kako bi se izborili s tim. Nastavnik uzima učenikov esej i ubacuje ga u provjeru plagijata. U nekim slučajevima, cijela škola će licencirati korištenje programa za provjeru plagijata. Kad god studenti predaju esej, prvo moraju poslati esej u program za provjeru plagijata. Nastavnik je obaviješten o tome šta program izvještava.

Nažalost, morate biti izuzetno oprezni o tome šta ovi programi za provjeru plagijata imaju reći. Važno je pažljivo procijeniti da li su navedene indikacije validne. Kao što je već spomenuto, mogućnost utvrđivanja da li je djelo kopirano može biti nejasna. Ako nepromišljeno prihvatite ishod programa provjere, možete lažno optužiti učenika da je kopirao kada to nije učinio. Ovo može da uništi dušu.

Idemo dalje, možemo pokušati koristiti programe za provjeru plagijata u domenu testiranja generativnih AI izlaza. Tretirajte objavljene eseje iz generativne AI aplikacije kao da ih je napisao učenik. Zatim procjenjujemo šta kaže kontrolor plagijata. Ovo se radi sa rezervom.

Postoji nedavna istraživačka studija koja je pokušala da operacionalizuje ove vrste poređenja u kontekstu generativne AI upravo na ovaj način. Želio bih s vama proći kroz neke zanimljive nalaze.

Prvo, potrebna je dodatna pozadina. Generativna AI se ponekad naziva LLM (modeli velikih jezika) ili jednostavno LM (jezički modeli). Drugo, ChatGPT je baziran na verziji drugog OpenAI generativnog AI paketa pod nazivom GPT-3.5. Prije GPT-3.5 postojao je GPT-3, a prije toga GPT-2. Danas se GPT-2 smatra prilično primitivnim u odnosu na kasniju seriju, i svi željno iščekujemo predstojeće otkrivanje GPT-4, pogledajte moju diskusiju na link ovdje.

Istraživačka studija koju želim ukratko istražiti sastojala se od ispitivanja GPT-2. To je važno shvatiti jer smo sada dalje izvan mogućnosti GPT-2. Nemojte donositi ishitrene zaključke o rezultatima ove analize GPT-2. Ipak, možemo mnogo naučiti iz procjene GPT-2. Studija je naslovljena "Da li jezički modeli plagiraju?" autori Jooyoung Lee, Thai Lee, Jinghui Chen i Dongwon Lee, koji se pojavljuju na ACM WWW '23, 1.–5. maja 2023., Austin, TX, SAD.

Ovo je njihovo glavno istraživačko pitanje:

“U kojoj mjeri (ne ograničavajući se na pamćenje) LM-ovi iskorištavaju fraze ili rečenice iz svojih uzoraka za obuku?”

Koristili su ova tri nivoa ili kategorije potencijalnog plagijata:

“Doslovni plagijat: tačne kopije riječi ili fraza bez transformacije.”
“Plagijat parafraze: zamjena sinonima, preuređenje riječi i/ili povratni prijevod.”
“Plagijat ideje: predstavljanje osnovnog sadržaja u izduženom obliku.”

GPT-2 je zaista bio obučen za internetske podatke i stoga je pogodan kandidat za ovu vrstu analize:

„GPT-2 je prethodno obučen za WebText, koji sadrži preko 8 miliona dokumenata preuzetih sa 45 miliona Reddit linkova. Pošto OpenAI nije javno objavio WebText, koristimo OpenWebText koji je rekreacija WebText korpusa otvorenog koda. Pouzdano ga je koristila prethodna literatura.”

Selektivni ključni nalazi kao što je izvod iz studije sastoje se od:

“Otkrili smo da prethodno obučene GPT-2 porodice plagiraju iz OpenWebTexta.”
“Naši nalazi pokazuju da fino podešavanje značajno smanjuje slučajeve doslovnog plagijata iz OpenWebTexta.”
“U skladu sa Carlinijem et al. i Carlini et al., otkrili smo da veći GPT-2 modeli (veliki i xl) općenito generiraju plagirane sekvence češće od manjih.”
“Međutim, različiti LM-ovi mogu pokazati različite obrasce plagijata, pa se naši rezultati možda neće direktno generalizirati na druge LM-ove, uključujući novije LM-ove kao što su GPT-3 ili BLOOM.”
„Osim toga, poznato je da automatski detektori plagijata imaju mnogo načina kvara (i lažno negativnih i lažno pozitivnih).
„S obzirom na to da je većina podataka o obuci LM-a izvučena s weba bez obavještavanja vlasnika sadržaja, njihovo ponavljanje riječi, fraza, pa čak i ključnih ideja iz skupova za obuku u generirane tekstove, ima etičke implikacije.”

Definitivno nam treba još mnogo studija ove vrste.

Ako vas zanima kako je GPT-2 u poređenju sa GPT-3 u vezi sa obukom podataka, postoji prilično izražen kontrast.

Prema prijavljenim indikacijama, obuka podataka za GPT-3 bila je mnogo opsežnija:

“Model je obučen korištenjem tekstualnih baza podataka s interneta. Ovo uključuje ogromnih 570 GB podataka dobijenih iz knjiga, web tekstova, Wikipedije, članaka i drugih pisanih tekstova na internetu. Da budemo još precizniji, 300 milijardi riječi je uneseno u sistem” (BBC naučni fokus magazin, “ChatGPT: Sve što trebate znati o OpenAI GPT-3 alatu” Alex Hughes, februar 2023.).

Za one od vas zainteresovanih za detaljnije opise obuke podataka za GPT-3, evo izvoda iz službene GPT-3 Model kartice objavljene na GitHub-u (posljednji ažurirani datum naveden kao septembar 2020.):

„GPT-3 skup podataka za obuku sastoji se od teksta objavljenog na internetu ili od teksta postavljenog na internet (npr. knjige). Internet podaci na kojima je do sada obučen i na kojima je evaluiran uključuju: (1) verziju skupa podataka CommonCrawl, filtriranu na osnovu sličnosti sa visokokvalitetnim referentnim korpusima, (2) proširenu verziju skupa podataka Webtext, (3 ) dva korpusa knjiga zasnovana na internetu i (4) Wikipedia na engleskom.”
„S obzirom na podatke o obuci, rezultati i performanse GPT-3 reprezentativniji su za populaciju koja je povezana na internet nego za one koji su ogrezli u verbalnoj, nedigitalnoj kulturi. Stanovništvo povezano na internet više je reprezentativno za razvijene zemlje, bogate, mlađe i muške poglede i uglavnom je usmjereno na SAD. Bogatije nacije i populacije u razvijenim zemljama pokazuju veću penetraciju interneta. Digitalna rodna podjela također pokazuje da je manje žena zastupljenih na internetu širom svijeta. Osim toga, budući da različiti dijelovi svijeta imaju različite nivoe penetracije i pristupa internetu, skup podataka nedovoljno predstavlja manje povezane zajednice.”

Jedan zaključak iz gornje indikacije o GPT-3 je da je pravilo među onima koji stvaraju generativnu AI da što više internetskih podataka možete skenirati, šanse za poboljšanje ili unapređenje generativne AI rastu.

Na ovo možete gledati na bilo koji od dva načina.

1) Poboljšana AI. Imaćemo generativnu veštačku inteligenciju koja će puzati po što većem broju interneta. Uzbudljiv ishod je da će generativna AI biti bolja nego što već jeste. To je nešto čemu se treba radovati.
2) Kopiranje potencijala u izobilju. Ovo širenje skeniranja interneta odvratno i privlačno čini problem plagijata i kršenja autorskih prava potencijalno sve većim i većim. Dok ranije nije bilo toliko uticaja kreatora sadržaja, veličina će procvjetati. Ako ste pravnik na strani kreatora sadržaja, ovo vam tjera suze na oči (možda suze užasnutosti, ili suze radosnice zbog izgleda koje ovo donosi u smislu tužbi).

Je li čaša polupuna ili poluprazna?

Ti odluci.

Legalne nagazne mine čekaju

Pitanje o kojem možda razmišljate je da li se vaš objavljeni internet sadržaj smatra poštenom igrom za skeniranje. Ako se vaš sadržaj nalazi iza paywall-a, vjerovatno nije cilj za skeniranje jer se ne može lako dosegnuti, ovisno o jačini paywall-a.

Pretpostavljam da većina običnih ljudi nema svoj sadržaj sakriven iza paywall-a. Žele da njihov sadržaj bude javno dostupan. Pretpostavljaju da će ljudi to pogledati.

Da li to što vaš sadržaj bude javno dostupan također aksiomatično znači da odobravate da ga skenira za korištenje generativna umjetna inteligencija koja se obučava za podatke?

Možda da, možda ne.

To je jedna od onih pravnih stvari koje se vrte očima.

Vraćajući se na ranije citirano Bloombergov zakon u članku, autori spominju važnost Odredbi i uvjeta (T&C) povezanih s mnogim web stranicama:

“Legalna nagazna mina – koju nesvjesne AI kompanije koje upravljaju online botovima za scraping podataka uvelike ignoriraju – skrivena je u Odredbama i uvjetima koji su obično dostupni na javnim web stranicama svih vrsta. Za razliku od trenutno neriješenog zakona o intelektualnoj svojini i dileme o kršenju autorskih prava, Uslovi i odredbe web stranice su podržani dobro utvrđenim ugovornim pravom i obično se mogu provesti na sudu oslanjajući se na dovoljan broj presedana.”

Oni ukazuju da pod pretpostavkom da vaša web stranica ima stranicu koja se odnosi na licenciranje, velike su šanse da, ako koristite standardizirani moderni predložak, on može sadržavati ključnu klauzulu:

“Slijedom toga, većina standardnih odredbi i uvjeta za web stranice – koje su u obilju dostupne u slobodnom pristupu – sadrži klauzulu koja zabranjuje automatsko scraping podataka. Ironično, takvi besplatno dostupni šabloni su možda korišteni za ChatGPT obuku. Stoga bi vlasnici sadržaja mogli htjeti pregledati svoje Uvjete i odredbe i umetnuti zasebnu klauzulu kojom se jasno zabranjuje svako korištenje bilo kojeg sadržaja s web stranica za AI obuku ili u bilo koje srodne svrhe, bilo da se prikuplja ručno ili automatski, bez prethodne pismene dozvole vlasnika web stranice. .”

Dodatni pokretač je uključen u njihovu analizu potencijalnih radnji koje kreatori sadržaja mogu poduzeti na svojim web stranicama:

„Stoga, umetanje izvršne odredbe o likvidiranoj odšteti za svako kršenje klauzule o zabrani ukidanja, pojačane odredbom o zabrani bez garancije, može biti održivo rješenje za one autore kreativnog sadržaja koji ne žele pružiti plodove svog intelektualni rad u svrhu obuke AI bez da za to bude plaćen ili, barem, pripisan odgovarajući kredit za njihov rad.”

Možda biste se trebali posavjetovati sa svojim advokatom o ovome.

Neki kažu da je ovo vitalan način da se pokuša reći proizvođačima umjetne inteligencije da su kreatori sadržaja vrlo ozbiljni u pogledu zaštite svog sadržaja. Čini se da će proizvođače umjetne inteligencije upozoriti na to da vaše licenciranje ima ispravan tekst.

Drugi su ipak pomalo neraspoloženi. Oni potišteno kažu da možete nastaviti sa postavljanjem najoštrijeg i najsmrtonosnijeg pravnog jezika na svoju web stranicu, ali na kraju će ga proizvođači umjetne inteligencije skenirati. Nećete znati da su to uradili. Imat ćete đavo vremena da dokažete da jesu. Malo je vjerovatno da ćete otkriti da njihovi rezultati odražavaju vaš sadržaj. To je teška bitka koju nećete dobiti.

Protuargument je da predajete bitku prije nego što je ona i vođena. Ako barem nemate dovoljan pravni jezik, i ako ih ikada uhvatite, oni će se pomicati i laskati na putu da izbjegnu bilo kakvu odgovornost. Sve zato što niste objavili pravu vrstu pravnog izraza.

U međuvremenu, još jedan pristup koji nastoji da dobije snagu sastojao bi se od označavanje Vašu web stranicu s nečim što kaže da web mjesto ne treba skenirati generativnom umjetnom inteligencijom. Ideja je da se osmisli standardizovani marker. Vjerovatno bi web stranice mogle dodati marker na svoju stranicu. Proizvođačima umjetne inteligencije bi se reklo da bi trebali promijeniti svoje skeniranje podataka kako bi preskočili označene web stranice.

Može li markerski pristup biti uspješan? Zabrinutost uključuje troškove nabavke i postavljanja markera. Uz to da li će se proizvođači umjetne inteligencije pridržavati markera i osigurati da izbjegavaju skeniranje označenih lokacija. Druga perspektiva je da čak i ako se proizvođači umjetne inteligencije ne slažu s oznakama, ovo pruža još jedan dokazni trag za odlazak na sud i argument da je kreator sadržaja prošao posljednju milju da pokuša i upozoriti na AI skeniranje.

Joj, od svega ti se zavrti u glavi.

zaključak

Nekoliko završnih napomena o ovoj trnovitoj temi.

Jeste li spremni za nevjerovatnu perspektivu cijele ove AI kao dileme plagijatora i prekršioca autorskih prava?

Veliki dio pretpostavke o “hvatanju” generativne AI u činu plagijata ili kršenja autorskih prava ovisi o otkrivanju rezultata koji veoma liče prethodni radovi kao što je sadržaj na Internetu koji je potencijalno skeniran tokom obuke podataka.

Pretpostavimo ipak da je ovdje u igri trik zavadi pa vladaj.

Evo na šta mislim.

Ako generativna umjetna inteligencija posudi mali dio odavde, a mali dio odande, na kraju ih pomiješa u proizvodnju bilo kakvog određenog rezultata, šanse da budete u mogućnosti da dobijete trenutak za hvatanje su značajno smanjene. Bilo koji izlaz naizgled neće porasti do dovoljnog praga da biste sa sigurnošću mogli reći da je preuzet iz jedne određene izvorne stavke. Rezultirajući esej ili drugi načini izlaza će se samo djelomično podudarati. A uobičajenim pristupom pokušaja da se argumentira da je došlo do plagijata ili kršenja autorskih prava, obično morate pokazati više nego što je u igri neka sitnica, posebno ako zalogaj nije istaknut i može se naći širom interneta (podbijanje svaki adekvatan teret dokazivanja pronevjere).

Možete li i dalje uvjerljivo izjaviti da je obuka podataka pomoću generativne AI otela web stranice i kreatore sadržaja čak i ako je predloženi dokaz naizgled nematerijalan?

Razmislite o tome.

Ako se suočavamo s potencijalnim plagijatom u velikim razmjerima i kršenjem autorskih prava u velikim razmjerima, možda ćemo morati promijeniti naš pristup definiranju onoga što čini plagijat i/ili kršenje autorskih prava. Možda postoji slučaj za plagijat ili kršenje autorskih prava u glavnom ili na širem planu. Mozaik koji se sastoji od hiljada ili miliona sitnih isječaka mogao bi se protumačiti kao počinilac takvih kršenja. Očigledna je nevolja u tome što to može dovesti do toga da se svaki sadržaj iznenada nađe pod kišobranom kršenja. Ovo može biti klizav teren.

Teške misli.

Govoreći o velikim mislima, Lav Tolstoj, legendarni pisac, čuveno je izjavio: „Jedini smisao života je služiti čovečanstvu.

Ako se vaša web stranica i web stranice drugih skeniraju u svrhu poboljšanja umjetne inteligencije, i iako za to ne dobivate ni jedan peni, možete li imati svečanu utjehu u gorljivom uvjerenju da doprinosite budućnosti čovječanstva? Čini se da je to mala cijena.

Pa, osim ako se AI ne pokaže kao strašni egzistencijalni rizik koji briše sve ljude iz postojanja. Ne bi trebalo da pripisujete zasluge za to. Pretpostavljam da odmah ne biste doprinijeli tom strašnom ishodu. Ako ostavimo po strani to katastrofalno predviđanje, možda mislite da ako proizvođači AI zarađuju novac od svoje generativne AI, a čini se da uživaju u profiterstvu, i vi biste trebali dobiti dio kolača. Dijelite i dijelite podjednako. Proizvođači umjetne inteligencije trebali bi zatražiti dozvolu za skeniranje bilo koje web stranice, a zatim također pregovarati o cijeni koju će platiti za to što im je dozvoljeno da poduzmu skeniranje.

Dajte kredit tamo gdje kredit dospijeva.

Damo za sada posljednju riječ Sir Walteru Scottu: „Oh, kakvu zamršenu mrežu pletemo. Kada prvi put vježbamo da obmanemo.”

Ovo se možda primjenjuje ako vjerujete da je prijevara u tijeku, ili možda ne vrijedi ako mislite da je sve u redu i savršeno otvoreno i legitimno. Molim vas, velikodušno odajte sebi priznanje što ste razmislili o ovome. Zaslužuješ to.

Izvor: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- and-ai-law/