OpenAI ulazi u preslikavanje teksta u video sa Sora, Challenging Meta, MidJourney i Pika Labs

OpenAI je danas predstavio Sora, novi model umjetne inteligencije koji može primati tekstualne upute i stvarati dugačke, zadivljujuće video zapise. Pa, video zapisi dugi jedan minut.

To je trenutno zatvorena beta verzija koja je dostupna samo pozvanim programerima i predstavlja donekle kasniji ulazak globalnog lidera u AI. Tekst-u-video nije baš neistražena teritorija. Kompanije kao što su RunwayML i Pika Labs su već neko vrijeme u igri i trenutno dominiraju scenom sa modelima sposobnim da kreiraju zapanjujuće vizuale u sekundi.

Ali uvijek postoji kvaka: ovi video snimci obično su kratki, priča gubi fokus i koherentnost što duže traju.

Sa Sorom, OpenAI ima za cilj postići konzistentnost, generirajući vrlo detaljne, minute duge video zapise koji mogu neprimjetno teći i razvijati se. To nije jednostavan cilj, jer AI modeli efikasno improvizuju svaki kadar od nule. Sićušni nedostatak u jednom kadru može pretvoriti u kaskadu halucinacija i nerealnih slika.

Čini se da je OpenAI ipak napredovao, a Sora je demonstrirala glatke, zadivljujuće vizuale koje do sada nemaju premca trenutni igrači u svemiru. OpenAI je objavio primjere videozapisa na mreži, a neki su ponovo nezvanično objavljeni na YouTube-u.

OpenAI se susreće sa drugim AI kompanijama koje takođe testiraju vode generativnog videa. Popularni generator teksta u sliku Midjourney je nedavno najavio da radi na generatoru teksta u video, ali nije ponudio datum izlaska. Takođe, Stability AI je nedavno napravio talase sa Stable Video Diffusion, svojom ponudom otvorenog koda koja može da generiše video zapise od 25 kadrova u rezoluciji 576×1024.

Čak i Meta pokazuje svoj EMU video generator, dio svog nastojanja da utka AI u društvene medije i metaverzum.

Sora—koja je za sada u ograničenom izdanju, a OpenAI daje pristup „vizuelnim umjetnicima, dizajnerima i filmskim stvaraocima“ za povratne informacije—razlikuje se po tome kako razumije jezik. Generiše živopisne, veoma detaljne slike dok tumači nijanse pisanih uputstava. Trebate određeni pokret kamere? Više likova sa realističnim emocijama? Nema problema.

Sora čak generiše neprimetne prelaze između različitih snimaka unutar istog videa, oponašajući ono što neki alati za video izdanje već rade danas. Evo još jednog videa entuzijasta objavljenog danas na YouTubeu:

Bez obzira na to, kreativnost koju pokreće umjetna inteligencija ima svoje neobične karakteristike. Sora još nije pravi filmski maestro. Drugim riječima, mogu se pojaviti borbe s fizikom ili zamršenim uzročno-posljedičnim, a iako je već jedan od najdosljednijih video generatora, ne postiže nivoe apsolutne vjernosti, pa su halucinacije za očekivati.

Također, dolazeći iz OpenAI-a, Sora će nesumnjivo biti jako cenzuriran model. Kompanija je naglasila svoj fokus na sigurnosne testove i alate za otkrivanje kako bi označila potencijalno štetan i obmanjujući sadržaj. OpenAI radi sa svojim crvenim timom na glačanju svog modela i nada se da će njegova strategija ranog objavljivanja dovesti do saradnje u izgradnji sve sigurnije AI u narednim godinama.

Nije najavljen trenutni datum objavljivanja Sorine šire implementacije.

Uređeno od Ryan Ozawa.

Budite u toku sa kripto vestima, primajte svakodnevna ažuriranja u inbox.

Izvor: https://decrypt.co/217729/openai-sora-ai-video-generator-compete-midjourney-pika