"Elpusztít minket a Google!" - az olasz sajtó felháborodottan számol be arról, hogy az új mesterséges intelligencia funkciók elvonják az olvasók figyelmét és a pénzüket | szmo.hu

Művészet és szórakozás

Hírességek, akiket náci egyenruhában láthatunk, hamisított történelmi események, és valósághű filmjelenetek, melyeket tehetséges színészek játszanak el - ilyen provokatív tartalmak máris megjelentek az OpenAI legújabb videógeneráló modelljének segítségével. Ez a technológia egyszerre lenyűgöző és ijesztő, hiszen új dimenziókat nyit meg a digitális alkotás világában.

A Sora 2 videógeneráló modell szeptember végén debütált, és azt az ígéretet hozta magával, hogy a korábbi verzióhoz képest lényegesen javul a fizikai pontosság, a realizmus és az irányíthatóság terén. Az OpenAI már az előző évi decemberben megjelent Sora első verzióját is a ChatGPT sikeréhez hasonlítva említette, így a videókészítés "GPT‑1 pillanataként" jellemezte. Ennek fényében óriási izgalom és várakozás övezte a "GPT‑3.5 pillanatként" beharangozott Sora 2-t.

Az első verzió fejlesztői változatáról a demók alapján azt írtuk, olyan minőségű filmekhez, amelyeket szöveges utasításra generál, normál esetben külső helyszínekre, díszletekre, profi felszerelésekre és szakemberekre, statisztákra, illetve színészekre lenne szükség, de "úgy fest, hogy mostantól egyetlen AI, a Sora is elég lesz hozzá".

Tényleg képes többre egy videógeneráló modell, mint eddig valaha? A Sora 2 ennek bizonyítéka, hiszen a világ szinte elájul a vele készült mozgóképektől. Az OpenAI büszkén hirdeti, hogy az új modell sikeresen kiküszöböli a korábbi generátorok gyakori problémáit, mint az amorf formák, a torzított valóság vagy a "túlzott optimizmus". Például, ha egy generált videóban egy kosárlabdázó elrontja a dobását, a régi verziók hajlamosak voltak a valóság elferdítésére: a labda akár lehetetlen szögből is "teleportálhatott" a gyűrűbe. Ezzel szemben a Sora 2 a fizika törvényeit tiszteletben tartva kezeli a tárgyak mozgását: a labda valóban a palánkba csapódik, majd úgy pattog vissza, ahogyan azt a valóságban is láthatnánk.

A tökéletlenség lehalkításával és a képminőség feltekerésével az OpenAI kisebb csodát alkotott: még egyszerű szöveges utasításokból is olyan videókat hoz létre, amelyeket a legtöbb néző képtelen megkülönböztetni a valóságtól. Az pedig, hogy mekkora a szakadék a versenytársak videógeneráló modelljei, valamint a Sora 2 között, remekül illusztrálja ez az összehasonlítás, amelyben a Google fejlesztette Veo 3-mal vetik össze a képességeit.

A gyorsan fejlődő AI-videópiacon természetesen számos konkurens is jelen van, ilyen például a Meta "Vibes" alkalmazása, valamint a Meta Movie Gen modellje, nem beszélve Elon Musk xAI Grok Imagine-jéről. A Forbes elemzése szerint ezek a rendszerek jellemzően 6-10 másodperces videókat generálnak, míg a Sora 2 akár egyperces tartalmakat is képes létrehozni, ráadásul hangot is ad a videókhoz. Ez a funkció jelentős előnynek számít a jelenlegi piaci kínálatban. Eddig minden jel arra utal, hogy a Sora 2 a legfejlettebb videógeneráló mesterséges intelligencia a piacon.

Az OpenAI legújabb modelljének, a Sora 2-nek bevezetése óta, amely egyelőre Észak-Amerikára korlátozódik, folyamatosan arra ösztönzi a felhasználókat, hogy fedezzék fel a kreativitás határait, és hozzanak létre új világokat és történeteket. A lehetőségek tárháza szinte végtelennek tűnik, hiszen a modell nemcsak az emberi hanghoz illeszkedő párbeszédeket és hangeffekteket képes előállítani, hanem akár a felhasználó saját hang- és videómintája alapján is avatárt alkothat. Így bárki a saját filmje főszereplőjévé válhat, és életre keltheti a legmerészebb elképzeléseit.

Bár jelenleg nem áll rendelkezésünkre összehasonlító adat, a legújabb modellről készült videók alapján egyértelmű, hogy jelentős előrelépés történt. Míg a Sora korábbi bemutatóiban a generált karakterek szemeit jellemzően valamilyen kiegészítő (leggyakrabban napszemüveg) takarta, addig a Sora 2 már túllépett az "uncanny valley" jelenségen. Ez az a zavaró érzés, ami akkor tör ránk, amikor egy videojátékban vagy filmben digitális úton létrehozott arcot látunk: hiába tűnik a karakter rendkívül élethűnek, a tekintete gyakran mégis természetellenes marad.

Annyira nincs jelen a valóság, hogy az alábbi videóban megjelenő Sam Altman valójában nem is a valódi Sam Altman, hanem egy Sora 2 technológiával készült avatár, amely az OpenAI vezérigazgatójaként mutatja be a generatív AI lenyűgöző képességeit. Ha nem figyelmeztetnek minket erre a tényre, valószínűleg észre sem vennénk, hogy nem a valódi személyt látjuk a képernyőn.

Az OpenAI szerint a Sora 2 legnagyobb újítása a fizikai törvények pontosabb szimulációja és a látvány élethű megjelenítése. A modell hosszabb és összetettebb cselekményeket, illetve akár többszereplős akciókat is képes kezelni, miközben megőrzi a mozgás törvényeinek koherenciáját.

A vállalat hangsúlyozta, hogy a videók több jelenetből álló utasításokat követhetnek, miközben a rendszer megőrzi a generált világ állapotát. Ez azt jelenti, hogy figyelembe veszi, hol helyezkedtek el a tárgyak az előző képsorban. Ennek köszönhetően már lehetőség nyílik akár több perces klipek és kisfilmek készítésére is, ami összetettebb narratívák létrehozását teszi lehetővé. Azonban az OpenAI jelenleg a rövid, gyorsan népszerűsödő tartalmak irányába tereli a felhasználókat, mivel ez a trend vonzóbbá teszi a befektetők számára a további fejlesztések finanszírozását.

Az OpenAI azzal hirdette a Sora, majd a Sora 2 rendszert, hogy a filmipar, az animációs stúdiók és a művészek eszköze lehet. A BBC Science Focus egyetért ezzel: azt írják, a rendszer megkönnyítheti animált klipek készítését, és ezzel időt, pénzt spórol. Az első verzió tartalmai ugyanakkor hemzsegtek a hibáktól. Ahogy arra a Washington Post is felhívta a figyelmet: a rendszer egy 1930‑as évekbeli jelenetben a cigaretta rossz végét gyújtotta meg vagy épp egyszerre több telefonkagylót adott a generált karakter kezébe, ráadásul hangot sem tudott létrehozni.

Az IndieWire szakértője mégis úgy véli, hogy az új verzió nem a filmipar számára készült. A fejlesztők láthatóan "nem foglalkoznak Hollywooddal", mivel a platform elsődleges célja, hogy virális tartalmak előállítására ösztönözze a felhasználókat, ezzel pedig a közösségi média új mémgyártó eszközévé válhat. Amíg ez a jelenség csupán a Super Mario-s poénok szintjén valósul meg, addig nem is olyan nagy probléma.

A gondok akkor kezdődnek, ha a könnyed hecceken túllépve valódi emberekről vagy valós eseményeket szimuláló helyzetekről készülnek valóságszagú kamuvideók, ami megnehezíti a független filmesek etikus AI‑felhasználását. Onnantól a Nintendo sem mókás rajongói videóként fogja kezelni a fentihez hasonló alkotásokat - ami még ingyen reklámot is csap a Mario Kart játékoknak -, mert attól tart majd, hogy a trend visszaéléseket szül, és óriási energiákat kell fordítani a szellemi tulajdona megvédésére.

A véleménycikk arra is figyelmeztet, hogy a Sora‑videók virális mémjei új frontot nyitnak a szerzői jogi háborúban, hiszen az AI‑userek óhatatlanul egyre kevesebbet törődnek majd a szellemi tulajdonnal, ezáltal tovább mélyítik az árkot az alkotók és az AI‑fejlesztők között. Az Indiewire ezzel kapcsolatban szakmai állásfoglalásokat sürget: úgy véli, ha a jogtulajdonosok és szakszervezetek nem alakítanak ki standardokat, elveszíthetik a harcot.

Osztja ezt az aggodalmat a WGBH-nak nyilatkozó digitális képzőművész, Kyt Janae is, aki szerint nem kell egy év, és szinte képtelenek leszünk megkülönböztetni az ember alkotta tartalmakat az AI-val generált képektől. Thomas Smith, a képek digitalizálásával, menedzselésével, kiadásával és monetizálásával foglalkozó Gado Images vezérigazgatója hozzátette:

Ezek a megállapítások arra utalnak, hogy a videógeneráló mesterséges intelligencia számos területen potenciális veszélyeket rejthet magában, a szórakoztatóipartól kezdve egészen a politikai színtérig és a személyiségi jogok védelméig.

A Sora 2 debütálását azonnal körüllengte a kritikák és aggodalmak szele. A The Guardian cikkében arról számolt be, hogy a generált videók megosztására tervezett, TikTok-szerű alkalmazás hírfolyama szinte azonnal megtelt erőszakos és rasszista tartalmakkal, beleértve bombázásokat és tömeggyilkosságokat utánzó jeleneteket is. Joan Donovan kutató figyelmeztetett, hogy az ilyen innovatív eszközök elmoshatják a valóság és a hamis információk közötti határokat, így potenciálisan alkalmasak lehetnek gyűlöletkeltésre és zaklatásra.

Sam Altman a saját blogján a Sora 2 elindulását „kreativitás ChatGPT‑pillanataként” írta le, ugyanakkor óvatosan hangsúlyozta, hogy a bullying megelőzése érdekében fontos a moderálásra fordított figyelem növelése.

A Rolling Stone közben példákkal illusztrálva mutatta be, hogy a realisztikus videógeneráló segítségével a felhasználók - csupán heccből - náci egyenruhába bújtattak hírességeket, történelmi eseményeket hamisítottak vagy éppen levédett karaktereket (Pikachu, Ronald McDonald, SpongeBob) használtak fel, ami szerzői jogi veszélyeket sejtet.

A Vox cikkében világosan kifejtik, hogy a Sora 2 alapértelmezett beállításai szerint a jogtulajdonosoknak kellene kérvényezniük a karaktereik eltávolítását. Ez a megközelítés pedig olyan érzést kelt, mintha a fejlesztők szándékosan arra ösztönöznék a felhasználókat, hogy sértsék meg a szerzői jogokat.

Nem meglepő, hogy Sam Altman, aki kritikák kereszttüzébe került, később módosította a posztját. Ezzel azt jelezte, hogy a jövőben a jogtulajdonosok "opt-in" rendszer keretében hozzáadhatnak karaktereket az AI-modellhez. Ez a lépés lehetőséget teremt arra, hogy a generált videók után részesedést kapjanak a bevételekből.

A modell bejelentését követően az elemzők felvetették, hogy a videók generálása rendkívüli mennyiségű számítási kapacitást és energiát igényel. Egyes kutatók szerint egy rövid, nagy felbontású videó generálása több mint 700‑szor több energiát fogyaszt, mint egy állókép létrehozása. Ennek következtében a jövő adatközpontjai már minden kétséget kizáróan nagyvárosokkal vetekedő energiazabáló - és karbonkibocsátó - szörnyetegek lesznek.

A Time elemzése rámutat, hogy noha az AI-videók költségesek, a vállalatok - mint például az OpenAI és a Meta - abban bíznak, hogy a rövid videók előállításával új előfizetőket és befektetőket vonzanak. Ez a stratégia nemcsak új bevételi forráshoz juttathatja őket, hanem hozzájárulhat a nagyobb modellek kifejlesztéséhez, sőt, egy nap akár az általános mesterséges intelligencia megvalósulásához is elvezethet.

Az AI-vállalatok számára a finanszírozás kulcsfontosságú, hiszen a generatív videómodellek kifejlesztése rendkívül költséges folyamat. Elemzők véleménye szerint ez a helyzet idővel arra ösztönözheti a cégeket, hogy ne csupán a befektetőktől és felhasználóktól befolyt tőkére támaszkodjanak, hanem a hirdetési piacon is bővítsék tevékenységüket. Emellett újabb előfizetési csomagok kitalálása és az árak emelése is várható a jövőben.

A közeljövőben várható innovációkat illetően az OpenAI egyik korábbi bejelentése említést érdemel: terveik között szerepel egy "világszimulátor" kifejlesztése, amely képes hitelesen modellezni a fizikai világ törvényeit. Ezzel a technológiai vívmánnyal új tudományos kihívások megoldására nyílik lehetőség, így a kutatók eddig ismeretlen területeken is előreléphetnek.

A Sora 2 a jövő ígéretét hordozza magában, amely új lehetőségeket és számos platformon elérhető verziót ígér. Megjelenése egy új fejezetet nyit a generatív mesterséges intelligencia világában, hiszen bátran állíthatjuk, hogy ennyire élethű mozgásokat és hanghatásokat, valamint ilyen hosszú és összetett narratívákat eddig még egyetlen videógeneráló AI sem volt képes produkálni.

Bár a fizika törvényeit még nem képes maradéktalanul tükrözni, és bőven ad alkalmat a visszaélésekre – a deepfake technológiától kezdve az erőszakos tartalmakig és a szerzői jogok megsértéséig –, a súlyos etikai és jogi dilemmák megoldása után érdemes lehet kinyitni a kaput a benne rejlő lehetőségek előtt.

A gazdasági potenciál rendkívüli, ezért fontos figyelembe venni a bővülésével járó energiafogyasztás növekedését is. Emellett elengedhetetlen, hogy megvédjük a szellemi tulajdont, és kiálljunk a generált tartalmak után járó részesedésért. Ezek az együttműködések – ha egyáltalán létrejönnek, és hosszú távon fenntarthatónak bizonyulnak – a kreatív tartalomgyártás igazi ékkövévé emelhetik a Sora 2-t, valamint a jövőbeni hasonló modelleket.