ChatGPT sikerét követően az OpenAI már videó generálásra is képes
Az OpenAI, amely 2022 végén robbant be a köztudatba a ChatGPT népszerűségének köszönhetően, most a mesterséges intelligencia technológiáját a videózás területére is kiterjeszti.
Csütörtökön a vállalat bemutatta a Sora nevű új generatív mesterséges intelligencia modelljét. A Sora hasonlóan működik, mint az OpenAI DALL-E nevű képgeneráló mesterséges intelligencia eszköze. A felhasználónak csak le kell írnia a kívánt jelenetet, és a Sora egy magas felbontású videoklipet állít elő válaszként. Emellett a Sora képes videoklippeket generálni állóképek alapján, meglévő videókat kibővíteni vagy hiányzó képkockákat pótolni.
A videó lehet a generatív mesterséges intelligencia következő határa, most, hogy a csevegőrobotok és képgenerálók már beférkőztek a fogyasztói és üzleti világba. Bár a kreatív lehetőségek izgalmassá teszik majd az AI-rajongókat, az új technológiák komoly dezinformációs aggodalmakat vetnek fel, különösen amikor világszerte fontos politikai választások közelednek. A mesterséges intelligenciával létrehozott deepfake videók száma évről évre 900%-kal nőtt, a Clarity gépi tanulásban specializálódott cég adatai szerint.
Jelenleg Sora csak egyperces vagy annál rövidebb videók létrehozására képes. Az OpenAI-t, amelyet a Microsoft támogat, az a cél vezérli, hogy elősegítse a multimodalitást – tehát a szöveg-, kép- és videógenerálás ötvözését – annak érdekében, hogy szélesebb körű mesterséges intelligencia modell-sorozatot kínálhasson.
'A világ multimodális,' mondta Brad Lightcap, az OpenAI operatív igazgatója a CNBC-nek novemberben. 'Ha arra gondolunk, hogyan dolgozunk fel mi, emberek a világot és hogyan lépünk kapcsolatba vele, látunk, hallunk, beszélünk - a világ sokkal több, mint puszta szöveg. Ezért számunkra mindig is hiányosnak tűnt, hogy a szöveg és a kód az egyetlen módjai legyenek a kapcsolattartásnak, hiszen ezek a modellek milyen hatalmasak és mire képesek.'
A Sora eddig csak egy szűk csoport, a biztonsági tesztelők vagy 'vörös kalaposok' számára volt elérhető, akik a modellt hibákra tesztelték, mint például a téves információk és az elfogultság területén. A vállalat még nem tett közzé nyilvános bemutatókat, leszámítva a honlapján elérhető tíz mintaklipet, és azt közölte, hogy a hozzá kapcsolódó szakmai cikkét csütörtökön később fogják közzétenni.
Az OpenAI azt is bejelentette, hogy egy olyan 'felismerő osztályozót' fejleszt, amely képes lesz azonosítani a Sora által generált videoklipeket, és tervezi, hogy bizonyos metadata adatokat illeszt be a kimenetbe, amelyek segítik az AI által generált tartalmak azonosítását. Ez ugyanaz a típusú metadata, amire a Meta is számít, hogy felismerje az AI által generált képeket az idei választási évben.
Sora egy diffúziós AI modell, amely a Transformer architektúrát használja, hasonlóan a ChatGPT-hez. Ezt az architektúrát a Google kutatói mutatták be 2017-ben egy tanulmányban.
'Sora olyan alapot képez, amely lehetővé teszi a valóság megértésére és szimulálására képes modellek kialakítását' - írta az OpenAI a bejelentésében.
Forrás