achtergrond

Geenstijl

@Sora

Nieuwe AI-selfie video's verwarren nu zelfs kenners, kunstenaars proberen OpenAI's Sora

Noot: deze mensen zelf bestaan echt en zijn niet AI-gegenereerd, maar al hun spraak, mimiek en motoriek zijn dat wel

Eerlijk, had u dit onvermoed als AI herkend?

Wat bovenstaande video zo bijzonder maakt is dat het die organische 'chaos' van een uit de losse hand geschoten selfie-video zo feilloos vangt. Zowel de camera als persoon bewegen. En dat leidt ertoe dat zelfs 'kenners' een beetje ontregelde. 'Maker' Beck, die zelf de persoon is waarvan bovenstaand dus een AI-versie aan het woord is, licht toe: "This video looks more “realistic” than the other ones out there because I worked around her “pre set” expressions. That’s really where the skill is. Still very much a human touch, just on the backend." Kortom, kwestie van goed 'prompten'. Maar laten we toch wel blijven waken tegen begrippen als 'prompt engineer' en 'prompt artist', want het blijft slechts een kwestie van zo'n maximaal zo'n vijf zinnen schrijven.

Maar goed, bovenop deze AI-ontwikkeling komt nu dat kunstenaars aan de haal zijn gegaan met OpenAI's videogenerator Sora, wat resulteert in opnieuw toch wel heel indrukwekkende text-to-video producties. Vooral 'Airhead' komt binnen - zie na breek. Uiteraard is OpenAI ook al begonnen met hun grondinvasie van Hollywood.

OpenAI betreedt Hollywood, plant meetings met Grote Namen, pitcht videogenerator Sora

Precies waar het publiek naar snakt: kunst(matigheid)

Prompts: "fly through tour of a museum with many paintings and sculptures and beautiful works of art in all styles"

Échte marktvernieuwing nu aangeboden aan meerdere grote studio's en acteurs. Bloomberg schrijft dat OpenAI "has scheduled meetings in Los Angeles next week with Hollywood studios, media executives and talent agencies to form partnerships in the entertainment industry and encourage filmmakers to integrate its new AI video generator into their work". Dat betreft dus OpenAI's videogenerator Sora, die zelfs als prille eerste versie met een minimaal aantal woorden al de meest onbestaanbaar realistische videobeelden weet creëeren.

Maar ja weet je kijk weet je. Over de hele linie is de optimistische hoop natuurlijk dat de uiteindelijke waarde van daadwerkelijk menselijk ambacht stijgt, niet omdat het 'beter' is, maar omdat het menselijk is. Meer onmenselijke video's na de breek.

On-voor-stel-baar. OpenAI lanceert eerste (!) "text-to-video model" Sora. Is nú al niet van echte video te onderscheiden

En dan moet het bedrijf die investering van $7 BILJOEN [$7.000.000.000.000, 7 maal Nederlands BNP] nog krijgen.

Slechts 42 woorden = deze fotorealistische 17 seconden

Goedemorgen deze morgen en u bent getuige van de eerste werkelijke quantum leap sinds OpenAI's ChatGPT. Die stelling durven we zonder meer aan omdat we alle AI-ontwikkelingen hier op de voet volgden in dossier "De Toekomst Van".

Daar volgde u de gestage voortgang van AI's toepassingen, maar wat u hier boven- en onderstaand aantreft is van een geheel andere orde. Ter context, de vorige halte van text-to-video was ongeveer Runway's Gen-2 en OpenAI's eigen DALL·E 3 dat pas vier maanden (!) geleden uitkwam en heel korte, subtiel bewegende """video's""" afleverde. 

Maar nu lanceert OpenAI dus hun eerste daadwerkelijke text-to-video model genaamd Sora:

"Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt. (...) Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

The model has a deep understanding of language, enabling it to accurately interpret prompts and generate compelling characters that express vibrant emotions. Sora can also create multiple shots within a single generated video that accurately persist characters and visual style."

Over de zwaktes van wat pas hun allereerste model is schrijven ze: 

"The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark.

The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory."

Meer onvoorstelbaar beeldmateriaal na de breek.

Let naast alles ook even op de beweging van de oorbellen

Tip de redactie

Wil je een document versturen? Stuur dan gewoon direct een mail naar redactie@geenstijl.nl
Hoef je ook geen robotcheck uit te voeren.