Tajemný, malovaný úsměv "Mona Lisa" je známý po celém světě, ale tato slavná tvář nedávno ukázala překvapující novou škálu výrazů, se svolením umělé inteligence (AI).
Ve videu sdíleném na YouTube 21. května ukazují tři videoklipy znepokojivé příklady Mony Lisy, když pohne rty a otočí hlavu. Byla vytvořena konvoluční neuronovou sítí - typ AI, který zpracovává informace podobně jako lidský mozek, analyzuje a zpracovává obrázky.
Vědci vyškolili algoritmus k pochopení obecných tvarů rysů obličeje a jejich chování vůči sobě navzájem a poté k použití těchto informací na statické obrazy. Výsledkem byla realistická videosekvence nových výrazů obličeje z jednoho snímku.
U videí Mona Lisa se umělá inteligence „naučila“ pohyby obličeje z datových sad tří lidských subjektů a produkovala tři velmi odlišné animace. Zatímco každý ze tří klipů byl stále rozpoznatelný jako Mona Lisa, rozdíly ve vzhledu a chování tréninkových modelů propůjčovaly „osobním portrétům“ odlišné „osobnosti“, Egor Zakharov, inženýr Skolkovo ústavu vědy a technologie, a ve středisku Samsung AI Center (obě se nacházejí v Moskvě), vysvětleno ve videu.
Zakharov a jeho kolegové také vytvářeli animace z fotografií kulturních ikon 20. století, jako jsou Albert Einstein, Marilyn Monroe a Salvador Dalí. Vědci popsali svá zjištění, která nebyla recenzována, ve studii zveřejněné online 20. května v předtištěném časopise arXiv.
Produkce původních videí, jako jsou tato, známá jako deepfakes, není snadná. Lidské hlavy jsou geometricky složité a vysoce dynamické; 3D modely hlav mají „desítky milionů parametrů“, psali autoři studie.
Podle studie je systém lidského vidění velmi dobrý v identifikaci „i drobných chyb“ v 3D modelovaných lidských hlavách. Vidění něčeho, co vypadá téměř lidsky - ale ne úplně -, vyvolává pocit hlubokého neklidu známého jako efekt záhadného údolí.
AI již dříve prokázala, že je možné dosáhnout přesvědčivých hlubokých padělků, ale vyžadovalo několik úhlů požadovaného předmětu. Pro novou studii představili inženýři umělou inteligenci velmi rozsáhlému souboru dat referenčních videí zobrazujících lidské tváře v akci. Vědci vytvořili orientační body obličeje, které by se vztahovaly na jakoukoli tvář, aby učily neuronovou síť, jak se tváře chovají obecně.
Poté vyškolili umělou inteligenci, aby pomocí referenčních výrazů zmapovala pohyb prvků zdroje. To umožnilo umělé inteligenci vytvořit hlubokou faleš, i když měla jen jeden obraz, ze kterého vědci pocházejí.
A více zdrojových obrázků přineslo ve finální animaci ještě podrobnější výsledek. Videa vytvořená z 32 obrázků, nikoli pouze z jednoho, dosáhla v uživatelské studii „dokonalého realismu“, napsal vědci.