AI POSLOUCHAL HLASY LIDí. PAK TO VYTVOŘILO JEJICH TVáŘE.

Send

Už jste někdy vytvořili mentální obraz člověka, kterého jste nikdy neviděli, pouze na základě jeho hlasu? Umělá inteligence (AI) to nyní může udělat a generovat digitální obraz obličeje osoby pomocí pouze krátkého zvukového klipu pro referenci.

Pojmenovaná Speech2Face, neuronová síť - počítač, který „myslí“ podobným způsobem jako lidský mozek - byla vyškolena vědci na milionech vzdělávacích videí z internetu, která ukázala více než 100 000 různých lidí, kteří mluví.

Z tohoto datového souboru se Speech2Face naučil asociace mezi hlasovými narážkami a určitými fyzickými rysy v lidské tváři, vědci psali v nové studii. AI pak použil zvukový klip k modelování fotorealistické tváře odpovídající hlasu.

Zjištění byla zveřejněna online 23. května v předtiskovém rejstříku arXiv a nebyla přezkoumána.

Naštěstí AI (zatím) přesně neví, jak vypadá konkrétní jedinec na základě svého hlasu. Neuronová síť rozpoznávala určité projevy v řeči, které poukazovaly na pohlaví, věk a etnicitu, rysy, které sdílí mnoho lidí, autoři studie uvedli.

„Jako takový model vytvoří pouze průměrně vypadající tváře,“ psali vědci. "Nebude vytvářet obrazy konkrétních jednotlivců."

Umělá inteligence již ukázala, že dokáže vytvářet neobvykle přesné lidské tváře, i když její interpretace koček jsou upřímně trochu děsivé.

Obličeje generované Speech2Face - všechny směřující dopředu a neutrálními výrazy - přesně neodpovídaly lidem za hlasy. Podle studie však obrázky obvykle zachycují správné věkové rozmezí, etniku a pohlaví jednotlivců.

Interpretace algoritmu však nebyla zdaleka dokonalá. Speech2Face prokázal „smíšený výkon“, když byl konfrontován s jazykovými variantami. Například, když AI poslouchala zvukový klip asijského muže mluvícího čínsky, program vytvořil obraz asijské tváře. Když však tentýž muž mluvil anglicky v jiném zvukovém klipu, umělá inteligence vytvořila tvář bílého muže, informovali vědci.

Algoritmus také ukázal pohlavní zaujatost, spojující hlasy s nízkým tónem s mužskými tvářemi a hlasy s vysokým tónem s ženskými tvářemi. A protože soubor údajů o školení představuje pouze vzdělávací videa z YouTube, „nepředstavuje stejně celou světovou populaci“, napsal vědci.

Další obavy ohledně tohoto souboru datových dat vyvstaly, když osoba, která se objevila ve videu YouTube, byla překvapená, když zjistila, že jeho podoba byla začleněna do studie, informoval Slate. Nick Sullivan, vedoucí kryptografie s internetovou bezpečnostní společností Cloudflare v San Franciscu, neočekávaně spatřil jeho tvář jako jeden z příkladů používaných k trénování Speech2Face (a algoritmus se reprodukoval spíše přibližně).

Sullivan nesouhlasil s tím, že se objeví ve studii, ale videa z YouTube v tomto datovém souboru jsou obecně považována za dostupná pro výzkumníky k použití bez získání dalších povolení, podle Slate.

Send