Vai al contenuto

Codec Avatar

Di seguito presento una ricerca del team di Meta riguardo gli avatar Codec.

La ricerca è stata condotta dal team del Reality Labs da Chen Cao, Tomas Simon, Jin Kyu Kim, Gabe Schwartz, Michael Zollhoefer, Shunsuke Saito, Stephen Lombardi, Shih-en Wei, Danielle Belko, Shoou-i Yu, Yaser Sheikh, Jason Sarag ed estratta dal paper: https://drive.google.com/file/d/1i4NJKAggS82wqMamCJ1OHRGgViuyoY6R/view

Si presenta un metodo per creare avatar volumetrici autentici utilizzando una scansione con un telefono. Per creare un avatar, può essere utilizzata una fotocamera RGBD, come ad esempio quella di un iPhone 12, per catturare un’espressione neutra da diversi punti di vista, oltre a un insieme di espressioni facciali. Questi dati sono utilizzati per generare un avatar fotorealistico, che rispecchia il volto dell’individuo sia in termini di geometria che di aspetto, ed è capace di produrre rendering ad alta fedeltà da nuovi punti di vista ed espressioni.

L’avatar volumetrico può essere visualizzato in realtà virtuale in tempo reale, aprendo alla possibilità di applicazioni di telepresenza fotorealistica. Il metodo proposto produce un decoder volumetrico specifico per una persona utilizzando un modello universale a priori che è addestrato su dati multivista di alta qualità. Viene utilizzato un sistema di cattura multivista per acquisire video di alta qualità di performance facciali. Sono state catturate 255 identità di differenti età, generi e razze per costruire il dataset.

Il modello universale a priori è una forma di iper-rete che prende dati di condizionamento specifici per un individuo e produce parametri di un avatar specifico per una persona sotto forma di un decodificatore di rete neurale. Esso codifica l’identità come un insieme di mappe di bias a multi-risoluzione che vengono calcolate una volta per ogni nuovo soggetto. Queste mappe di bias vengono aggiunte alle funzionalità intermedie di un decodificatore convoluzionale che producono primitive volumetriche, le quali possono essere utilizzate per renderizzare l’avatar usando la marcia dei raggi.

Cambiando i dati di condizionamento, è possibile produrre avatar di nuove identità che possono essere renderizzati da diversi punti di vista. Le espressioni sono codificate utilizzando uno spazio latente completamente convoluzionale con dimensioni spaziali 4×4 per localizzare gli effetti di ciascun codice di espressione sull’avatar decodificato. Il modello proposto consente il ritargeting delle espressioni tra diversi soggetti, dimostrando la coerenza dello spazio latente dell’espressione, che è utile per le attività di animazione a valle.

Si è anche incorporato un modo per esporre controlli semanticamente definiti, come la direzione dello sguardo. Questo permette un controllo diretto quando il tracciamento dello sguardo è disponibile. Con il modello universale a priori addestrato, può essere costruito un modello di avatar personalizzato per un utente. Si acquisisce per prima cosa la geometria e la texture del volto neutro dell’utente.

Per ogni fotogramma, si eseguono algoritmi di rilevamento dei punti di riferimento del volto e di segmentazione del ritratto sull’immagine RGB di input. Si adatta e si deforma una mesh modello per farla corrispondere ai punti di riferimento rilevati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

it_ITItalian