L'attivita' di ricerca svolta nell'ambito di questo progetto costituisce
il contributo dell'unita' di Roma al Progetto Coordinato Nazionale CNR
- Comitato 12 "Modellamento bimodale (acustico-visivo) di volti
parlanti per la codifica di sorgente nelle comunicazioni interpersonali
video-audio"
DIST - Dipartimento di Informatica,
Sistemistica e Telematica - Universita' di Genova
DIE - Dipartimento di Ingegneria
Elettronica - Universita' di Firenze
DIE - Dipartimento di Ingegneria Elettronica - Universita' di Pavia
INFOCOM - Dipartimento
di Scienza e Tecnica dell'Informazine e della Comunicazione - Universita'
di Roma "La Sapienza"
Scopo
L'obbiettivo di questo progetto
consistente nel tentare di produrre una rappresentazione animata di un
volto umano stilizzato, i cui movimenti labiali siano sincroni e coerenti
con il segnale audio (di parlato, ovviamente!) a disposizione. Gli scopi della ricerca sono molteplici.
Ai fini della trasmissione, la stima del processo articolatorio a partire
da quello acustico puo’ essere impiegata per interpolare tra loro le immagini
di un segnale di videoconferenza con bassa frequenza di quadro. Un’altra
applicazione prevista e’ quella di generare una immagine sintetica raffigurante
un volto parlante, ed integrare la stessa in sistemi di presentazione multimediale,
in modo da accompagnare il commento vocale fornito dal dispositivo informativo
con l’animazione del volto, allo scopo di produrre nell’interattore una
maggiore attenzione, una migliore comprensibilita’ delle informazioni,
ed un maggior grado di accettazione del dispositivo informativo.
Metodo
Il problema viene affrontato adottando la tecnica
nota come HMM (Hidden Markov Models ovvero Modelli di Markov Nascosti),
largamente impiegata nell’ambito del riconoscimento automatico del parlato.
In tale contesto, il problema e’ formulato come quello della ricezione
ottima di messaggi trasmessi attraverso un canale rumoroso, e risolto applicando
l'algoritmo di Viterbi a vettori di coefficienti di rappresentazioni spettrali
a breve termine, calcolate a partire dal segnale audio, considerati come
vettori di segnale ricevuto Y.
Questi vettori, indicati come processo “di osservazione”
sono posti in relazione statistica con le unita’ linguistiche W,
la cui produzione e’ assimilata alla evoluzione (non osservabile direttamente)
di una sorgente di Markoviana, e che costituiscono il messaggio trasmesso.
La stima delle statistiche delle osservazioni, condizionate agli stati
dei modelli Markoviani, assieme a quelle delle matrici di transizione tra
stati, costituisce quindi l’elemento che permette il processo di decodifica
nei termini di una verifica di ipotesi, operata in termini di decisioni
sequenziali a mezzo dell’algoritmo di Viterbi. Le stesse metodologie di soluzione sono qui ora
utilizzate allo scopo di produrre una rappresentazione animata di un volto
umano stilizzato, i cui movimenti labiali siano sincroni e coerenti con
il segnale audio (di parlato, ovviamente!) a disposizione. Si vuole cioe’
attuare ancora un processo di decodifica, in cui stavolta il messaggio
(incognito) trasmesso V e’ costituito dai movimenti articolatori
del volto di un parlante, anziche’ dalla rappresentazione grafemica delle
parole pronunciate.
Risultati
Il risultati della ricerca puo' essere valutato
per mezzo di un programma di animazione di un volto stilizzato, prelevabile
presso
http://comel.ing.uniroma1.it/~sandro/th/report.zip,
dove possono essere trovati sia il programma di animazione, che le sequenze
di animazione originali e sintetiche, oltre ad un programma shareware che
produce (tra le altre cose) ottimi sonogrammi di segnale audio. Infine,
dalla stessa URL e' possibile scaricare un rapporto completo di tutti i
passi necessari al raggiungimento dello scopo, ivi compresa la descrizione
del metodo di potatura della matrice di transizione dell'HMM, basata sul
criterio di eliminare le transizioni identificate dalla minima Informazione
mutua tra gli stati collegati. Le sequenze visemiche animate prodotte per sintesi
hanno dato prova di essere in grado di riprodurre correttamente le configurazioni
tipiche delle vocali, e di riuscire a produrre una occlusione in corrispondenza
di plosive. Al contrario, non si sono notate modifiche sostanziali della
conformazione facciale in corrispondenza di liquide e nasali. Si suppone
pero’ che l’adozione di un procedimento di ri-stima per le
probabilita’ di transizione del modello congiunto possa portare a risultati
migliori.