Dev /

TextToSpeech

La sintesi vocale è una tecnologia a cavallo tra la linguistica computazionale, la fonetica, l'informatica e l'elaborazione numerica del segnale. Pertanto, trovere persone che se ne intendono, è un evento estremamente raro. Eppure, chi non vorrebbe, invece di passare le ore a strabuzzare gli occhi davanti ad uno schermo di computer, sedersi rilassato in poltrona e farsi leggere le stesse informazioni da qualcuno ?

Quando poi la sintesi vocale si combina con i servizi di telematica vocale, possiamo pensare all'audio come una semplice modalità alternativa di navigazione, così come definito dalle specifiche del VoiceXML.

TTS in Open Source

Esistono alcuni progetti OpenSource di sintesi vocale, i cui riferimenti riportiamo appresso

  • Festival - approfondito in una pagina a sè
  • Mbrola - non per tutte le lingue disponibili (e sono molte!) può essere usato senza altri componenti, per altri dettagli, prova con wikipedia. Tipicamente, le voci di Mbrola possono essere usate nel contesto di Festival.
  • Cepstral - l'ascolto dell'unica voce Italiana sembra di buona qualità, offrono il download gratuito (con dei reminder vocali ad acquistare la licenza), e stando alla documentazione, possono prestare la voce a Festival. L'interfacciamento con Asterisk sembrera semplice, come riportato in questo esempio.

Markup

Esistono sintassi apposite per indicare particolari pronunce:

  • Sable - un precursore di SSML, usato da Festival
  • SSML - Speech Synthesis Markup Language, definita dal W3C
  • dalla documentazione di KDE sembra sia possibile pilotare Festival anche via SSML

Conversioni di Markup

Dato che già l'HTML/XHTML è basato su di una sintassi di markup, nel vocalizzare i contenuti di pagine web, non sarebbe una buona idea prendere lo spunto dal markup preesistemte, per generare quello di aiuto alla sintesi? Effettivamente l'idea. oltre che avere un senso, è stata attuata. Troviamo anche qui qualche riferimento:

  • Speech Synthesis Markup di Richard Sproat - tratto da un corso sul TTS, illustra in modo sintetico l'evoluzione dei linguaggi di markup
  • ACSS - l'Aural Cascaded Style Sheet esprime le variazioni di pronuncia da applicare in corrispondenza dei tag HTML
  • Festival freebsoft utils - Una collezione di funzioni utili che arricchiscono Festival, tra cui il supporto ai fogli di stile "SSML". Sfortunatamente la modalità SSML contiene dei bug, e molti tag non sembrano sortire effetti.
  • KTTS (il dispatcher TTS di KDE) prevede l'uso di un foglio di regole XSLT (XML Style Language - Transforms) per produrre il markup SSML idoneo

Categorie: SapienBlog


Pagine che puntano a questa: