Entropia, codifica di sorgente discreta, Codice di Huffman

Prev Capitolo 9: Teoria dell’informazione e codifica di sorgente Su Capitolo 9: Teoria dell’informazione e codifica di sorgente Sezione 9.2: Sorgente discreta con memoria Next

9.1 Codifica di sorgente discreta

Iniziamo l’analisi considerando una sorgente di informazione che produce sequenze x(n) composte da simboli x_k appartenenti ad un alfabeto di cardinalità L (ossia con k = {1, 2, ⋯, L}), e che si presentano con probabilità p_k = Pr(x_k) non dipendente da n, ovvero la sorgente è stazionaria.

Sorgente senza memoria

Con questo termine si intende che i simboli vengono emessi in modo statisticamente indipendente (§ 6.1.5), ovvero indicando con x_h, x_k una coppia di simboli consecutivi (ossia x(n) = x_h, x(n + 1) = x_k), la probabilità del secondo non dipende dall’identità del primo, ossia p(x_k ⁄ x_h) = p(x_k) = p_k.

Misura dell’informazione

La conoscenza di ognuno dei simboli emessi x_k apporta una quantità di informazione (espressa in bit) definita come [452] [452] Per calcolare il logaritmo in base 2, sussiste la relazione log₂α = log₁₀α log₁₀2 ≃ 3.322 ⋅ log₁₀α. O più in generale, log₂α = log_βα log_β2

(10.216)
I_k = I(x_k) = log₂ 1p_k = − log₂ p_k bit

che rappresenta il livello di dubbio a riguardo del verificarsi

dell’evento x_k prima che questo si verifichi, ovvero di quanto possiamo ritenerci sorpresi nel venire a conoscenza dell’evento x_k, di cui riteniamo di conoscere la probabilità p_k. Osserviamo infatti che la (10.216) attribuisce un valore di informazione tanto più elevato quanto minore è la probabilità di emissione del simbolo.

La scelta di esprimere la relazione tra probabilità e informazione mediante il logaritmo in base 2 consente di verificare le seguenti osservazioni:

Prob. p_k	Inf. − log₂p_k	Commento
1	0	L’evento certo non fornisce informazione
0	∞	L’evento impossibile dà informazione infinita
12	1	Conoscere quale tra due eventi equiprobabili si sia verificato apporta un’informazione pari ad una cifra binaria (0 ⁄ 1) o bit = binary digit
¹⁄_2ⁿ	n	Es. probabilità ¹⁄₄ → due bit, ¹⁄₈ → tre bit ...

Notiamo inoltre che, essendo la sorgente senza memoria, due simboli emessi consecutivamente sono statisticamente indipendenti ovvero p(x_hx_k) = p(x_h)p(x_k) e dunque

I(x_h, x_k) = − log₂p_hp_k = − log₂p_h − log₂p_k = I(x_h) + I(x_k)

9.1.1 Entropia

Come in termodinamica al concetto di entropia si associa il grado di disordine in un sistema, così per una sorgente informativa l’entropia misura il livello medio di casualità dei simboli emessi. Definiamo infatti entropia (indicata con H) di una sorgente discreta S il valore atteso (§ 6.2.2) della quantità di informazione apportata dalla conoscenza dei simboli (scelti tra L possibili) da essa generati

(10.217) H_s = E{I_k} = ^L⎲⎳_k = 1p_kI_k = ^L⎲⎳_k = 1p_k log₂ 1p_k bit/simbolo

che, pesando in probabilità la quantià di informazione associata ai diversi simboli, rappresenta il tasso medio di informazione per simbolo espresso dalle sequenze osservabili. Come dimostriamo sotto, da tale definizione ne consegue che

se i simboli sono equiprobabili (p_k = 1L con ∀k) la sorgente è massimamente informativa, e la sua entropia è la massima possibile per un alfabeto ad L simboli, pari a H_{s_Max} = 1L ∑^L_k = 1log₂L = log₂L bit/simbolo;
se i simboli non sono equiprobabili, allora H_s < log₂L;
se la sorgente emette sempre e solo lo stesso simbolo, allora H_s = 0.

Questi predicati possono essere riassunti dall’espressione

(10.218) 0 ≤ H_s ≤ log₂L

Dimostrazione Osserviamo innanzitutto che H_s ≥ 0 in quanto la (10.217) comprende tutti termini positivi o nulli, essendo log₂α ≥ 0 per α = ¹⁄_{p_k} ≥ 1. Mostriamo ora che H_s − log₂L ≤ 0: riscriviamo innanzitutto il primo membro della diseguaglianza come

(10.219)
H_s − log₂L = ⎲⎳_k p_klog₂1 p_k − log₂L ⋅ ⎲⎳_k p_k = ⎲⎳_k p_k⎛⎝log₂1 p_k − log₂L⎞⎠ = ⎲⎳_k p_klog₂1 L ⋅ p_k

dato che ∑_kp_k = 1, ove le sommatorie su k si intendono da 1 ad L . Esprimiamo poi questo risultato parziale nei termini di logaritmi naturali, tenendo conto che log₂α = ln αln 2, ovvero

(10.220) ⎲⎳_k p_klog₂ 1L ⋅ p_k = 1ln 2 ⎲⎳_k p_kln 1L ⋅ p_k

A questo punto utilizziamo

la relazione ln α ≤ α − 1 mostrata in figura, con l’uguaglianza valida solo se α = 1. Ponendo quindi α = 1 L ⋅ p_k e sostituendo la (10.220) nella (10.219) si ottiene

H_s − log₂L = 1 ln 2 ⎲⎳_k p_kln 1 L ⋅ p_k ≤ 1 ln 2 ⎲⎳_k p_k⎛⎝1 L ⋅ p_k − 1⎞⎠ = = 1 ln 2 ⎛⎝⎲⎳_k 1 L − ⎲⎳_k p_k⎞⎠ = 1 ln 2 (1 − 1) = 0

con il segno di uguale solo se 1L ⋅ p_k = 1 ovvero p_k = 1L ⋅ .

9.1.1.1 Entropia di sorgente binaria

Nel caso particolare di una sorgente binaria, ovvero che emette uno tra due simboli {x₀, x₁} con probabilità rispettivamente p₀ = p, p₁ = q = 1 − p, la formula dell’entropia (10.217) fornisce l’espressione

(10.221)
H_b(p) = − plog₂p − (1 − p)log₂(1 − p) bit/simbolo

il cui grafico è mostrato al lato sinistro di figura 9.2, in funzione di p.

Figure 9.2 Entropia di sorgente binaria e ridondanza associata

I due simboli {x₀, x₁} possono essere rappresentati dalle 2 cifre binarie {0, 1}, che in questo caso chiamiamo binit, per non confonderli con la misura dell’informazione (il bit). Osserviamo quindi che se p ≠ 0.5 si ottiene H_b(p) < 1, ossia la sorgente emette informazione con un tasso inferiore a un bit/simbolo, mentre a prima vista non potremmo usare meno di un binit per rappresentare ogni simbolo binario.

9.1.1.2 Ridondanza

Esprime la differenza D tra l’entropia di una sorgente H_s (10.217) ad L simboli ed il numero di binit [453] [453] La notazione ⌈α⌉ indica l’intero superiore ad α: ad esempio con L = 10 occorrono M = ⌈log₂10⌉ = ⌈3.322⌉ = 4 binit/simbolo, come se fosse stato L = 16. M = ⌈log₂L⌉ necessario a rappresentarli, divisa per quest’ultimo, ovvero

(10.222) D = M − H_s M = 1 − H_s M ≤ 1

mostrata sempre in fig. 9.2 per il caso L = 2 al variare di p [454] [454] Si noti la differenza: la ridondanza della codifica di sorgente indica la frazione di binit/simbolo che eccedono il valore dell’entropia, mentre la ridondanza della codifica di canale (pag. 1) indica il rapporto tra binit di protezione e quelli effettivamente emessi dalla sorgente..

Esempio Consideriamo un sorgente binaria con p₀ = 0.8 (e p₁ = 0.2). L’applicazione della (10.221) fornisce un valore H_b(0.8) = 0.8 log₂ 10.8 + 0.2 log₂ 10.2 = 0.72 bit/simbolo, minore del valore di 1 bit/simbolo che si sarebbe ottenuto nel caso di equiprobabilità. La relativa ridondanza D è pari a 1 − ^0.72⁄₁ = 0.28, ovvero il 28 %.

9.1.1.3 Entropia di sorgente L-aria

L’applicazione della (10.218) al caso di una sorgente che emette simboli non equiprobabili ed appartenenti ad un alfabeto di cardinalità L, determina per la stessa un valore di entropia H_L < log₂L bit/simbolo.

Esempio Nel caso di una sorgente quaternaria con p₀ = 0.5, p₁ = 0.25, p₂ = 0.125, p₃ = 0.125, l’applicazione della (10.217) fornisce H₄ = 1.75 bit/simbolo, inferiore ai 2 bit/simbolo di una sorgente con quattro simboli equiprobabili. La relativa ridondanza è ora pari a 1 − ^1.75⁄₂ = 0.125 ovvero il 12.5 %.

9.1.2 Intensità informativa e codifica binaria

Svolgiamo ora alcune considerazioni relative alla possibilità di ridurre la ridondanza mediante una operazione di codifica (di sorgente). Consideriamo una sorgente discreta senza memoria con alfabeto ad L simboli, caratterizzata da una entropia di H_s bit/simbolo, e che emette i valori x_k a frequenza f_s simboli/secondo: il flusso informativo risultante consegue quindi una intensità o velocità di informazione pari a

(10.223) R = f_s ⋅ H_s bit/secondo

Volendo trasmettere tale informazione attraverso un canale binario (vedi § 17.1.1), l’elemento indicato in figura come codificatore binario fa corrispondere ad ogni simbolo x_k un numero variabile di N_k binit [455] [455] Mettere in corrispondenza i diversi simboli di sorgente con una loro codifica binaria è detta codifica per blocchi, discussa al § 9.1.4, dove si mostra anche la possibilità di produrre ogni parola di uscita in corrispondenza non di un unico simbolo di sorgente alla volta, ma come equivalente di più simboli. Raggruppando ad esempio M simboli binari si ottiene una nuova sorgente equivalente con L’ = 2^M simboli., scelti in modo da utilizzare meno binit per i simboli più probabili (e più binit per quelli rari) come descritto nel seguito, producendo una velocità di trasmissione binaria di f_b ^binit⁄_sec. Dal punto di vista del canale il messaggio è prodotto da una nuova sorgente equivalente, i cui simboli binari hanno probabilità p e 1 − p, e dunque caratterizzata da una entropia H_b(p) ^bit⁄_binit ≤ 1. Dato che l’intensità informativa in ingresso f_s ⋅ H_s ed in uscita f_b ⋅ H_b(p) dal codificatore deve essere la stessa [456] [456] Essendo biunivoca la corrispondenza tra il simbolo x_k ed il gruppo di N_k binit, non vi è perdita o aggiunta di informazione. e che H_b(p) ≤ 1, la velocità binaria f_b della sorgente binaria equivalente rispecchia il vincolo

(10.224)
f_b ≥ f_b ⋅ H_b(p) = f_s ⋅ H_s = R

Il rapporto N = f_b f_s ≥ H_s rappresenta il numero medio di binit emessi per ciascun simbolo della sorgente, e può essere valutato a partire dalle probabilità p_k dei simboli x_k e dal numero N_k di binit necessario a rappresentarlo, come valore atteso N = E{N_k} = ∑_kp_kN_k.

9.1.2.1 Teorema della codifica di sorgente

Noto anche come primo teorema di Shannon [457] [457] Vedi ad es. http://it.wikipedia.org/wiki/Primo_teorema_di_Shannon, afferma che esiste un modo di scegliere gli N_k binit associati a ciascun simbolo x_k tale che [458] [458] In effetti la (10.225) sussiste qualora il codificatore non operi indipendentemente su ogni simbolo di sorgente, ma più in generale possa emettere i binit in corrispondenza di sequenze di x_k via via più lunghe. Torneremo su questo aspetto al § 9.1.4, dove il teorema sarà dimostrato.

(10.225) H_s ≤ N ≤ H_s + ϵ

con ϵ piccolo a piacere, e che si annulla in corrispondenza della codifica ottima, per la quale risulta N = H_s. Ma non dice come fare, cosa di cui ci occupiamo ai §§ seguenti.

9.1.2.2 Codebook e codeword

Le operazioni svolte dal codificatore binario sono descritte nei termini della emissione di una parola di codice detta anche codeword, prelevata da un dizionario (o codebook) che descrive la collezione di tutte le possibili codeword.

9.1.2.3 Efficienza del codice

E’ la misura η di quanti bit di informazione sono trasportati da ogni binit di codifica [459] [459] Ad esempio, un valore η = 0.33 indica che ogni binit trasporta solo ¹⁄₃ di bit di informazione., ed è definita come il rapporto tra l’entropia di sorgente H_s ^bit⁄_simbolo ed il numero medio N di ^binit⁄_simbolo emessi: in base alla (10.223) ed alla considerazione che f_b = f_s ⋅ N si ottiene

(10.226)
η = H_s N = H_s ^f_b⁄_{f_s} = f_s ⋅ H_s f_b = R f_b = H_b(p) ≤ 1 [^bit⁄_binit]

e pertanto η è anche pari al rapporto tra gli R ^bit⁄_secondo di informazione della sorgente e la velocità di trasmissione f_b ^binit⁄_secondo prodotta dal codificatore.

Osservazione All’aumentare dell’efficienza, si assiste ad una contemporanea riduzione della ridondanza, potendo scrivere [460] [460] Sebbene la (10.222) esprima la ridondanza come D = 1 − H_s M, dopo la codifica i simboli di sorgente sono rappresentati (in media) da N binit anziché M, dunque otteniamo η + D = H_s N + 1 − H_s N = 1. η + D = 1.

Sappiamo già che qualora i binit emessi a velocità f_b assumano i valori 0 o 1 in modo equiprobabile, allora per la sorgente equivalente risulta H_b⎛⎝12⎞⎠ = 1, ovvero dalla (10.224) f_b = R e dalla (10.226) N = H_s. Dunque il problema di individuare un codice ottimo diviene quello di trovare un insieme di codeword tali da rendere equiprobabili i valori dei binit, con il vincolo di mantenere il codice decifrabile, ovvero tale da rispettare la regola del prefisso. Ma andiamo con ordine.

9.1.3 Codifica con lunghezza di parola variabile

Mostriamo mediante un esempio

Simbolo	Prob.	Codeword	N_k
x₁	.5	0	1
x₂	.25	10	2
x₃	.125	110	3
x₄	.125	111	3

come scegliendo codeword più lunghe per rappresentare i simboli meno probabili, e più corte per i simboli più frequenti, si può subito ottenere una migliore efficienza del codice. Consideriamo infatti la sorgente del secondo esempio a pag. 1, con alfabeto di cardinalità L = 4, ai cui simboli competono le probabilità riportate alla seconda colonna della tabella. In questo caso l’entropia vale

H_s = ⎲⎳_k p_klog₂ 1p_k = = 1 2 log₂2 + 1 4 log₂4 + 2 8 log₂8 = 1 2 + 1 2 + 2 8 ⋅ 3 = 1.75 bit ⁄simbolo

Se il codificatore di sorgente adotta le codeword mostrate nella terza colonna, a cui corrispondono le lunghezze di N_k binit riportate nella quarta colonna, il numero medio di binit/simbolo prodotti dalla codifica binaria risulta pari a

(10.227)
N = E{N_k} = ⎲⎳_k N_kp_k = 1 ⋅ 1 2 + 2 ⋅ 1 4 + 3 ⋅ 2 8 = 1.75 binit ⁄simbolo

Con queste codeword otteniamo dunque H_s = N, ovvero una efficienza η = 1! Intraprendiamo allora un ragionamento che ci porterà a concludere come questo sia un risultato per nulla scontato, e che dipende sia dalla particolare scelta fatta per le codeword, sia dal particolare tipo delle p_k dell’esempio, tutte potenze negative di due (essendo 0.5 = 2⁻¹, 0.25 = 2⁻², 0.125 = 2⁻³).

9.1.3.1 Regola del prefisso

Affinché un insieme di codeword di lunghezza variabile possa assere adottato come codebook di sorgente, queste devono poter essere riconosciute come distinte presso il ricevitore, e ciò è possibile a patto che nessuna sia uguale all’inizio di una codeword più lunga. Si può mostrare che la condizione necessaria e sufficiente per avere un codice non ambiguo è che il numero di binit N_k con cui sono espresse le codeword soddisfi la disuguaglianza di Kraft [461] [461] Vedi ad es. https://en.wikipedia.org/wiki/Kraft-McMillan_inequality, espressa come

(10.228) K = ⎲⎳^L_k = 12^− N_k ≤ 1

Esempio Nella tabella sono riportati quattro possibili codici

Simb.	p_k	A	B	C	D
x₁	.5	00	0	0	0
x₂	.25	01	1	01	10
x₃	.125	10	10	011	110
x₄	.125	11	11	0111	111
N		2.0	1.25	1.875	1.75
K		1.0	1.5	0.9375	1.0

(A,B,C,D) per la sorgente quaternaria già discussa, assieme al corrispettivo valore di N e K. Il codice A corrisponde ad un codificatore particolarmente banale con N_k = N per tutti i k, dunque la (10.228) diviene K = L 2^− N ≤ 1 ed è soddisfatta a patto che N ≥ log₂L: nel nostro caso, essendo L = 4 ed N = 2, si ottiene log₂ L = 2 = N e quindi K = 1, dunque il codice è decifrabile (anche perché a lunghezza fissa), ma non particolarmente valido, in quanto l’efficienza espressa dalla (10.226) risulta pari a η = H_s N = 1.752 = 0, 875 < 1. Ma quando H_s < log₂L come nel nostro caso, si può realizzare una efficienza migliore ricorrendo ad un codice a lunghezza variabile. Le codeword del codice B producono un valore K = 1.5 > 1, e dunque rappresentano un codice ambiguo [462] [462] Ad esempio, la sequenza 10110010 potrebbe essere interpretata come x₃x₄x₁x₁x₃ oppure x₂x₁x₄x₁x₁x₂x₁ od anche x₃x₂x₂x₁x₁x₃: difatti, violano la regola del prefisso. Il codice C invece non è ambiguo [463] [463] Nonostante il codice C non soddisfi la regola del prefisso, non è ambiguo in quanto lo zero indica comunque l’inizio di una nuova codeword. , essendo K < 1, ma presenta una efficienza H_s N = 0, 93 < 1 e dunque è anch’esso sub-ottimale. Infine, il codice D è quello analizzato al precedente paragrafo, ed effettivamente risulta una scelta ottima, dato che oltre a soddisfare la (10.228), consegue una efficienza H_s N = 1.

9.1.3.2 Codice ottimo

Indichiamo con questo termine un codice che oltre a soddisfare la regola del prefisso [464] [464] Soddisfare la (10.228) con il segno di uguale è una condizione solamente necessaria, ma non sufficiente, per ottenere di un codice ottimo. consegue anche una efficienza (10.226) unitaria, ovvero H_s N=1. Perché ciò avvenga il valore p_k delle probabilità di simbolo deve essere una potenza negativa di due, ovvero p_k = 2^− N_k con N_k intero: in tal caso la (10.228) si scrive K = ∑^L_k = 1 2^− N_k = ∑^L_k = 1 p_k = 1 e la diseguaglianza di Kraft è verificata con il segno di uguale, dunque è possibile individuare un codice non ambiguo.

Osserviamo inoltre che scegliendo la lunghezza delle codeword proprio pari a N_k = log₂ 1p_k, l’espressione (10.227) che ne calcola la lunghezza media N = ∑_k p_kN_k coincide con quella (10.217) che fornisce H_s = ∑_k p_klog₂ 1p_k, ovvero ogni simbolo è codificato con una codeword lunga tanti binit quanti sono i bit di informazione che trasporta, determinando una efficienza η unitaria. Per individuare un codice che si avvicini a questa proprietà si può utilizzare la tecnica di Huffman presentata appresso, mentre per modificare le p_k si ricorre alla codifica per blocchi di simboli esposta al § 9.1.4.

9.1.3.3 Codice di Huffman

E’ basato su di un algoritmo capace di individuare un codice a lunghezza variabile che soddisfa la regola del prefisso, adotta codeword più lunghe per i simboli meno probabili, e tenta di rendere equiprobabili le cifre binarie che compongono le codeword. L’algoritmo definisce [465] [465] Vedi http://en.wikipedia.org/wiki/Huffman_coding un albero binario i cui rami sono etichettati con 1 e 0, che può essere realizzato attuando i seguenti passi:

crea una lista contenente i simboli della sorgente, ordinati per valore di probabilità decrescente, ed associa ad ognuno di essi un nodo-foglia dell’albero;
finché c’è più di un nodo nella lista:
- rimuovi dalla lista i due nodi con la probabilità più bassa;
- crea un nuovo nodo interno all’albero con questi due nodi come figli, e con probabilità pari alla somma delle loro probabilità;
- aggiungi il nuovo nodo alla lista, in ordine di probabilità;
il nodo rimanente è la radice, e l’albero è completo;
assegna cifre binarie diverse ad ogni coppia di rami a partire dalla radice, concatenando le quali si ottengono le codeword per i simboli sulle foglie

Si può dimostrare che il codice di Huffman generato in questo modo è il migliore possibile nel caso in cui la statistica dei simboli di sorgente sia nota a priori, nel senso che produce un codebook con il minor numero possibile di binit/simbolo medi N, e le cui codeword allo stesso tempo soddisfano la regola del prefisso e la disuguaglianza di Kraft. La codifica di Huffman è ampiamente utilizzata nel contesto di altri metodi di compressione (metodo deflate di pkzip, § 9.2.3) e di codec multimediali (jpeg e mp3, cap. 10), in virtù della sua semplicità, velocità, ed assenza di brevetti.

Ovviamente ci deve essere un accordo a priori tra sorgente e destinatario a riguardo della corrispondenza tra parole di codice e simboli (o blocchi di simboli) della sorgente. Nel caso in cui ciò non sia vero, oppure nel caso in cui la statistica dei simboli della sorgente sia stimata a partire dal materiale da codificare, occorre inviare all’inizio della comunicazione anche la tabella di corrispondenza, eventualmente in forma a sua volta codificata.

Esempio Una sorgente con L = 8 simboli è caratterizzata dalle probabilità di simbolo riportate alla figura seguente, a partire dalle quali si realizza un codice di Huffman mediante la costruzione grafica riportata, in cui le probabilità sono scritte in rosso, sotto i rami ed accanto ai simboli, mentre i binit sopra i rami, in blu.

Simb.	p_k	CW
a₁	0.05	0000
a₂	0.1	0001
a₃	0.1	100
a₄	0.12	101
a₅	0.13	001
a₆	0.15	010
a₇	0.15	011
a₈	0.2	11

Dopo aver ordinato i simboli in base alle probabilità, si individuano i due nodi con probabilità più bassa come a₁ e a₂, che assommano prob. 0.15 e sono etichettati come nodo ➀; dunque la coppia ora meno probabile è a₃ con a₄, che cumula prob. 0.22 e si etichetta ➁. Quindi, le due prob. minori divengono quelle del nodo ➀ e del simbolo a₅, che assommano a 0.28 generando il nodo ➂; il passo successivo è quello di accoppiare a₆ con a₇ generando il nodo ➃ a cui compete la prob. di 0.3. Gli ultimi tre passi vedono accoppiare ➁ con a₈ producendo ➄ con prob. 0.42, quindi ➂ con ➃ generando ➅ con probabilità 0.58, ed infine ➄ con ➅ producendo il nodo radice a cui compete una prob. unitaria. Si può ora procedere, partendo dalla radice a destra, ad assegnare un binit pari a 0 o 1 ad ogni coppia di rami rispettivamente in alto ed in basso, ripetendo l’assegnazione seguendo le diramazioni verso sinistra, sopra le quali sono mostrate le codeword che si formano, di cui l’inizio in comune replica la configurazione assegnata al padre. Le codeword complete che compaiono sui rami più a sinistra sono quindi riportate alla terza colonna della tabella. Come è possibile verificare, il codice rispetta la regola del prefisso, in quanto nessuna delle codeword è uguale all’inizio di altre.

Osservazioni Se calcoliamo H_s, N e η per la sorgente ed il codice individuato, si ottiene H_s = 2.916, non molto meno del massimo log₂L = 3 bit a simbolo, corrispondente a probabilità p_k tutte uguali e pari a ¹⁄₈ = 0.125. Il codice consegue una lunghezza media di codeword pari a N = 2.95, e come osserviamo usa 3 binit per i 5 simboli con probabilità intermedia, il 15% delle volte usa 4 binit, ed il 20% due. Il codice consegue pertanto una efficienza η = ^H_s⁄_N = 0.988, ovvero la sorgente codificata presenta una ridondanza D solamente del 1,2%.

9.1.3.4 Codifica dinamica (di Huffman)

L’esecuzione dell’algoritmo di Huffman richiede la preventiva stima della probabilità p_k dei simboli, ottenuta a partire dal messaggio da codificare; inoltre, prima di trasmettere il messaggio codificato occorre inviare anche il codebook prodotto dall’algoritmo, per permettere al decodificatore di funzionare.

La variante adattiva dell’algoritmo di generazione del codice prevede invece di utilizzare valori p_k stimati durante l’analisi del messaggio, con quelle p̂_k costruire l’albero, e con l’albero corrente codificare i simboli man mano che vengono presi in considerazione. Durante l’analisi e la codifica del messaggio le p̂_k si modificano, con esse l’albero, ed il codice. Lo stesso algoritmo adattivo è implementato anche al ricevitore, che sviluppa dal suo lato il medesimo albero, evitando così di dover trasmettere il codebook, e permettendo di adottare la tecnica anche per messaggi prodotti in tempo reale. Inoltre, nel caso in cui il messaggio non sia propriamente stazionario e le p_k non si mantengano costanti nel tempo, l’adattività consente al codice di seguire tale variazioni e di conseguire in tal caso prestazioni anche migliori della tecnica statica [466] [466] Per approfondimenti si veda
https://www2.cs.duke.edu/csed/curious/compression/adaptivehuff.html, mentre per una descrizione dell’algoritmo di Vitter http://en.wikipedia.org/wiki/Adaptive_Huffman_coding.

9.1.4 Codifica per blocchi

Riprendiamo la discussione iniziata a pag. 1 relativa al codice binario ottimo per una sorgente L − aria senza memoria con simboli x_k a probabilità p_k, notando che se la lunghezza N_k della codeword associata ad x_k viene scelta in modo tale che

(10.229) log₂ 1p_k ≤ N_k ≤ log₂ 1p_k + 1

si può mostrare che la disuguaglianza di Kraft (10.228) è soddisfatta [467] [467] Infatti se calcoliamo K = ∑^L_k = 12^− N_k per N_k pari ai due valori indicati in (10.229) otteniamo nel primo caso

⎲⎳^L_k = 12^{− log₂1 p_k} = ⎲⎳^L_k = 12^log₂p_k = ⎲⎳^L_k = 1p_k = 1

mentre nel secondo

⎲⎳^L_k = 12^{− (log₂1p_k + 1)} = ⎲⎳^L_k = 12^log₂p_k ⋅ 2^− 1 = 0.5⎲⎳^L_k = 1p_k = 0.5

Pertanto in entrambi i casi la disuguaglianza di Kraft K ≤ 1 è soddisfatta, e per valori intermedi si ottengono valori intermedi. , e dunque è possibile realizzare un codice non ambiguo con tali codeword. Moltiplicando ora i membri di (10.229) per p_k e sommando su k si ottiene

(10.230) H_s ≤ N ≤ H_s + 1

da cui si deduce che è possibile ottenere un’efficienza η = H_s N → 1 solo se H_s≫1, oppure se N_k ≃ log₂ 1p_k (vedi nota 467).

Ma esiste anche un’altra possibilità: quella di raggruppare i simboli x_k in blocchi

di n elementi, e considerare l’intero blocco come un unico simbolo di una nuova sorgente equivalente con alfabeto a Lⁿ valori [468] [468] Pari al numero di disposizioni con ripetizione di n oggetti estratti dagli elementi di un insieme di cardinalità L. Ad esempio, raggruppando due (n = 2) cifre decimali (L = 10), si ottiene un numero da 0 a 99, ovvero un simbolo ad L² = 100 valori. , come rappresentato in figura. Essendo la sorgente senza memoria i suoi simboli sono indipendenti, e quindi si dimostra [469] [469] Indicando con y la v.a. discreta in uscita dalla sorgente a blocchi, essa risulta di tipo multivariato (§ 6.2.6), le cui le v.a. marginali sono i simboli x emessi dalla sorgente originale. L’indipendenza statistica di questi ultimi consente di scrivere Pr{y} = Pr{x₁}Pr{x₂}⋯Pr{x_n} in cui i valori x_i sono quelli dei simboli originali che compongono y. L’entropia H^blocco_s della sorgente a blocchi è definita come valore atteso dell’informazione I(y) = − log₂Pr(y), e in base alla proprietà del logaritmo di un prodotto possiamo scrivere log₂Pr(y) = log₂Pr(x₁) + log₂Pr(x₂) + ⋯ + log₂Pr(x_n), ottenendo cioè che I(y) è pari alla somma dell’informazione legata ad ogni valore x che partecipa a comporre y. Pertanto si ottiene

H^blocco_s = E{I(y)} = E{ − log₂Pr(x₁) − log₂Pr(x₂) − ⋯ − log₂Pr(x_n)} = = ⎲⎳ⁿ_j = 1E{ − log₂Pr(x)} = nH_s

ovvero l’entropia della sorgente equivalente è esattamente pari alla somma di quella dei simboli che rappresenta. che l’entropia della nuova sorgente è n volte quella originale, ossia H^blocco_s = nH_s. Il risultato (10.230) quindi ora si scrive come nH_s ≤ nN ≤ nH_s + 1 in cui nN è il numero medio di binit per blocco, e dividendo per n, otteniamo infine

(10.231) H_s ≤ N ≤ H_s + 1n

che rappresenta una forma di dimostrazione del teorema (10.225) con ϵ = 1 n, e che permette di ottenere N → H_s se n → ∞, avvicinandosi alle condizioni di codifica ottima per qualsiasi distribuzione delle p_k.

Esercizio Per applicare questo metodo ad un caso pratico, consideriamo una sorgente binaria senza memoria che emette simboli x_k con probabilità p_k mostrata in tabella. Per ogni coppia di simboli il blocco serie/parallelo

Simbolo	Prob.	Codeword
x₁	0.8	1
x₂	0.2	0
x₁x₁ → y₁	0.64	0
x₁x₂ → y₂	0.16	10
x₂x₁ → y₃	0.16	110
x₂x₂ → y₄	0.04	111

della fig. precedente emette un simbolo quaternario y_h a cui (in virtù dell’indipendenza statistica tra i simboli x_k) compete la probabilità ottenuta moltiplicando le probabilità della coppia x_ix_j associata. Codifichiamo quindi i simboli y_h con il codice a lunghezza variabile introdotto al § 9.1.3 , e ricalcoliamo il numero medio di binit/simbolo N, che risulta pari a

N = 1 ⋅ 0.64 + 2 ⋅ 0.16 + 3 ⋅ 0.16 + 3 ⋅ 0.04 = 1.58 binit

ogni 2 simboli, ossia pari ad una media di 0.79 binit/simbolo binario, mentre in assenza di codifica a blocchi non avremmo potuto utilizzare meno di 1 binit/simbolo binario. Al crescere della dimensione di blocco n si può verificare come N si avvicini sempre più al valore dell’entropia della sorgente binaria H_b = 0.72 calcolato a pag. 1, ovvero dimostrare l’eq. (10.231).

9.1.4.1 Compromesso velocità-ritardo

Come indicato dalla (10.231), realizzando blocchi via via più lunghi è possibile ridurre la velocità media di codifica N ⋅ f_s (in binit/sec) rendendo N sempre più vicino all’entropia, ovvero

min [N] = H_s + ε

in cui ε → 0 se la lunghezza n del blocco tende ad infinito. D’altra parte, all’aumentare della dimensione del blocco aumenta di egual misura il ritardo che intercorre tra l’emissione di un simbolo e la sua codifica, e di questo va tenuto conto, nel caso sussistano dei vincoli temporali particolarmente stringenti sulla consegna del messaggio.

Riassumendo

Qualora una sorgente discreta ad L simboli esibisca un valore di entropia inferiore a log₂L, la velocità binaria N ⋅ f_s in uscita dal codificatore di sorgente può essere ridotta e resa prossima all’intensità informativa R (eq. (10.223)) adottando una codifica a blocchi di lunghezza via via crescente, e utilizzando per i nuovi simboli compositi un opportuno codice di Huffman.

Esercizio Sperimentare la costruzione di un codice di Huffman basato sul raggruppamento di tre simboli della sorgente binaria dell’esercizio precedente, e verificare se il numero medio di binit/simbolo binario N riesce ad avvicinarsi ancora di più al valore dell’entropia della sorgente binaria pari a 0.72 bit/binit.

Prev Capitolo 9: Teoria dell’informazione e codifica di sorgente Su Capitolo 9: Teoria dell’informazione e codifica di sorgente Sezione 9.2: Sorgente discreta con memoria Next