Entropia ed informazione mutua per una coppia di variabili aleatorie

Prev Sezione 9.3: Contenuto informativo di sorgente continua Su Capitolo 9: Teoria dell’informazione e codifica di sorgente Sezione 9.5: Codifica di sorgente con perdita di informazione Next

9.4 Misure di informazione per una coppia di v.a.

Descrivono da un punto di vista informativo i messaggi prodotti da una coppia di sorgenti, ovvero componenti di una v.a. bidimensionale; i risultati ottenuti saranno utilizzati nel contesto della quantizzazione (§ 9.5) e della codifica di canale (cap. 17). Vengono poi introdotti altri due risultati (§§ 9.4.4 e 9.4.5), utilizzati specificatamente in altri contesti. Per semplicità, le definizioni vengono espresse nei termini di v.a. discrete.

9.4.1 Entropia congiunta

Si riferisce a due v.a. X e Y le cui realizzazioni sono descritte dalle d.d.p. marginali p(x) e p(y) e dalla d.d.p. congiunta p(x, y), ed è definita come

H(X, Y) = H(Y, X) = − ⎲⎳_x⎲⎳_y p(x, y) log₂ p(x, y)

L’entropia congiunta risulta sempre non negativa, e delimitata tra

0 ≤ max{H(X), H(Y)} ≤ H(X, Y) ≤ H(X) + H(Y)

con l’ultimo ≤ che diviene un’uguaglianza qualora le v.a. siano statisticamente indipendenti ovvero p(x, y) = p(x)p(y). Nel caso di v.a. continua sussiste l’equivalente definizione per l’entropia differenziale congiunta

(10.237)
h(X, Y) = − ⌠⌡_x⌠⌡_y p(x, y) log₂ p(x, y) dxdy

9.4.2 Entropia condizionale

Come la precedente si riferisce a due v.a. X e Y descritte dalle d.d.p. p(x), p(y) e dalla d.d.p. condizionata p(y ⁄ x) = ^p(x, y)⁄_p(x), viene definita come

(10.238)
H(Y ⁄ X) = − ⎲⎳_x⎲⎳_y p(x, y) log₂ p(y ⁄ x)

e per essa sussiste la relazione

(10.239) H(Y ⁄ X) = H(X, Y) − H(X)

che si ottiene dalla (10.238) considerando che p(y ⁄ x) = ^p(x, y)⁄_p(x). In base alla relazione analoga per p(x ⁄ y) è altrettanto vero che H(X ⁄ Y) = H(X, Y) − H(Y), e dunque sussiste anche l’equivalente del teorema di Bayes (§ 6.1.4), ovvero H(Y ⁄ X) = H(X ⁄ Y) + H(Y) − H(X).

La (10.239) può essere interpretata considerando che mentre H(X, Y) esprime il numero medio di bit di informazione associati alla conoscenza di una coppia di realizzazioni (x, y), l’osservazione della sola v.a. X apporta una informazione media di H(X) bit/simbolo. Pertanto sono necessari solamente H(X, Y) − H(X) ulteriori bit (in media) per descrivere anche la conoscenza di Y, una volta che X sia nota. Per la (10.238) risulta

0 ≤ H(Y ⁄ X) ≤ H(Y)

in cui la prima relazione è una uguaglianza se (e solo se) p(y ⁄ x) è una funzione deterministica e non una d.d.p., mentre H(Y ⁄ X) = H(Y) se (e solo se) p(y, x) = p(x)p(y) e quindi p(y ⁄ x) = p(y).

Nel caso di v.a. continue la definizione di entropia differenziale condizionale è

h(Y ⁄ X) = − ⌠⌡_x⌠⌡_yp(x, y) log₂p(y ⁄ x) dxdy = − ⌠⌡_x p(x) ⌠⌡_y p(y ⁄ x) log₂p(y ⁄ x) dydx

i cui valori possono però risultare anche negativi o indeterminati (pag. 1).

9.4.3 Informazione mutua media

Anche questa grandezza tiene conto di due v.a. X e Y [479] [479] Vedi anche la trattazione al § 17.1.3 e seguenti nel caso in cui X ed Y siano le grandezze in ingresso ed in uscita da un canale di comunicazione. descritte dalle d.d.p. marginali p(x) e p(y), nonché dalla d.d.p. congiunta p(x, y); la sua definizione è

(10.240)
I(X;Y) = I(Y;X) = ⎲⎳_x⎲⎳_y p(x, y) log₂ p(x, y)p(x)p(y)

ed ha un valore positivo o nullo, quest’ultimo se (e solo se) la v.a. sono indipendenti, ovvero p(x, y) = p(x)p(y). Il valore di I(X, Y) misura l’informazione che X e Y condividono, ovvero quanto la conoscenza di una riduce l’incertezza a riguardo dell’altra. Per essa sussistono le eguaglianze [480] [480] Vedi ad es. https://en.wikipedia.org/wiki/Mutual_information, ma anche la nota 925 a pag. 17.1

I(X;Y) = H(X) − H(X ⁄ Y) = H(Y) − H(Y ⁄ X) = H(X) + H(Y) − H(X, Y) = = H(X, Y) − H(X ⁄ Y) − H(Y ⁄ X)

figure Entropy-mutual-information-relative-entropy-relation-diagram.png

che possono essere meglio apprezzate nei termini di unione, differenza ed intersezione di insiemi, come raffigurato nel diagramma mostrato a lato. In particolare, in base alle prime due eguaglianze possiamo dire che I(X;Y) è pari all’entropia di una delle due v.a., meno il numero di bit a simbolo necessari a descriverla qualora l’altra v.a. sia nota, ovvero meno l’incertezza residua qualora una delle due sia nota.

Anche questo concetto si applica al caso di v.a. continue, ottenendo l’espressione dell’informazione mutua media differenziale

I(X;Y) = ⌠⌡_x⌠⌡_y p(x, y) log₂ p(x, y)p(x)p(y) dxdy

che non dipende dalla dinamica [481] [481] Ciò deriva dall’essere le d.d.p. presenti sia a numeratore che a denominatore dell’argomento di log₂. delle v.a. X e Y come invece accadeva per l’entropia differenziale di una (10.234) o due (10.237) v.a.

9.4.4 Entropia relativa

Meglio nota come Divergenza di Kullback Leibler, è una misura di quanto una d.d.p. p(x) è differente da una seconda q(x), di riferimento. E’ definita dall’espressione [482] [482] Vedi ad es. https://en.wikipedia.org/wiki/Kullback-Leibler_divergence

(10.241)
D_KL(p||q) = ⎲⎳_x p(x) log₂ p(x)q(x) = − ⎲⎳_x p(x) log₂ q(x) p(x)

ed è descritta anche come entropia relativa da q a p, o divergenza di p da q. Il suo valore è positivo o nullo, e si azzera quando p(x) = q(x); non può essere però adottata come una distanza, in quanto non è simmetrica (ovvero D_KL(p||q) ≠ D_KL(q||p)) e non verifica la disuguaglianza triangolare.

In genere p(x) deriva da osservazioni sperimentali, mentre q(x) ne rappresenta un modello teorico, ed il valore di D_KL(p||q) può essere interpretato come il numero medio di bit in più necessario a codificare i simboli x adottando un codice ottimizzato rispetto a q(x), anziché uno ottimizzato per p(x). In questo senso, D_KL(p||q) misura il guadagno di informazione conseguito nel rivedere le proprie convinzioni a riguardo del fenomeno aleatorio espresso dalla v.a. X, da una d.d.p. a priori q(x), in favore della evidenza basata sui dati p(x).

Nel caso di v.a. continue la definizione (10.241) si modifica in

D_KL(p||q) = ⌠⌡_x p(x) log₂ p(x)q(x) dx

e, come per I(X;Y), il suo valore non dipende dalla dinamica delle v.a.

Relazione con l’informazione mutua media

La (10.241) può essere vista come il valore di informazione mutua media (10.240) tra due v.a. X e Y, calcolato come divergenza D_KL(p(x, y)|| p(x)p(y)) della d.d.p. congiunta p(x, y) dal prodotto p(x)p(y) delle rispettive marginali. Dato però che la (10.240) prevede una doppia sommatoria mentre la (10.241) soltanto una, si preferisce scrivere

I(X;Y) = ⎲⎳_x⎲⎳_y p(x, y)log₂p(x, y)p(x)p(y) = ⎲⎳_x⎲⎳_y p(x ⁄ y)p(y)log₂p(x ⁄ y)p(y) p(x)p(y) = = ⎲⎳_y p(y)⎲⎳_x p(x ⁄ y)log₂p(x ⁄ y)p(x) = E_Y{D_KL(p(x ⁄ y)|| p(x))}

in cui la somma su x valuta la divergenza della d.d.p. condizionata p(x ⁄ y) dal modello p(x), mentre la somma esterna su y esegue il valore atteso rispetto ai valori y. Più p(x ⁄ y) e p(x) sono differenti (o divergenti), e maggiore è il guadagno di informazione.

9.4.5 Entropia di Rényi

Definita in tempi più recenti, estende il concetto di entropia introdotto da Shannon (10.217), che ne diviene un caso particolare. L’entropia di Rényi di ordine α, con α ≥ 0 ed α ≠ 1, di una v.a. discreta X con alfabeto di n elementi x_i, di probabilità p_i, è definita come [483] [483] Vedi ad es. https://en.wikipedia.org/wiki/Rényi_entropy

H_α(X) = 11 − α log₂ (⎲⎳ ⁿ_i = 1 p^α_i)

In caso di v.a. uniforme con p_i = ¹⁄_n ∀i si ha H_α(X) = log₂n per ∀α; in generale, H_α(X) è una funzione non crescente di α. Per diversi specifici valori di α accade che

per α → 0 si ha H₀(X) → log₂n per qualunque d.d.p.;
per α → 1 il valore H₁(X) eguaglia quello dell’entropia classica ∑ⁿ_i = 1 p_i log₂ 1p_i;
per α → ∞ il valore H_α(X) è sempre più legato ai soli eventi più probabili.

Viene inoltre definita una divergenza di Rényi tra due d.d.p. discrete p_i e q_i di uguale cardinalità n come D_α(p|| q) = 1α − 1 log₂ ⎛⎝∑ⁿ_i = 1 p^α_iq^α− 1_i⎞ ⎠ che, per α → 1, corrisponde alla divergenza di Kullback-Leibler (§ 9.4.4).

Prev Sezione 9.3: Contenuto informativo di sorgente continua Su Capitolo 9: Teoria dell’informazione e codifica di sorgente Sezione 9.5: Codifica di sorgente con perdita di informazione Next