Canale binario simmetrico, decisione ML e MAP, Informazione mutua media per il BSC

Prev Capitolo 17: Capacità e codifica di canale Su Capitolo 17: Capacità e codifica di canale Sezione 17.2: Capacità di canale discreto Next

17.1 Dove arrivare, e come partire

E’ più che lecito chiedersi ora di quanto si possa ridurre la P_e, e quanta ridondanza sia necessario aggiungere. La teoria che affronteremo risponde che finché l’intensità informativa R = f_s ⋅ H_s in uscita dal codificatore di sorgente (eq. (10.223)) si mantiene inferiore al valore della capacità di canale C (§§ 17.2 e 17.3), l’informazione può essere trasportata (teoricamente) senza errori! Mentre se al contrario R > C, non è possibile trovare nessun procedimento in grado di ridurre gli errori - che anzi, divengono praticamente certi. Infine (pur senza spiegare come fare) la teoria assicura che la ridondanza che occorre aggiungere può essere resa trascurabile!

Ma prima di approfondire questi risultati a dir poco fenomenali, svolgiamo alcune riflessioni su come

la probabilità ed il tipo di errori introdotti da un canale numerico possono essere descritti, noto l’ingresso, nei termini di una matrice di probabilità di transizione;
la decisione relativa al simbolo trasmesso si può basare, oltre che sulla conoscenza di tale matrice, anche sulle probabilità di come sono emessi i simboli della sorgente;
al verificarsi di errori corrisponde una perdita di informazione.

17.1.1 Canale binario simmetrico

Mentre al § 15.4 si è sviluppato un lungo ragionamento per arrivare ad un valore di probabilità di errore (eq. (21.21)), in questa sede ci riferiamo al solo risultato finale,

il valore P^bit_e = p che caratterizza il modello raffigurato a lato e descritto dal termine bsc o binary symmetric channel che rappresenta appunto un canale numerico binario con probabilità p di introdurre errore, indipendentemente dal simbolo di ingresso, e per questo simmetrico.

In termini più formali indichiamo con x₁ e x₂ i due possibili ingressi e, qualora (con prob. 1 − p) non si verifichi errore, con y₁ e y₂ le rispettive uscite, mentre in presenza di errore (con probabilità p), in uscita si presenta il simbolo opposto.

Probabilità a priori

Qualora i simboli di ingresso x₁ e x₂ non siano equiprobabili [921] [921] Notiamo che in presenza di una codifica di sorgente efficace (PAG. 1) i simboli di ingresso dovrebbero essere pressoché equiprobabili., indichiamo con α e 1 − α le relative prob. a priori (§ 6.1.4).

Probabilità in avanti

Individuano le probabilità condizionate p_ji = p(y_j ⁄ x_i) di osservare y_j in uscita quando in ingresso è presente x_i, e per questo dette in avanti.

Matrice di transizione Π

I suoi elementi sono le prob. p_ji, e nel caso bsc la matrice è simmetrica in quanto

⎧⎨⎩ p(y₂ ⁄ x₁) = p(y₁ ⁄ x₂) = p p(y₁ ⁄ x₁) = p(y₂ ⁄ x₂) = 1 − p ovvero Π = [p_ji] = ⎡⎢⎣ 1 − p p p 1 − p ⎤⎥⎦

Osserviamo due cose: la prima è che le prob. p_y = (p(y₁), p(y₂))^⊤dei simboli di uscita si calcolano come p_y = Π ⋅ p_x; la seconda è che le definizioni date si estendono immediatamente al caso di canale L − ario, come nel caso multilivello.

17.1.2 Decisione a verosimiglianza ed a posteriori

Il simbolo y_i in uscita dal canale numerico non è una variabile aleatoria, bensì una osservazione effettiva, e la decisione su quale x_j l’abbia prodotto avviene secondo un procedimento di verifica di ipotesi (§ 6.6.1), basata sul valore assunto da un rapporto tra valori di probabilità.

Decisione di massima verosimiglianza

Qualora siano note solamente le probabilità in avanti p_ij ma non quelle a priori, la decisione avviene sulla base del rapporto di verosimiglianza (§ 6.6.2). Supponiamo che l’uscita del bsc sia ad es. il valore y₁: la decisione su quale delle ipotesi x₁ od x₂ sia più probabile in questo caso avviene in base al rapporto R_ML tra le probabilità in avanti, e prende il nome di decisione di massima verosimiglianza (vedi § 6.6.2.1) o Maximum Likelihood, ovvero

(21.85) R_ML(y₁) = p(y₁ ⁄ x₁)p(y₁ ⁄ x₂) = 1 − pp x₁ ↑ ≷ ↓ x₂ 1

decidendo quindi per l’ipotesi più verosimile in funzione del valore maggiore o minore di uno per R_ML. Nel caso risulti p < 12 la regola (21.85) equivale a scegliere l’ingresso concorde con l’uscita, oppure l’opposto se p > 12 (!). Qualora invece si riceva y₂, il rapporto e la relativa regola di decisione sono definiti come R_ML(y₂) = p(y₂ ⁄ x₂)p(y₂ ⁄ x₁) x₂ ↑ ≷ ↓ x₁ 1. Nel caso di trasmissione L − aria, infine, la ricezione di y_j porta alla decisione per x_i:i = argmax_{i = 1, 2, ⋯L}{p(y_j ⁄ x_i)}

Decisione di massima probabilità a posteriori (MAP)

Conoscendo anche le probabilità a priori p(x₁) e p(x₂), se i due simboli x₁ ed x₂ non sono equiprobabili [922] [922] In caso contrario (ovvero p(x₁) = p(x₂) = 0.5) la (21.86) è equivalente alla (21.85). Nei casi in cui non si conoscano le prob. a priori, non si può quindi fare altro che attuare una decisione di massima verosimiglianza., la decisione può avvenire confrontando le probabilità a posteriori [923] [923] Sono indicate come a posteriori perché misurano la probabilità del simbolo trasmesso x dopo la conoscenza di quello ricevuto y. p(x_j ⁄ y_i), calcolabili applicando il teorema di Bayes (vedi § 6.1.4). Facendo di nuovo il caso di aver ricevuto il simbolo y₁, scriviamo dunque

(21.86)
R_MAP(y₁) = p(x₁ ⁄ y₁)p(x₂ ⁄ y₁) = p(y₁ ⁄ x₁)p(x₁)p(y₁) ⋅ p(y₁)p(y₁ ⁄ x₂)p(x₂) = = p(y₁ ⁄ x₁)p(y₁ ⁄ x₂)p(x₁)p(x₂) x₁ ↑ ≷ ↓ x₂ 1

o più in generale, comprendendo anche il caso di canale L − ario, il criterio di decisione map qualora si riceva y_i è espresso come

x_i : i =argmax_{i = 1, 2, ⋯L}{p(y_j ⁄ x_i)p(x_i)}

Il modo con cui le probabilità a priori p(x₁) e p(x₂) correggono la decisione ml (21.85) in map (21.86) per un bsc si presta a due osservazioni

x₁ potrebbe essere così raro che, in presenza di una moderata probabilità di errore, si preferisce decidere sempre x₂, attribuendo l’eventuale ricezione di y₁ ad un errore del canale, piuttosto che all’effettiva trasmissione di x₁.
in assenza di canale (ossia senza ricevere nulla) l’unica decisione possibile si basa sul confronto tra le p. a priori p(x₁) e p(x₂). La ricezione di un simbolo y_i apporta nuova informazione, alterando il rapporto di decisione R in misura tanto maggiore quanto minore è la probabilità di errore.

Esempio Verifichiamo le ultime osservazioni esplicitando una probabilità a posteriori in funzione di p:

p(x₁ ⁄ y₁) = p(x₁, y₁)p(y₁) = p(y₁ ⁄ x₁)p(x₁)p(y₁ ⁄ x₁)p(x₁) + p(y₁ ⁄ x₂)p(x₂) = = (1 − p) ⋅ p(x₁)(1 − p) ⋅ p(x₁) + p ⋅ p(x₂) = p(x₁)p(x₁) + p1 − pp(x₂)

Se p = 1 − p = 12, il canale è inservibile e non trasferisce informazione: infatti si ottiene p(x₁ ⁄ y₁) = p(x₁) pari a quella a priori, in quanto p(x₁) + p(x₂) = 1. D’altra parte se p < 12 si ottiene p(x₁ ⁄ y₁) > p(x₁) dato che ora p1 − p < 0.5: si assiste pertanto ad un aumento della probabilità di x₁ rispetto a quella a priori; se poi la probabilità di errore tende a zero (p → 0) si ottiene p(x₁ ⁄ y₁) → 1.

17.1.3 Informazione mutua media per canale numerico L − ario

Approfondiamo questa nozione introdotta al § 9.4.3 e li utilizzata per definire la funzione velocità distorsione (§ 9.5.2), mostrando come l’informazione condivisa tra ingresso ed uscita di un canale consenta di determinare anche la quantità di informazione che viene persa a causa degli errori che si sono verificati.

Consideriamo una sorgente discreta che emette simboli x appartenenti ad un alfabeto finito di cardinalità L, ossia x ∈ {x_i} con i = 1, 2, ⋯, L, ed indichiamo con y ∈ {y_j} (sempre per j = 1, 2, ⋯, L) il corrispondente simbolo ricevuto mediante un canale discreto, in generale diverso da x, a causa di errori introdotti dal canale. Conoscendo le densità di probabilità p(x_i), p(y_j), e le probabilità congiunte p(x_i, y_j), possiamo definire la quantità di informazione in comune tra x_i e y_j, denominata informazione mutua, come [924] [924] Per ottenere le diverse forme della (21.87) si ricordi che p(x_i, y_j) = p(x_i ⁄ y_j)p(y_j) = p(y_j ⁄ x_i)p(x_i)

(21.87)
I(x_i, y_j) = log₂p(x_i, y_j)p(x_i)p(y_j) = log₂p(x_i ⁄ y_j)p(x_i) = log₂p(y_j ⁄ x_i)p(y_j) bit

da cui deriva che

se ingresso ed uscita del canale sono statisticamente indipendenti si ha p(x_i, y_j) = p(x_i)p(y_j), e di conseguenza l’informazione mutua è nulla;
se p(y_j ⁄ x_i) > p(y_j) significa che l’essere a conoscenza della trasmissione di x_i rende la ricezione di y_j più probabile di quanto non lo fosse a priori, e corrisponde ad una informazione mutua positiva;
la definizione di informazione mutua è simmetrica, ovvero I(x_i, y_j) = I(y_j, x_i);
rifrasando la 2. in virtù della 3., se p(x_i ⁄ y_j) > p(x_j) allora ricevere y_j rende la trasmissione di x_i più probabile di quanto non lo fosse a priori, manifestando lo stesso valore di informazione mutua positiva del punto 2.

Per giungere ad una grandezza I(X, Y) che tenga conto del comportamento medio del canale, ovvero per coppie ingresso-uscita qualsiasi, occorre pesare i valori di I(x_i, y_j) con le relative probabilità congiunte, ossia calcolarne il valore atteso rispetto a tutte le possibili coppie (x_i, y_j):

(21.88)
I(X, Y) = E_X, Y{I(x_i, y_j)} = ⎲⎳_i⎲⎳_j p(x_i, y_j) log₂p(x_i ⁄ y_j)p(x_i) = ⎲⎳_i⎲⎳_j p(x_i, y_j) log₂p(y_j ⁄ x_i)p(y_j)

ri-ottenendo così l’informazione mutua media (§ 9.4.3), misurata in bit/simbolo, e che rappresenta (in media) quanta informazione ogni simbolo ricevuto trasporta a riguardo di quello trasmesso. In virtù della simmetria di questa definizione, ci accorgiamo che il valore di I(X, Y) può essere espresso [925] [925] Infatti

⎲⎳_i⎲⎳_jp(x_i, y_j)log₂p(x_i ⁄ y_j)p(x_i) = ⎲⎳_i⎲⎳_jp(x_i, y_j)[log₂1p(x_i) − log₂1p(x_i ⁄ y_j)] = = ⎲⎳_i⎲⎳_jp(x_i, y_j)log₂1p(x_i) − ⎲⎳_i⎲⎳_jp(x_i, y_j)log₂1p(x_i ⁄ y_j)

L’ultimo termine è indicato come entropia condizionale H(X ⁄ Y) (eq. (21.91)), mentre il penultimo è pari all’entropia di sorgente H(X) dato che saturando la prob. congiunta p(x_i, y_j) rispetto ad j, ovvero ∑_jp(x_i, y_j) = p(x_i), si perviene alla (21.89) in base al risultato ∑_ilog₂1p(x_i)∑_jp(x_i, y_j) = ∑_ip(x_i)log₂1p(x_i). Per la (21.89) il passaggio è del tutto simile. nelle due forme alternative

(21.89) I(X, Y) = H(X) − H(X ⁄ Y) (21.90) = H(Y) − H(Y ⁄ X)

in cui l’entropia condizionale (§ 9.4.2)

(21.91)
H(X ⁄ Y) = ⎲⎳_i⎲⎳_j p(x_i, y_j) log₂1p(x_i ⁄ y_j)

prende il nome di equivocazione e rappresenta la quantità media di informazione persa, rispetto all’entropia di sorgente H(X), a causa della rumorosità del canale. Nel caso in cui il canale non introduca errori, e quindi p(x_i ⁄ y_j) sia pari a 1 se j = i e zero altrimenti, è facile vedere [926] [926] Infatti in tal caso la (21.91) diviene ∑_i∑_jp(x_i, y_j)log₂1p(x_i ⁄ y_j) = ∑_ip(x_i, y_i)log₂1 = 0 che H(X ⁄ Y) è pari a zero, e I(X, Y) = H(X), ossia tutta l’informazione della sorgente si trasferisce a destinazione. D’altra parte

(21.92)
H(Y ⁄ X) = ⎲⎳_i⎲⎳_j p(x_i, y_j) log₂1p(y_j ⁄ x_i)

prende il nome di noise entropy dato che considera il processo di rumore come se fosse un segnale informativo: infatti, sebbene si possa essere tentati di dire che l’informazione media ricevuta è misurata dalla entropia H(Y) della sequenza di osservazione, una parte di essa H(Y ⁄ X) è falsa, perché in realtà è introdotta dagli errori.

Calcolo dell’informazione mutua media per il BSC

Torniamo al caso binario descritto al § 17.1.1 ed usiamo la (21.89) per calcolare l’informazione mutua media in funzione della probabilità a priori p(x₁) = α e di quella in avanti p_e, valutando innanzitutto H(Y) e H(Y ⁄ X). Dal punto di vista dell’uscita del canale, i simboli y₁, y₂ costituiscono l’alfabeto di una sorgente binaria senza memoria, la cui entropia si esprime in termini di p(y₁) mediante la (10.221), ovvero H(Y) = H_b(p(y₁)), in cui

p(y₁) = p(y₁ ⁄ x₁)p(x₁) + p(y₁ ⁄ x₂)p(x₂) = = (1 − p_e)α + p_e(1 − α) = p_e + α − 2αp_e

e dunque H(Y) = H_b(p_e + α − 2αp_e). Per quanto riguarda la noise entropy H(Y ⁄ X), sostituendo p(x_i, y_j) = p(y_j ⁄ x_i)p(x_i) nella (21.92) otteniamo

H(Y ⁄ X) = ⎲⎳_ip(x_i)⎡⎢⎣⎲⎳_jp(y_j ⁄ x_i)log₂1p(y_j ⁄ x_i)⎤⎥⎦ = H_b(p_e)

dato che il termine tra parentesi quadre rappresenta appunto l’entropia di una sorgente binaria con simboli a probabilità p_e e 1 − p_e. Possiamo quindi ora scrivere l’espressione cercata

(21.93)
I(X, Y) = H(Y) − H(Y ⁄ X) = H_b(p_e + α − 2αp_e) − H_b(p_e)

che dipende sia dalla probabilità di errore p_e, sia dalla prob. a priori dei simboli della sorgente: osserviamo che se p_e≪1 il canale (quasi) non commette errori, e risulta I(X, Y) ≃ H_b(α) = H(X), mentre se p_e → 12 allora I(X, Y) → 0.

Prev Capitolo 17: Capacità e codifica di canale Su Capitolo 17: Capacità e codifica di canale Sezione 17.2: Capacità di canale discreto Next