6.7 Appendici
6.7.1 Approfondimento sulla gaussiana
Sviluppiamo qui i passaggi relativi ad alcuni risultati riguardanti la v.a. gaussiana monodimensionale presentata al §
6.2.4.
Si dimostra che
∫∞−∞e− x2dx = √π, da cui
∫∞−∞e− x22dx = √2π. Pertanto il fattore di scala
1√2πσ che compare nell’espressione della gaussiana è necessario per rendere la
(10.120) una d.d.p.: infatti con il cambio di variabile
z = x − mσ da cui
dx = σ ⋅ dz si ottiene
∞⌠⌡ −∞1√2πσ e− (x − m)22σ2 dx = 1√2π∞⌠⌡ −∞σσ e− z22 dz = √2π√2π = 1
Sebbene dal grafico di fig.
6.7 sia evidente, data la simmetria di
pX(x), che il suo valor medio sia pari al parametro
m che compare nella
(10.120), volendo una conferma analitica si può applicare la definizione
E{x} = ∫∞−∞xpX(x)dx = 1√2πσ ∫∞−∞xe− (x − m)22σ2dx
da cui, operando il cambio di variabile
x − m√2σ = t si ottiene
dx = √2σdt e quindi
E{x} = 1√π∞⌠⌡ −∞(√2σt + m)e− t2dt = √2σ√π∞⌠⌡ −∞te− t2dt + m√π∞⌠⌡ −∞e− t2dt = m
in quanto il primo termine risulta nullo dato che la funzione integranda è dispari, mentre il secondo termine vale
m in quanto
∫∞−∞e− t2dt = √π, vedi
integrale di Gauss al paragrafo precedente.
Anche in questo caso applichiamo il cambio di variabile
x − m√2σ = t alla definizione
E{(x − m)2} = 1√2πσ ∫∞−∞(x − m)2 e− (x − m)22σ2dx
ottenendo
E{(x − m)2} = 1√2πσ ∞⌠⌡ −∞2σ2t2 e− t2√2σ dt = σ2√π ∞⌠⌡ −∞t ⋅ 2te− t2dt = = σ2√π [ − te − t2|∞−∞ + ∞⌠⌡ −∞ e− t2dt] = σ2√π √π = σ2
dove alla seconda riga si è applicata la tecnica di integrazione per parti in cui prima si è integrato
2t e− t2 → − e− t2e quindi si è derivato
t → 1. A questo punto si osserva che
− te− t2|∞−∞ è pari a zero dato che per
t → ±∞ il fattore
e− t2 decresce più rapidamente di quanto cresca
t, mentre anche qui
∫∞−∞e− t2dt = √π.
Momenti centrati di ordine superiore
Per una v.a. gaussiana x sussiste la relazione E{(x − mx)p} = ⎧⎨⎩ 0 p dispari σp(p − 1)!! p pari in cui n!! indica il semifattoriale, pari a n(n − 2)(n − 4).. in cui l’ultimo fattore sarà un 2 oppure un 1 a seconda se n è pari o dispari.
I punti di flesso di
(10.120) si trovano in corrispondenza dei valori
x = m±σ: infatti l’azzeramento della derivata seconda determina la condizione
(x − m)2 = σ2 ovvero
x − m = ±σ.
6.7.2 Teorema centrale del limite
Fornisce la dimostrazione che la somma di v.a. statisticamente indipendenti ed identicamente distribuite, ovvero con d.d.p. qualsiasi ma uguale per tutte, tende ad assumere una d.d.p. gaussiana qualora il loro numero
n sia molto elevato, e dunque permette di ritenere valida l’ipotesi di gaussianità per molti fenomeni naturali, come ad es. il rumore termico (§
8.4.2.1). Indichiamo con
m e
σ2 i valori di media e varianza (finita) per ciascuna delle v.a.
xi che prendono parte alla somma, e consideriamo la nuova v.a.
xS = ∑ni = 1xi√n: il teorema afferma che
xS → N(n ⋅ m, σ2) qualora
n → ∞.
Per semplificare la dimostrazione conviene definire
yi = xi − m come nuove v.a. a media nulla e varianza
σ2, ed affrontare lo studio della v.a. somma
z = ∑ni = 1yi√n.Iniziamo con il verificare che
σ2z = E⎧⎨⎩⎛⎜⎝n⎲⎳i = 1yi√n⎞⎟⎠2⎫⎬⎭ = n⎲⎳i = 1E⎧⎨⎩y2in⎫⎬⎭ = 1n n⎲⎳i = 1σ2 = 1nnσ2 = σ2
in cui la seconda eguaglianza sussiste in virtù dell’indipendenza statistica tra le
yi, e la terza in quanto identicamente distribuite. Passiamo ora a calcolare la
funzione caratteristica (§
6.2.5)
Φz(ω) di
z, ovvero
dove anche per questo caso la terza eguaglianza sussiste in virtù dell’indipendenza statistica tra le
yi, e la quinta in quanto identicamente distribuite, essendo
Φy(ω) la f.c. di ciascuna delle v.a.
yi normalizzate, ovvero
Φy(ω) = Ey{e jωy√n} = ∫ pY(y) e jωy√n dy in cui
pY(y) è la d.d.p. comune a tutte le
yi. La dimostrazione procede sostituendo all’esponenziale
e jωy√n il relativo sviluppo in serie di potenze
ex = ∑∞k = 0 xkk! arrestato al secondo ordine ovvero
ex = 1 + x + x22 + o⎛⎝x22⎞⎠
in cui
o⎛⎝x22⎞⎠ significa un infinitesimo di ordine superiore (per
x molto piccolo) a
x22, in modo da ottenere
in quanto
Ey{y} = my = 0 per ipotesi, e
Ey{y2} = m2y = σ2 per lo stesso motivo. A questo punto non resta che sostituire la
(10.146) nella
(10.145) per ottenere
Φz(ω) = [Φy(ω)]n = ⎡⎣1 − 1n ω2σ22 + o⎛⎝1n⎞⎠⎤⎦n e ricordare (!) che
limn → ∞⎛⎝1 + αn⎞⎠n = eα, per arrivare a
limn → ∞Φz(ω) = e − ω2σ22
che è esattamente pari alla funzione caratteristica
(10.123) di una v.a. gaussiana con media nulla e varianza
σ2, e quindi il teorema è dimostrato.
Qualora le n v.a. i.i.d. xi abbiano media m e la loro somma avvenga senza il fattore di normalizzazione 1√n, la nuova v.a. xS = ∑ni = 1xi per n → ∞ risulta tendere ad una N(n ⋅ m, n ⋅ σ2).
6.7.3 Matrice di covarianza e forma quadratica associata
La matrice di covarianza
Σx introdotta ai §§
6.5 e seguenti ha dimensione
n × n con elementi
σij definiti come
σij = E{(xi − mxi)(xj − mxj)}
in cui
xi con
i = 1, 2, ⋯, n sono v.a. e
mxi è la rispettiva media. Se le
xi sono congiuntamente gaussiane, la stessa
Σx compare nell’espressione
(10.136) della relativa d.d.p. Peraltro,
Σx mantiene il suo significato indipendentemente dalla natura delle v.a. a cui si riferisce, e presenta interessanti proprietà di cui ora discutiamo, e la cui conoscenza può tornare utile in alcune circostanze, come ad esempio nella analisi delle prestazioni del
filtro di Wiener, vedi pag.
507.
Notiamo innanzitutto che
Σx è una matrice
simmetrica, in quanto
σij = σji. In questo caso è possibile dimostrare che i suoi autovalori
λ sono
reali, ed in numero pari al suo rango. Ricordiamo che gli autovalori
λ sono definiti come le possibili radici del
polinomio caratteristico q(λ) = |Σx − λI| di
Σx, di grado
n; ad ogni autovalore
λ corrisponde un autovettore
γ () tale che
Per le matrici simmetriche si dimostra che gli autovettori
γi e
γj associati ad autovalori
distinti sono
ortogonali, ovvero
γ⊤iγj = 0. Pertanto è possibile
assemblare una matrice
Γ = [γ1 γ2⋯ γp] di
n righe e
p colonne pari agli autovettori
γi, per la quale risulta
in cui
Λ è una matrice quadrata
p × p diagonale
, con i valori degli autovettori
λi sulla diagonale. Sia
Σx che
Λ hanno lo stesso determinante, e quindi
det(Σx) = ∏ni = 1λi, che dunque si annulla se qualche
λi = 0; pertanto, il numero
p ≤ n di autovalori non nulli determina il rango di
Σx.
Una
forma quadratica individua l’espressione
che rappresenta il valore di un polinomio
omogeneo di secondo grado nelle variabili
ci. Qualora per qualsiasi scelta di
c ≠ 0 risulti
Q(c) ≥ 0, sia
Σx che
Q(c) vengono dette di segno
semidefinito positivo.
Condizione necessaria e sufficiente per avere Q(c) ≥ 0 è che Σx sia una matrice di covarianza: infatti, la varianza σ2y (non negativa per definizione) di una combinazione lineare y = ∑ni = 1cixi di v.a. xi può essere espressa in notazione matriciale appunto come σ2y = c⊤Σxc. Inoltre, se det(Σx) ≠ 0 ovvero Σx ha rango pieno, sia Σx che Q(c) sono definite positive, ovvero Q(c) > 0, in quanto in tal caso tutti gli n autovalori λi sono positivi. Se viceversa det(Σx) = 0 il rango di Σx risulta p < n, con n − p autovalori nulli, e sia Σx che Q(c) sono semidefinite positive.
La ricerca di un punto di minimo cm per Q(c) tale che Q(cm) < Q(c) è molto semplice. Occorre innanzitutto verificare che in tale punto si annulli il vettore gradiente g(c)|c = cm con elementi gi(c) = ∂Q(c)∂ci = 2 Σxc, che corrisponde ad impostare un sistema omogeneo Σxc = 0, che come noto ammette soluzioni ≠ 0 solo se det(Σx) = 0. Quindi, se Σx non ha autovalori nulli ed è definita positiva, cm = 0 è l’unico punto singolare.
Per stabilire se si tratti di un minimo od un massimo, occorre valutare il segno della matrice Hessiana H(c) con elementi hij(c) = ∂2Q(c)∂ci∂cj: si dimostra che se H(cm) è definita positiva allora Q(c)|c = cm è convessa, e cm corrisponde ad un minimo, oppure ad un massimo se H(cm) è definita negativa. Ma dato che per Q(c) risulta H(c) = 2 Σx indipendentemente da c, il segno di H è lo stesso di Σx, e dunque se quest’ultima è definita positiva, Q(c) è convessa per ogni c, e cm = 0 corrisponde ad un minimo globale.
Nel caso di
n = 2 è possibile classificare
Q(c) come un
paraboloide ellittico,
raffigurato nella figura a lato per il caso
Σx = ⎡⎢⎣ 2 − 1 − 1 3 ⎤⎥⎦
ovvero
Q(c) = z = 2x2 − 2xy + 3y2. La superficie si dice ellittica dato che una sua intersezione con il piano
Q(c) = cost individua un
iper-ellissoide.
Interpretazione geometrica
Notiamo ora che Q(c) = c⊤Σxc può essere riscritta in forma di prodotto scalare ⟨Σxc, c⟩ tra c e d = Σxc, il cui valore risulta |c||d|cosα, ovvero positivo o negativo a seconda se c e d condividono o meno lo stesso semipiano, oppure nullo se sono ortogonali.
In definitiva, una matrice Σx definita positiva individua una trasformazione che mappa un qualunque vettore c in uno d = Σxc che giace nello stesso semipiano, o in quello opposto per una matrice definita negativa.