Sezione 6.6: Elementi di statistica Su Capitolo 6: Probabilità processi e statistica Capitolo 7: Correlazione, densità spettrale e filtraggio 

6.7 Appendici

6.7.1 Approfondimento sulla gaussiana

Sviluppiamo qui i passaggi relativi ad alcuni risultati riguardanti la v.a. gaussiana monodimensionale presentata al § 6.2.4.
Integrale di Gauss
Si dimostra[333]  [333] Vedi https://it.wikipedia.org/wiki/Integrale_di_Gauss, in cui si fa uso della teoria esposta al § 6.4. che −∞e− x2dx = π, da cui −∞e− x22dx = 2π. Pertanto il fattore di scala 12πσ che compare nell’espressione della gaussiana è necessario per rendere la (10.120) una d.d.p.: infatti con il cambio di variabile z = x − mσ da cui dx = σdz si ottiene
 −∞12πσ e− (x − m)22σ2 dx = 12π −∞σσ e− z22 dz = 2π2π = 1
Calcolo del valor medio
Sebbene dal grafico di fig.6.7 sia evidente, data la simmetria di pX(x), che il suo valor medio sia pari al parametro m che compare nella (10.120), volendo una conferma analitica si può applicare la definizione
E{x} = −∞xpX(x)dx = 12πσ −∞xe− (x − m)22σ2dx
da cui, operando il cambio di variabile x − m2σ = t si ottiene dx = 2σdt e quindi
E{x} = 1π −∞(2σt + m)e− t2dt = 2σπ −∞te− t2dt + mπ −∞e− t2dt = m
in quanto il primo termine risulta nullo dato che la funzione integranda è dispari, mentre il secondo termine vale m in quanto −∞e− t2dt = π, vedi integrale di Gauss al paragrafo precedente.
Calcolo della varianza
Anche in questo caso applichiamo il cambio di variabile x − m2σ = t alla definizione
E{(x − m)2} = 12πσ −∞(x − m)2 e− (x − m)22σ2dx
ottenendo
E{(x − m)2}  = 12πσ  −∞2σ2t2 e− t22σ dt = σ2π  −∞t ⋅ 2te− t2dt =   = σ2π [ − te − t2|−∞ +  −∞ e− t2dt] = σ2π π = σ2
dove alla seconda riga si è applicata la tecnica di integrazione per parti[334]  [334] Si ricorda che la regola di integrazione per parti stabilisce che ba[f(x)g(x)]dx =  f(x)g(x)|ba − ba[f(x)g(x)] in cui prima si è integrato 2t e− t2 → − e− t2e quindi si è derivato t → 1. A questo punto si osserva che  − te− t2|−∞ è pari a zero dato che per t → ±∞ il fattore e− t2 decresce più rapidamente di quanto cresca t, mentre anche qui −∞e− t2dt = π.
Momenti centrati di ordine superiore
Per una v.a. gaussiana x sussiste la relazione E{(x − mx)p} =  0  p  dispari        σp(p − 1)!!  p  pari  in cui n!! indica il semifattoriale, pari a n(n − 2)(n − 4).. in cui l’ultimo fattore sarà un 2 oppure un 1 a seconda se n è pari o dispari.
Posizione dei flessi
I punti di flesso di (10.120) si trovano in corrispondenza dei valori x = m±σ: infatti l’azzeramento della derivata seconda[335]  [335] La derivata prima di p(x) = 12πσe− (x − m)22σ2risulta pari a p’(x) = 12πσe− (x − m)22σ2 − (x − m)σ2 e dunque
p’’(x)  = 12πσe− (x − m)22σ2(x − m)σ22 +  e− (x − m)22σ2 − 1σ2 = 12πσ3 e− (x − m)22σ2(x − m)2σ2 − 1
determina la condizione (x − m)2 = σ2 ovvero x − m = ±σ.

6.7.2 Teorema centrale del limite

Fornisce la dimostrazione che la somma di v.a. statisticamente indipendenti ed identicamente distribuite, ovvero con d.d.p. qualsiasi ma uguale per tutte, tende ad assumere una d.d.p. gaussiana qualora il loro numero n sia molto elevato, e dunque permette di ritenere valida l’ipotesi di gaussianità per molti fenomeni naturali, come ad es. il rumore termico (§ 8.4.2.1). Indichiamo con m e σ2 i valori di media e varianza (finita) per ciascuna delle v.a. xi che prendono parte alla somma, e consideriamo la nuova v.a. xS = ni = 1xin: il teorema afferma che xS → N(nm, σ2) qualora n → ∞.
Per semplificare la dimostrazione conviene definire yi = xi − m come nuove v.a. a media nulla e varianza σ2, ed affrontare lo studio della v.a. somma z = ni = 1yin.Iniziamo con il verificare che
σ2z = Eni = 1yin2 = ni = 1Ey2in = 1n ni = 1σ2 = 1nnσ2 = σ2
in cui la seconda eguaglianza sussiste in virtù dell’indipendenza statistica[336]  [336] Infatti, per il caso semplice di due v.a. y1ed y2 a media nulla si ottiene
σ2y = E{(y1 + y2)2} = E{y21 + y22 + 2y1y2} = E{y21} + E{y22} + 2E{y1y2} = σ2y1 + σ2y2
in cui la terza eguaglianza è conseguenza della proprietà distributiva dell’integrale (10.117) che definisce il valore atteso, e la quarta discende dal fatto che l’indipendenza statistica implica incorrelazione (§ 7.1.2).
tra le yi, e la terza in quanto identicamente distribuite. Passiamo ora a calcolare la funzione caratteristica (§ 6.2.5) Φz(ω) di z, ovvero
(10.145)
Φz(ω) = Ez{e jωz} = Ez{e jωni = 1yin} = ni = 1Eyi{e jωyin} = ni = 1Φyi(ω) = [Φy(ω)]n
dove anche per questo caso la terza eguaglianza sussiste in virtù dell’indipendenza statistica tra le yi, e la quinta in quanto identicamente distribuite, essendo Φy(ω) la f.c. di ciascuna delle v.a. yi normalizzate, ovvero Φy(ω) = Ey{e jωyn} =  pY(y) e jωyn dy in cui pY(y) è la d.d.p. comune a tutte le yi. La dimostrazione procede sostituendo all’esponenziale e jωyn il relativo sviluppo in serie di potenze ex = k = 0 xkk! arrestato al secondo ordine ovvero
ex = 1 + x + x22 + ox22
in cui ox22 significa un infinitesimo di ordine superiore (per x molto piccolo) a x22, in modo da ottenere
(10.146)
Φy(ω)  = Ey{e jωyn} = Eyk = 0(jωy)k(n)kk! = Ey1 + jωyn + (jωy)22n + o(ωy)22n =   = 1 + jωn my − 1n ω2m2y2 + o1n = 1 − 1n ω2σ22 + o1n
in quanto Ey{y} = my = 0 per ipotesi, e Ey{y2} = m2y = σ2 per lo stesso motivo. A questo punto non resta che sostituire la (10.146) nella (10.145) per ottenere Φz(ω) = [Φy(ω)]n = 1 − 1n ω2σ22 + o1nn e ricordare (!) che limn → ∞1 + αnn = eα, per arrivare a
limn → ∞Φz(ω) = e − ω2σ22
che è esattamente pari alla funzione caratteristica (10.123) di una v.a. gaussiana con media nulla e varianza σ2, e quindi il teorema è dimostrato.
Qualora le n v.a. i.i.d. xi abbiano media m e la loro somma avvenga senza il fattore di normalizzazione 1n, la nuova v.a. xS = ni = 1xi per n → ∞ risulta tendere ad una N(nm, nσ2).

6.7.3 Matrice di covarianza e forma quadratica associata

La matrice di covarianza Σx introdotta ai §§ 6.5 e seguenti ha dimensione n × n con elementi σij definiti come
σij = E{(xi − mxi)(xj − mxj)}
in cui xi con i = 1, 2, ⋯, n sono v.a. e mxi è la rispettiva media. Se le xi sono congiuntamente gaussiane, la stessa Σx compare nell’espressione (10.136) della relativa d.d.p. Peraltro, Σx mantiene il suo significato indipendentemente dalla natura delle v.a. a cui si riferisce, e presenta interessanti proprietà di cui ora discutiamo, e la cui conoscenza può tornare utile in alcune circostanze, come ad esempio nella analisi delle prestazioni del filtro di Wiener, vedi pag. 507.
Simmetria e autovettori
Notiamo innanzitutto che Σx è una matrice simmetrica, in quanto σij = σji. In questo caso è possibile dimostrare che i suoi autovalori λ sono reali[337]  [337] Facciamo uso del prodotto Hermitiano definito come x, y = xy = ni = 1xiyi, in cui la sopralineatura rappresenta l’operazione di coniugazione. In generale per matrici e vettori reali risulta Ax, y = (Ax)y = xAy = x, Ay, ma se oltre a ciò A è simmetrica si ha A = A e dunque Ax, y = x, Ay. Indicando ora con λ il coniugato di un autovalore di A (per assurdo) complesso, possiamo scrivere λx, x = λx, x = Ax, x = x, Ax = x, λx = λx, x, ma dato che x, x è positivo, dovrebbe essere λ = λ, il che è impossibile: dunque tutti gli autovalori sono reali., ed in numero pari al suo rango. Ricordiamo che gli autovalori λ sono definiti come le possibili radici del polinomio caratteristico q(λ) = |Σx − λI| di Σx, di grado n; ad ogni autovalore λ corrisponde un autovettore γ ([338]  [338] Gli autovettori si considerano normalizzati, ovvero γγ = 1, altrimenti ad uno stesso autovalore ne corrisponderebbero infiniti. Gli autovettori sono inoltre definiti a meno di un termine di fase, dato che se γ è un autovettore, lo è anche γe jθ con 0 < θ < 2π.) tale che
(10.147) Σxγ = λγ
Per le matrici simmetriche si dimostra[339]  [339] Vedi ad es. https://www.marcellochiodi.com/mylessons/MLA2020matriciA4.pdf che gli autovettori γi e γj associati ad autovalori distinti sono ortogonali, ovvero γiγj = 0. Pertanto è possibile assemblare una matrice Γ = [γ1 γ2 γp] di n righe e p colonne pari agli autovettori γi, per la quale risulta[340]  [340] La prima relazione è conseguenza dell’ortogonalità, la seconda discende dalla prima, e la terza deriva dalla premoltiplicazione di ambo i membri della (10.147) per γj, che produce γiΣxγi = λi se  i = j γjΣxγi = 0  se  i ≠ j
(10.148)
ΓΓ = ΓΓ = I,  Γ− 1 =  Γ,  e ΓΣxΓ = Λ
in cui Λ è una matrice quadrata p × p diagonale, con i valori degli autovettori λi sulla diagonale. Sia Σx che Λ hanno lo stesso determinante[341]  [341] In quanto det(Σx) = det(Γ)det(Λ)det(Γ), e det(Γ) = det(Γ) = det(Γ− 1) = 1., e quindi det(Σx) = ni = 1λi, che dunque si annulla se qualche λi = 0; pertanto, il numero p ≤ n di autovalori non nulli determina il rango di Σx.
Forma quadratica e segno
Una forma quadratica individua l’espressione
(10.149) Q(c) = ni = 1nj = 1cicjσij = cΣxc
che rappresenta il valore di un polinomio omogeneo di secondo grado nelle variabili ci. Qualora per qualsiasi scelta di c ≠ 0 risulti Q(c) ≥ 0, sia Σx che Q(c) vengono dette di segno semidefinito positivo[342]  [342] Vedi https://it.wikipedia.org/wiki/Matrice_definita_positiva.
Condizione necessaria e sufficiente per avere Q(c) ≥ 0 è che Σx sia una matrice di covarianza: infatti, la varianza σ2y (non negativa per definizione) di una combinazione lineare y = ni = 1cixi di v.a. xi può essere espressa[343]  [343]         σ2y  =  E{(y − my)2} = E{(ni = 1cixi − ni = 1cimi)2} =   =  ni = 1nj = 1cicjE{xixj} − ni = 1nj = 1cicjmimj = ni = 1nj = 1cicjσij in notazione matriciale appunto come σ2y = cΣxc. Inoltre, se det(Σx) ≠ 0 ovvero Σx ha rango pieno[344]  [344] Ossia nessuna tra le v.a. xi presenta dipendenza lineare da una o più altre., sia Σx che Q(c) sono definite positive, ovvero Q(c) > 0, in quanto in tal caso tutti gli n autovalori λi sono positivi[345]  [345] Tenendo infatti conto che dalla (10.148) si ottiene Σx = ΓΛΓ, possiamo scrivere Q(c) = cΣxc = cΓΛΓc, che ponendo d = Γc riscriviamo ancora come Q(c) = dΛd = pi = 1λid2i. Se qualche λi fosse negativo o nullo, si potrebbe trovare un vettore d nullo tranne per l’unica componente corrispondente al λi ≤ 0, e produrre una Q(c) ≤ 0, in contrasto con l’ipotesi. Pertanto è vero anche il viceversa, cioè Σx è definita positiva se λi > 0 ∀i.. Se viceversa det(Σx) = 0 il rango di Σx risulta p < n, con n − p autovalori nulli, e sia Σx che Q(c) sono semidefinite positive.
Analisi della convessità
La ricerca di un punto di minimo cm per Q(c) tale che Q(cm) < Q(c) è molto semplice. Occorre innanzitutto verificare che in tale punto si annulli il vettore gradiente g(c)|c = cm con elementi gi(c) = Q(c)ci = 2 Σxc, che corrisponde ad impostare un sistema omogeneo Σxc = 0, che come noto ammette soluzioni  ≠ 0 solo se det(Σx) = 0. Quindi, se Σx non ha autovalori nulli ed è definita positiva, cm = 0 è l’unico punto singolare.
Per stabilire se si tratti di un minimo od un massimo, occorre valutare il segno della matrice Hessiana H(c) con elementi hij(c) = 2Q(c)cicj: si dimostra che se H(cm) è definita positiva allora Q(c)|c = cm è convessa[346]  [346] Vedi https://it.wikipedia.org/wiki/Funzione_convessa. La condizione sulla matrice Hessiana definita positiva è analoga alla proprietà nota per la derivata seconda di una funzione monovariata, ma per una dimostrazione si può visitare ad es.
http://www.statistica.unimib.it/utenti/matematica/AM2/appunti/conv.pdf.
, e cm corrisponde ad un minimo, oppure ad un massimo se H(cm) è definita negativa. Ma dato che per Q(c) risulta H(c) = 2 Σx indipendentemente da c, il segno di H è lo stesso di Σx, e dunque se quest’ultima è definita positiva, Q(c) è convessa per ogni c, e cm = 0 corrisponde ad un minimo globale.
Nel caso di n = 2 è possibile classificare Q(c) come un paraboloide ellittico[347]  [347] Vedi https://it.wikipedia.org/wiki/Quadrica. In particolare, la proprietà di una matrice definita positiva di avere n autovalori positivi è quella che in due dimensioni determina questo risultato, vedi http://www.mat.uniroma2.it/~gealbis/quadriche.pdf. ,
figure parabol.png
raffigurato nella figura a lato per il caso
Σx =  2  − 1  − 1 3
ovvero Q(c) = z = 2x2 − 2xy + 3y2. La superficie si dice ellittica dato che una sua intersezione con il piano Q(c) = cost individua un iper-ellissoide.
Interpretazione geometrica
Notiamo ora che Q(c) = cΣxc può essere riscritta in forma di prodotto scalare Σxc, c tra c e d = Σxc, il cui valore risulta |c||d|cosα, ovvero positivo o negativo a seconda se c e d condividono o meno lo stesso semipiano, oppure nullo se sono ortogonali.
In definitiva, una matrice Σx definita positiva individua una trasformazione che mappa un qualunque vettore c in uno d = Σxc che giace nello stesso semipiano, o in quello opposto per una matrice definita negativa.
 Sezione 6.6: Elementi di statistica Su Capitolo 6: Probabilità processi e statistica Capitolo 7: Correlazione, densità spettrale e filtraggio