Sezione 6.5: Gaussiana multidimensionale Su Capitolo 6: Probabilità processi e statistica Sezione 6.7: Appendici 

6.6 Elementi di statistica

La statistica si occupa dell’utilizzo numerico di osservazioni e misure, il cui esito viene pensato come il risultato di un fenomeno aleatorio, al fine ad es. di prendere delle decisioni, o inferire[300]  [300] Vedi ad es. http://it.wikipedia.org/wiki/Inferenza_statistica dai dati la plausibilità di ipotesi. Ma le cose si rendono interessanti per il fatto che
Ad esempio, la d.d.p. che produce i valori di osservazione può essere nota, a meno del valore dei suoi parametri media e varianza: compito della statistica è allora anche quello di stimare grandezze altrimenti ignote. Senza alcuna ambizione di affrontare compiutamente l’argomento, limitiamoci qui ad esporre brevemente questi particolari campi applicativi.

6.6.1 Test di verifica di ipotesi

Si tratta di stabilire se sia da ritenere valida una ipotesi H1, oppure se al contrario non si debba ritenere valida l’ipotesi alternativa H0 (o ipotesi nulla); la decisione viene presa confrontando un grandezza di osservazione x (che incarna una realizzazione di v.a. X) con un valore-soglia (di decisione) λ: se x > λ si decide per H1, mentre viceversa se x < λ si decide per H0. Allo stesso tempo, si desiderano valutare i margini probabilistici che indicano il grado di affidabilità della decisione.[301]  [301] Un modello del genere si applica tanto al caso di detezione di un bersaglio radar, che può essere presente o meno, quanto ai casi di una diagnosi medica a partire dai risultati degli esami clinici, a quello di attuare o meno un investimento finanziario a partire dall’andamento delle borse, a quello se prendere o meno l’ombrello prima di uscire di casa a partire dallo scrutare il cielo...
figure f5.31-rb.png
Sviluppiamo il ragionamento basandoci sui risultati dell’analisi svolta al § 14.4.2 e riassunti dalla figura a lato, che illustra come nei due casi H0 ed H1 la v.a. x presenti due diverse d.d.p. condizionate p(x ⁄ H0) e p(x ⁄ H1). Sempre in figura sono indicate le aree di valore Pd e Pp = 1 − Pd rispettivamente pari alla probabilità (di detezione) che x superi la soglia λ nel caso in cui sia vera H1, e (di perdita) che non la superi. La Pfa è invece detta di prob\SpecialChar endofsentence di falso allarme in quanto rappresenta la prob. che x > λ nel caso in cui sia vera H0, ovvero di decidere per H1 quando è vera H0, evento detto anche errore di primo tipo o livello di significatività del test, e indicata con α. La prob. di detezione Pd è invece detta potenza del test ed indicata come 1 − β, dove β evidentemente è la probabilità di perdita Pp o errore di secondo tipo.
Conoscendo la d.d.p. p(x ⁄ H0) della grandezza di osservazione quando è vera H0, si pone la soglia λ ad un valore tale che Pr(x > λ ⁄ H0) = λp(x ⁄ H0)dx = α, tale cioè da rendere Pfa = α, in genere posto pari a 0.05 (ovvero il 5%). Qualora l’osservazione di  > λ faccia decidere per H1, spesso al risultato si aggiunge anche la probabilità p(x ⁄ H0)dx detta p-value[302]  [302] Vedi ad es. http://en.wikipedia.org/wiki/P-value, che descrive quanto sia poco probabile osservare un valore di x che si discosti ancor più da H0 di quanto non sia avvenuto per la “nostra” osservazione , e che perciò indica meglio di α la significatività del test, ovvero la discrepanza tra i dati osservati e l’ipotesi nulla H0. Naturalmente, per tutte le possibili osservazioni x > λ risulta un p-value  < α.

6.6.2 Funzione di verosimiglianza

Viene definita a partire da una probabilità condizionata, qualora nella stessa espressione siano invertiti i ruoli di evento condizionato e condizionante, nel senso che ora illustriamo. Rimanendo nel campo della verifica di ipotesi, il valore assunto dalle d.d.p. condizionate pX( ⁄ H0) e pX( ⁄ H1) qualora valutate in x =  (l’osservazione) può essere interpretato come la verosimiglianza di H0 ed H1 una volta noto che x = , ribaltando il ruolo delle ipotesi da quello di evento condizionante a quello di variabile indipendente. Ma attenzione, una verosimiglianza non è una probabilità, in quanto pX( ⁄ H0) + pX( ⁄ H1) ≠ 1 ! La funzione di verosimiglianza (o likelihood) è spesso indicata con la lettera L, in modo da poter scrivere L(H0, 1 ⁄ ) = pX( ⁄ H0, 1).

6.6.2.1 Decisione di massima verosimiglianza

Riprendendo il tema della verifica di ipotesi §  6.6.1, osserviamo che qualora la soglia di decisione λ non sia assegnata in base al livello di significatività Pfa = α desiderato, ma in corrispondenza della intersezione tra pX(x ⁄ H0) e pX(x ⁄ H1) come mostrato alla figura che segue,
figure f5.31.png
la decisione stessa è detta di massima verosimiglianza, dato che sceglie l’ipotesi Hi per la quale la funzione di verosimiglianza L(Hi ⁄ ) è massima. Notiamo che un tale criterio di decisione comporta Pp = Pfa solo nel caso in cui la d.d.p. sia la stessa per entrambe le ipotesi (vedi ad es. § 15.4.2); inoltre, anche in questo caso alla decisione effettuata si può allegare il relativo p-value. A volte, anziché confrontare tra di loro i valori di L, se ne esegue il rapporto, decidendo quindi in base all’esito maggiore o minore di uno (vedi ad es. pag. 1).

6.6.2.2 Curva operativa

Per quanto fino ad ora esposto, all’aumentare della soglia λ si assiste ad un aumento della Pfa a cui corrisponde una diminuzione della Pd, da cui la possibilità di tracciare una curva parametrica sui cui assi sono riportati entrambi i valori, al variare appunto di λ. Tale rappresentazione fu ideata ai fini della detezione radar e per tale motivo denominata roc o Receiver Operating Characteristic, e da allora viene adottata anche in altri ambiti come ad esempio quelli clinici, psicologici, o meteorologici. In tali contesti la prob. di detezione Pd viene anche indicata come specificità del test o percentuale di veri positivi, mentre la prob. di perdita Pp = 1 − Pfa è detta sensibilità o % di falsi positivi.
figure f5.311.png
Ovviamente l’andamento esatto della curva, esemplificato a lato, dipende dalla conoscenza delle due probabilità condizionate pX(x ⁄ H0) e pX(x ⁄ H1). Il classificatore che si basa sulla osservazione x viene quindi giudicato come migliore o peggiore rispetto ad un secondo, basato su di un altro parametro y in base al computo dell’area compresa tra la curva e l’asse delle ascisse (auc, Area Under the Curve), pari[303]  [303] Vedi ad es. https://en.wikipedia.org/wiki/Receiver_operating_characteristic alla probabilità che per un evento (a caso) della classe H1 si osservi un valore x maggiore di quello per un evento (a caso) appartenente alla classe H0.

6.6.3 Stima di parametro

Nel caso in cui si conosca il tipo di v.a. che caratterizza il fenomeno aleatorio in esame, ma non i suoi parametri (es. media mx e varianza σ2x), una sequenza di valori osservati x = (x1, x2, ⋯xN) può essere usata per effettuarne la stima, ovvero la valutazione sperimentale (ma imprecisa) del valore di x e σ̂2x. Indicando con θ il vero (incognito) valore di un parametro da stimare, il suo stimatore θ̂(x) dipende dalla variabilità di x e quindi è esso stesso una v.a., che può essere caratterizzata nei termini della relativa d.d.p. pΘ̂(θ̂), nonché di media mθ̂ e varianza σ2θ̂.
Anche se per uno specifico vettore di osservazione x lo stimatore commette un errore
ε(x) = θ̂(x) − θ
desidereremmo che il valore atteso di tale errore fosse nullo, ovvero che
mθ̂ = E{θ̂(x)} = θ
Qualora ciò si verifichi lo stimatore è detto non polarizzato[304]  [304] Dall’inglese unbiased, ove con bias si intende una forma di errore sistematico. Diversi testi usano il termine non distorto, che qui non è adottato onde evitare confusioni concettuali con il cap. 8., o centrato. Per quanto riguarda la varianza della stima
σ2θ̂ = E{(θ̂(x) − mθ̂)2}
vorremmo che fosse la più piccola possibile. Uno stimatore non polarizzato e che consegue la minima varianza tra i possibili stimatori è detto efficiente ed eguaglia il limite di Cramér-Rao[305]  [305] Vedi ad es. http://it.wikipedia.org/wiki/Disuguaglianza_di_Cramér-Rao; viene inoltre detto consistente se limN → ∞ Pr{θ̂(x) = θ} = 1, ovvero se all’aumentare della dimensione N del campione, sicuramente θ̂(x) → θ. Infine, uno stimatore consistente è anche asintoticamente normale se all’aumentare di N la sua d.d.p. tende ad una gaussiana[306]  [306] Ad esempio, il teorema centrale del limite (§ 6.7.2) fa si che la media campionaria (10.138) ^mx = 1 N Ni = 1xi, in quanto somma di v.a. indipendenti e identicamente distribuite, tenda ad una v.a. gaussiana per N → ∞. con valor medio θ, e varianza σ2θ̂ che si riduce come 1N.
Prendiamo dunque in esame una tra le diverse tecniche[307]  [307] Vedi ad es. http://en.wikipedia.org/wiki/Point_estimation che consentono di arrivare ad un procedimento di stima.

6.6.3.1 Stima di massima verosimiglianza

In questo caso il valore stimato è quello che massimizza la funzione di verosimiglianza (§ 6.6.2) calcolata in corrispondenza ai dati campionari , ovvero ^θ = argmaxθ{L(θ ⁄ )}. Ad esempio, nel caso in cui i valori osservati x̌ = (x1, x2, ⋯xN) siano ottenuti da un fenomeno aleatorio caratterizzato da una d.d.p. gaussiana con media mx e varianza σ2x (incognite), e gli esperimenti siano statisticamente indipendenti, la funzione di verosimiglianza risulta[308]  [308] Vedi § 6.5.1 per l’espressione di una gaussiana multidimensionale.
L(mx, σ2x ⁄ x̌) = pX(x̌ ⁄ mx, σ2x) = Ni = 1 1 2πσ2x exp− 1 2 xi − mx σx 2
ma a questa espressione si preferisce il suo logaritmo naturale L = ln L, che essendo monotono non altera la massimizzazione cercata:
L(mx, σ2x|x̌) = ln L(mx, σ2x / x̌) = − N2 ln(2πσ2x) − 1 2 ni = 1xi − mx σx 2
Per trovare le stime x e σ̂2x di massima (log)verosimiglianza, si eguagliano a zero le derivate parziali di L
L mx  =  1 σ2x Ni = 1(xi − mx) = 0 L σ2x  =   −  N 2 1 σ2x  +  1 2σ4x Ni = 1(xi − mx)2 = 0
ottenendo gli stimatori (o statistiche) [309]  [309] Per quanto riguarda x, imponendo i(xi − x) = 0 si perviene facilmente al risultato, mentre per σ̂2x l’eguaglianza a zero di Lσ2x produce
12σ̂4x i(xi − x)2 = N 2 1 σ̂2x ovvero 1 σ̂2x i(xi − x)2 = N  
e dunque il risultato (10.138).
(10.138) x = 1 N Ni = 1xi media campionaria σ̂2x = 1 N Ni = 1(xi − x)2  varianza campionaria
di cui ora discutiamo uno alla volta.
Stima della media
La media campionaria x risulta non polarizzata[310]  [310] Infatti
E{x} = E1 N Ni = 1xi = 1 N Ni = 1E{xi} =  1 N N m x = mx 
e la sua varianza decresce[311]  [311] In questo caso riscriviamo x come x = Ni = 1xi N , consideriamo che la varianza di una somma di v.a. i.i.d. è la somma delle varianze (vedi § 7.5.2), e che σ2aX = a2σ2X: pertanto si ottiene σ2x = Ni = 1σ2x N2  =  σ2x N . con N, ovvero
(10.139) E{x} = mx;        σ2x= σ2x N
risulta pertanto essere uno stimatore consistente e asintoticamente normale. In particolare
Esercizio Si desideri stimare il valor medio x di una v.a. x di cui si conosce il valore della relativa varianza σ2x = 4; determinare la dimensione N del campione statistico affinché la varianza della stima sia pari a 0.1. Dalla seconda delle (10.139) risulta N = σ2xσ2x  =  4 0.1  = 40 campioni della v.a.
Stima della varianza
I calcoli per determinare il valore atteso mσ̂2x = E1 N Ni = 1(xi − x)2 della varianza campionaria σ̂2x passano prima per la dimostrazione[312]  [312] Occorre innanzitutto riscrivere xi − x come xi − mx + mx − x = (xi − mx) − (x − mx), in modo da ottenere (xi − x)2 = (xi − mx)2 − 2(xi − mx)(x − mx) + (x − mx)2. Eseguendo ora la sommatoria su i si ottiene
i(xi − x)2  =  i(xi − mx)2 − 2(x − mx)i(xi − mx) + i(x − mx)2  =  i(xi − mx)2 − 2N(x − mx)2 + N(x − mx)2 = i(xi − mx)2 − N(x − mx)2
in quanto i(xi − mx) = ixi − imx = Nx − Nmx = N(x − mx).
che i(xi − x)2 = i(xi − mx)2 − N(x − mx)2, in modo da ottenere
mσ̂2x  =  1 N Ni = 1E{(xi − mx)2} − N N E{(x − mx)2} =   =  1 N Nσ2x − σ2x N  = σ2x N − 1 N
dato che il primo termine corrisponde all’espressione della varianza di X, ed il secondo alla varianza di x, calcolata prima. Il risultato ottenuto indica come la varianza campionaria si riveli uno stimatore polarizzato. Per questo, la formula dello stimatore (di massima verosimiglianza) della varianza viene ordinariamente sostituita dall’espressione
(10.140) σ̂2x = 1 N − 1 Ni = 1(xi − x)2
attuando così la correzione di Bessel[313]  [313] Vedi ad es. https://it.wikipedia.org/wiki/Correzione_di_Bessel.

6.6.4 Stima di intervallo

L’esercizio precedente conferma la proprietà di consistenza per la media campionaria, ma mette anche in luce come per dimensioni N del campione finite, la sua accuratezza sarà necessariamente limitata. Allora, dato che la stima del parametro θ sarà comunque erronea, può invece avere interesse stimare entro quale intervallo (detto intervallo di confidenza) di valori (θ1, θ2) possa ricadere θ con sufficiente certezza, espressa quest’ultima dalla probabilità Pr{θ1 ≤ θ ≤ θ2} = 1 − α, detta livello di confidenza, mentre α è la probabilità di errore.
Intervallo per la media con varianza nota
Nel caso in cui lo stimatore θ̂ sia espresso dalla media campionaria θ̂ = x = 1 N Ni = 1xi a pag. 1 si è osservato che per N sufficientemente elevato θ̂ è una v.a. gaussiana[314]  [314] Indipendentemente alla natura di x con media mθ̂ = mx e deviazione standard σθ̂ =  σx N , come mostrato alla figura seguente;
figure f5.32.png
consideriamo quindi σx nota a priori.
Adottando il cambio di variabile z = θ̂ − mx σθ̂ ci riconduciamo a risultati ottenibili per una v.a. gaussiana normalizzata[315]  [315] Ossia a media nulla e varianza unitaria come a pag. 1, mentre la normalizzazione del § 6.2.4.1 prevede σ2 = 12., in modo che la condizione Pr{θ1 ≤ mx ≤ θ2} = 1 − α possa essere riscritta[316]  [316] Anche grazie a fatto che la gaussiana è simmetrica, dando luogo ad intervalli centrati rispetto a θ̂. come
(10.141) Pr − zα2 ≤ z = θ̂ − mx σθ̂  ≤ zα2 = 1 − α
in cui zα2 è il percentile[317]  [317] Il percentile η per una v.a. gaussiana normalizzata z è definito come il valore zη tale che Pr{z ≤ zη} = η e quindi corrisponde alla inversa zη = F− 1Z(η) della funzione di distribuzione della v.a. FZ(zη) = η−∞1 2π e− 1 2 z2dz = η. Alternativamente, è definito come 1 − Q{zη} = η (vedi pag. 1). Il termine percentile scaturisce dall’essere η ⋅ 100% pari alla percentuale delle volte che una determinazione della v.a. z risulta inferiore a zη. α2 per z, e rappresenta il valore che l’errore normalizzato di stima |θ̂ − mx| σθ̂ supera con probabilità α, vedi fig. 6.20-a). Una serie di riscritture[318]  [318]   − zα2 ≤ θ̂ − mx σθ̂  ≤ zα2  − zα2σθ̂ ≤ θ̂ − mx ≤ zα2σθ̂  − θ̂ − zα2σθ̂ ≤  − mx ≤  − θ̂ + zα2σθ̂ θ̂ − zα2σθ̂ ≤ mx ≤ θ̂ + zα2σθ̂ della (10.141) porta al risultato
(10.142)
Prx − zα2 σx N  < mx < x + zα2 σx N  = 1 − α
in cui a σθ̂ si è sostituito il suo valore σx N , che dipende dalla varianza della popolazione e dalla dimensione del campione. Il valore di zα2 relativo al livello di confidenza α si ottiene tramite apposite tabelle[319]  [319] https://it.wikipedia.org/wiki/Funzione_di_ripartizione_della_variabile_casuale_normale come quella di fig. 6.20-b).
Esempio Avendo deciso il livello di confidenza 1 − α desiderato, dalla tabella mostrata in fig. 6.20-b) si determina il corrispondente valore di zα2. Ad un valore normalizzato zα2 = 1 corrisponde un errore massimo di stima pari a σθ̂, che comporta un livello di confidenza 1 − α =  68.3%; aumentando il livello fino al 95% si ottiene un valore di percentile zα2 pari 1.96, mentre ad un livello del 99% corrisponde un percentile di 2.58, ossia un intervallo complessivo esteso per 2*2.58 = 5.16 volte la σθ̂.
a) figure f5.32-b.png
b)
1 − α zα2
0.383 0.5
0.683 1
0.90 1.64
0.95 1.96
0.99 2.58
0.999 3.29
Figure 6.20 Gaussiana normalizzata: a) - percentile; b) - livello di confidenza
Notiamo che per ridurre l’ampiezza dell’intervallo di confidenza dell’errore di stima non normalizzato |x − mx| esistono due vie. La prima consiste nell’accettare un minore livello di confidenza 1 − α, ma ciò equivale ad aumentare la prob. α che l’errore effettivo sia maggiore di zα2σθ̂ . La seconda via (se praticabile) è migliore e consiste nell’aumentare la dimensionalità N del campione statistico, sfruttando così la riduzione con legge 1 N della deviazione standard della media campionaria σθ̂ =  σx N .
Per approfondire il significato del risultato ottenuto alla (10.142) consideriamo che per ogni campione x di N elementi si ottiene una diversa stima x, a cui corrisponde un intervallo (θ1, θ2) centrato in x della stessa ampiezza ma ogni volta differente. Ciò significa che essendo per ogni campione x la probabilità che il valore vero della media mx cada all’interno di (θ1, θ2) pari ad 1 − α, esiste una probabilità α che un diverso campione x produca un intervallo (θ1, θ2) che NON contiene la vera media mx.
Esercizio  Si voglia stimare l’età media m degli utenti di una biblioteca civica. A questo scopo si intervista un campione casuale composto da N =  100 persone, da cui si ottiene una media campionaria pari ad  =  29 anni. Adottando un valore di deviazione standard per l’età pari a σ =  8 anni, valutare gli intervalli di confidenza per m, con un livello pari al 95% ed al 99%. Risposta Essendo N sufficientemente grande, assumiamo vera l’ipotesi di gaussianità per la v.a. e dunque applicabile la teoria esposta. Dunque il percentile zα2 nei due casi 1 − α =  95 e 99% vale rispettivamente z0.025 =  1.96 e z0.005 = 2.58, mentre la varianza della media campionaria risulta σ =  σ N  =  0.8 fornendo in definitiva z0.025 σx N  = 1.96 ⋅ 0.8 = 1.57 e z0.005 σx N  = 2.58 ⋅ 0.8 = 2.06 nei due casi; pertanto si ottiene
27.43  <  m  <  30.57      con confidenza 95% 26.94  <  m  <  31.06      con confidenza 99%
ovvero la fascia di età entro cui collocare la vera età media m, in base al campione a disposizione, al diminuire della probabilità che m sia in realtà esterno all’intervallo. Nel caso in cui il campione venga ridotto a sole N =  30 persone, ammettendo gli stessi valori di  =  29 anni e σ =  8 anni, dato che 30  =  5.48, ora risulta z0.025σ = 2.86 e z0.005σ = 3.77, a cui corrispondono intervalli (26.14 - 31.86) e (25.23 - 32.77) con confidenza 95 e 99% rispettivamente. Poniamo infine che un diverso campione sempre di 30 persone produca una stima  =  27 anni anziché 29. In tal caso l’intervallo di confidenza al 95% diviene (24.14 - 29.86).
Caso di varianza incognita
Qualora la varianza σx della v.a. x di cui vogliamo stimare la media mx non sia nota, ad essa viene sostituito il valore della varianza campionaria non polarizzata σ̂2x =  1 N − 1 Ni = 1(xi − x)2. Una prima conseguenza è che ora σ̂2x è anch’essa una v.a., ed il suo valore cambia per ogni diversa scelta del campione N, producendo intervalli di confidenza di estensione variabile. Essendo σ̂2x uno stimatore non polarizzato e consistente, per N sufficientemente elevato l’intervallo può ancora essere ottenuto come indicato dalla (10.142).
Accade inoltre che al diminuire di N la variabilità di σ̂2x causa (a parità di livello di confidenza) un aumento dell’estensione dell’intervallo, in quanto ora il cambio di variabile che porta ad una v.a. normalizzata[320]  [320] Ossia con media nulla e varianza unitaria. t = θ̂ − mx σθ̂ dà luogo ad una v.a. non più gaussiana bensì di Student[321]  [321] Vedi https://it.wikipedia.org/wiki/Distribuzione_t_di_Student. La v.a. t =  θ̂ − mx σθ̂ è definita come il rapporto di due v.a.: il numeratore θ̂ − mx si comporta come una gaussiana centrata in quanto la media di insieme è una somma di v.a. gaussiane, mentre il denominatore σθ̂ = σ̂2xN dipende da σ̂2x che è una somma di quadrati di gaussiane, e dunque assume d.d.p. chi quadro o χ2, vedi § 6.6.5. con N − 1 gradi di libertà, rappresentata in fig. 6.21. Per N → ∞ la v.a. t(N) di Student tende ad una gaussiana, mentre per N più piccoli la sua velocità di azzeramento è ridotta, o come si dice presenta code più pesanti. Ciò comporta che il percentile da utilizzare nella (10.142) non è più lo zα2 relativo alla gaussiana normalizzata, bensì il valore t(N − 1)α2 relativo alla nuova d.d.p., e tabulato in fig. 6.21-b).
a) - figure Student_t_ddp.png
   
b) -
N − 1 1 2 5 10 20
1 − α t(N − 1)α2
0.90 6.31 2.92 2.01 1.81 1.75
0.95 12.71 4.03 2.57 2.23 2.09
0.99 63.66 9.93 4.03 3.17 2.86
0.999 636.6 31.6 6.87 4.59 3.86
Figure 6.21 Densità di probabilità di Student al variare dei gradi di libertà m e relativi percentili
Come è possibile notare confrontando con la tabella in fig. fig. 6.20-b), a parità di livello di confidenza 1 − α i valori di t(N − 1)α2 sono sempre maggiori di quelli per zα2, tanto più per bassi N, in quanto in tal caso la d.d.p. di Student è più bassa e larga, e per catturare la stessa area α occorre allontanarsi di più dal valor medio. Nel caso di σ2x incognita l’espressione dell’intervallo di confidenza risulta pertanto
(10.143)
Prx− t(N − 1)α2σ̂x N   <  mx  <  x+ t(N − 1)α2σ̂x N  = 1 − α
in cui i percentili tα2 di Student sono ricavati dalla tabella precedente[322]  [322] Oppure dalla tabella presente nella pagina Wikipedia citata prima., e σ̂2x è la varianza campionaria non polarizzata.
Esempio Torniamo al problema della stima dell’età media dei frequentatori di una biblioteca, e svolgiamo le interviste su di un campione di soli 6 individui. I nuovi percentili per un livello di confidenza 1 − α pari al 95% e 99% sono rispettivamente tα2 =  2.57 e 4.03. Pertanto, ponendo di aver anche stavolta stimato una media campionaria pari ad  =  29 anni ed una deviazione standard di σ̂ =  8 anni, i nuovi intervalli di confidenza per l’età media risultano (20.6 - 37.39) e (15.83 - 42.16).
Dimensione del campione
Il risultato (10.143) è valido, anche per per valori di N piccoli, purché la v.a. di osservazione x sia essa stessa gaussiana, dato che in tal caso la media campionaria x =  1 N Ni = 1xi valuta la somma di gaussiane, anch’essa gaussiana (vedi § 6.5.2); viceversa (pX(x) qualsiasi) è valida solo per N elevato, perché in tal caso la gaussianità di x è garantita dal teorema centrale del limite. Altrimenti (N piccolo e x non gaussiana), l’intervallo di confidenza può essere determinato a seguito di una analisi specifica per le diverse d.d.p., che in alcuni casi [323]  [323] Ad esempio, per la d.d.p. esponenziale (§ 22.2.1) e per quella poissoniana (§ 22.2), vedi Papoulis. permettono soluzioni agevoli, mentre un caso di particolare rilevanza è trattato al § seguente.
Abbiamo altresì osservato come all’aumento di N corrisponda una riduzione dell’intervallo di confidenza: nel caso di v.a. x gaussiana trattato finora, qualora si desideri mantenere l’ampiezza dell’intervallo d = θ2 − θ1 inferiore ad un valore dM, dovrà risultare 2 ⋅ zα2 σx N  ≤ dM, e dunque N ≥ 4 ⋅ σ2x(zα2 dM )2. Qualora la σx non sia nota, cautelativamente si usa al suo posto un multiplo fino a 4-6 volte la variabilità osservata nel campione.
Esempio Una precedente analisi ci informa che la durata x delle telefonate in un call center è approssimativamente una v.a. gaussiana con media mx incognita e deviazione standard σx =  4 minuti; si calcoli la dimensione minima N del campione necessaria a stimare la durata media mx entro una precisione dM pari a due minuti[324]  [324] Come dire, minuto più, minuto meno... ;-), con confidenza del 95%. Si ottiene allora N ≥ 4 ⋅ 16(1.96 2 )2 = 61.46, dunque N ≥ 62.

6.6.4.1 Intervallo di confidenza per una frazione

Consideriamo ora una v.a. discreta booleana (o dicotomica) x che assume il valore 1 o 0 con probabilità p e q = 1 − p rispettivamente, e che può rappresentare un evento di errore, una scelta politica, o una qualunque domanda di un sondaggio, ovvero p rappresenta la frazione di una certa caratteristica rispetto al totale dei casi. Dato che il valore medio risulta pari a mx = E{x} = 1i = 0pixi = q ⋅ 0 + p ⋅ 1 = p, la media campionaria x =  1 N Ni = 1xi rappresenta una stimatore di p. Invocando nuovamente una dimensione del campione N sufficientemente elevata, x =  è assimilabile ad una v.a. gaussiana con media p e varianza[325]  [325] Infatti, calcoliamo prima E{x2} = p ⋅ 12 + (1 − p) ⋅ 02 = p e dunque troviamo σ2x = E{x2} − (E{x})2 = p − p2 = p(1 − p); inoltre, tuttora risulta σ2 =  σ2x N . σ2 =  p(1 − p) N , che quindi dipende dalla stessa quantità da stimare; utilizziamo dunque al suo posto σ2 =  (1 − ) N . Ci troviamo pertanto nelle condizioni di poter applicare il risultato (10.142) con l’accortezza di sostituire a σx N il termine (1 − )N , dando luogo ad un intervallo di confidenza espresso come (θ1, θ2) = ±zα2(1 − )N in cui zα2 è il quantile per la gaussiana normalizzata, con il livello di confidenza 1 − α desiderato. Osserviamo ora che, a parità di N,  l’estensione dell’intervallo risulta maggiore per valori di p attorno allo 0.5, e si riduce fino ad annullarsi per p → 0 e p → 1.
Esempio A seguito di una campagna pubblicitaria viene svolto un sondaggio mediante N = 200 interviste chiedendo se il prodotto oggetto della campagna viene ricordato. 85 di queste rispondono affermativamente, determinando una media campionaria pari a  = 85200 = 0.425, affetta dalla varianza σ2 = (1 − )N  = 5 ⋅ 0.575200  = 0.035. L’intervallo di confidenza al 95% corrisponde pertanto a
(θ1, θ2) = ±zα2(1 − )N  = 0.425 ± 1.96 ⋅ 0.035 = 0.425 ± 0.0686
ovvero dal 36 al 49%, ossia uno spread di 13 punti. Se invece le risposte affermative fossero state solo 15, avremo ottenuto  = 15200 = 0.075 e dunque σ2 = 5 ⋅ 0.925200  = 0.019, fornendo un intervallo p = 0.075±1.96 ⋅ 0.019 = 0.075±0.036 ovvero dal 3.9 all’11.1%, cioè uno spread di 7.2 punti.
Dimensione campionaria
Abbiamo osservato come la variabilità σ = p(1 − p)N per la stima di frazione dipenda, oltre che da N, anche dallo stesso parametro p oggetto di stima. Ci si pone allora nel caso peggiore, ovvero si suppone p = 0.5 a cui corrisponde p(1 − p) = 0.25 e una massima deviazione standard σ =  0.5 N , da cui (θ1, θ2) = ±zα20.5 N : pertanto il valore N minimo che permette di ottenere un intervallo di estensione dM = 2zα2 0.5 N al livello 1 − α risulta in prima approssimazione pari a N ≥  zα2 dM 2.
Esempio Si intende svolgere un sondaggio per stimare la proporzione degli elettori che voteranno per un certo partito politico, desiderando un intervallo di confidenza che al livello 1 − α = 0.95 non superi l’ampiezza di 2 punti percentuali (la cosiddetta forchetta), ovvero dM = 0.02. Avremo allora bisogno di un campione composto da almeno N ≥  zα2 dM 2 = 1.96 0.02 2 = 9604 soggetti.

6.6.5 Test chi quadro e verifica di distribuzione

Alcuni degli aspetti discussi fino ad ora pongono come condizione quella di avere a che fare con grandezze gaussiane. La tecnica che discutiamo appresso è spesso utilizzata per verificare che la frequenza dei valori osservati rispecchi quella prevista da una distribuzione di probabilità prefissata. A tale scopo, consideriamo una v.a. x di cui sono state collezionate N determinazioni, mediante le quali si costruisce un istogramma (pag. 1) suddividendo il campo di variabilità di x in m intervalli Ii, ed indichiamo con ki il numero di realizzazioni di x che ricadono entro l’intervallo Ii, i = 1, 2, ⋯, m, risultando mi = 1ki = N.
Il test tenta di verificare l’ipotesi H0 che la v.a. x abbia effettivamente origine dalla d.d.p. prevista, nel cui caso i valori ki dovrebbero essere molto prossimi a Npi, in cui pi = IipX(x)dx è la probabilità che la d.d.p. assegna all’evento xϵIi. Pertanto se l’ipotesi H0 è vera il valore della nuova v.a.
(10.144) χ2 = mi = 1 (ki − Npi)2Npi
dovrebbe essere vicino allo zero, mentre valori più elevati (di un valore di soglia λ) suggeriscono di rigettare l’ipotesi. Se N è sufficientemente elevato[326]  [326] Effettivamente è richiesto anche un numero di osservazioni ki maggiori di 5-10 per qualunque i; se ciò non fosse vero, è possibile ridurre il numero m degli intervalli Ii, raggruppando tra loro quelli meno popolati. i valori ki sono grandezze gaussiane con valore atteso mki = Npi e varianza σ2ki(Npi)2([327]  [327] In realtà essendo ki il numero di casi favorevoli xϵIi rispetto al totale N, esso ha una d.d.p. binomiale (§ 22.1) per la quale mki = Npi e varianza σ2ki = Npi(1 − pi). Al crescere di N, e dunque degli intervalli m, i termini 1 − pi divengono circa unitari, e la binomiale viene approssimata da una poissoniana (§ 22.2), per la quale appunto σ2 = Npi. Tale approssimazione è descritta come test di Pearson, vedi https://it.wikipedia.org/wiki/Test_chi_quadrato_di_Pearson), dunque la (10.144) rappresenta la somma dei quadrati di v.a. gaussiane normalizzate, e χ2 risulta essere una v.a. detta chi quadro ad m − 1 gradi di libertà[328]  [328] Vedi ad es. https://it.wikipedia.org/wiki/Distribuzione_chi_quadrato. I gradi di libertà sono m − 1 anziché m in virtù del vincolo ipi = 1., la cui d.d.p. assume l’andamento riportato in figura 6.22.
figure Chi-square_distributionPDF.png
   
m 1 2 5 10 20
1 − α χ2α(m)
0.9 0.016 0.211 1.61 4.86 12.44
0.95 0.004 0.103 1.15 3.94 10.85
0.99 0 0.02 0.554 2.56 8.26
0.995 0 0.01 0.412 2.16 7.43
Figure 6.22 Densità di probabilità χ2 al variare dei gradi di libertà m e relativi percentili
L’ipotesi sulla d.d.p. di x viene dunque accettata con un intervallo di confidenza 1 − α nel caso in cui il valore calcolato per χ2 risulti inferiore ad una soglia stabilita in base alle tabelle[329]  [329] Vedi ad es.
https://it.wikipedia.org/wiki/Distribuzione_chi_quadrato#Tabella_dei_valori_critici
del percentile χ2α(m − 1), che corrisponde ad una probabilità di errore (decidere H0 quando invece non è vera) pari ad α. Notiamo che, a differenza dei casi precedenti, il percentile si riferisce all’intera area α anziché alla sua metà, in quanto l’intervallo di confidenza è comunque delimitato a sinistra dallo zero.
Esempio Una moneta viene lanciata 200 volte, producendo 115 volte testa e 85 croce. Si può ritenere la moneta non truccata, con un livello di significatività del 95% ? Evidentemente in questo caso m = 2 e p1 = p2 = 0.5, cosicché il calcolo della (10.144) porta a χ2 = (115 − 100)2100 + (85 − 100)2 100  = 4.5. Per m − 1 = 1 grado di libertà la tabella dei percentili fornisce χ20.05(1) = 0.004, pertanto dato che χ2 = 4.5 > 0.004 = χ20.05(1) il test rigetta l’ipotesi, che può essere ammissibile solo accettando una probabilità di errore α maggiore del 95%, vedi tabella di cui all’ultima nota.
Come ultimo argomento di questa sezione, vediamo come poter ridurre il rumore sovrapposto ad un segnale ripetuto.

6.6.6 Stima di forma d’onda

Il problema è quello di voler stimare, anziché un singolo valore (o parametro), una intera forma d’onda, ovvero l’andamento di un segnale limitato nel tempo, di cui si possono disporre di più repliche, ognuna affetta da una fonte di rumore additivo (§ 8.4), oppure qualora la realizzazione del segnale possa essere influenzata da fattori diversi da quelli che si intendono studiare. Un esempio tipico di tale esigenza si ha in campo biomedico, in cui deboli segnali elettrici (dell’ordine dei μV) di natura biologica sono captati mediante elettrodi disposti sul corpo, alla ricerca ad es. di particolarità in un segnale elettrocardiografico semi-periodico[330]  [330] https://it.wikipedia.org/wiki/Elettrocardiogramma, che per sua natura presenta fisiologiche variazioni ed oscillazioni, o nel caso dei potenziali evocati[331]  [331] https://it.wikipedia.org/wiki/Potenziali_evocati che si producono nelle vie nervose a seguito di stimolazione.
Allo scopo di ridurre per quanto possibile la variabilità dovuta alle cause di disturbo che potrebbero impedire il riscontro di caratteristiche del segnale s(t) di significato diagnostico, le N repliche del segnale osservato xi(t) = s(t) + ni(t) con i = 1, 2, ⋯N in cui ni(t) rappresenta il disturbo ogni volta diverso, vengono mediate tra loro producendo
(t) = 1N Ni = 1[s(t) + ni(t)] = s(t) + 1 N Ni = 1ni(t)
Osserviamo subito che se il processo n(t) è a media nulla allora il risultato è non polarizzato, in quanto E{(t)} = s(t) + 1N Ni = 1E{ni(t)} = s(t). Per quanto riguarda la varianza di (t), aggiungendo l’ipotesi di incorrelazione (vedi § 7.1.2) tra le possibili coppie (i, j) di realizzazioni del processo n(t) otteniamo un risultato del tutto simile a quello della media campionaria eq. (10.139), ovvero
σ2(t)  = E{((t) − s(t))2} = E1 N Ni = 1ni(t)2  =   = 1 N2 Ni = 1Nj = 1E{ni(t)nj(t)} =  1 N2 Ni = 1E{n2i(t)} =  1 N2 N σ2n = σ2n N
e quindi anche in questo caso la varianza di rumore risulta ridotta grazie all’operazione di media.
Assumendo ora che le realizzazioni del disturbo n(t) appartengano ad un processo gaussiano bianco con densità di potenza Pn(f) = N02 (vedi § 7.2.4), osserviamo che la corrispondente varianza σ2n risulta dipendere dalla banda W del filtro passa basso che precede l’amplificatore di ingresso allo strumento di acquisizione, ovvero σ2n = N0W (vedi § 15.4.1). Essendo i segnali di interesse limitati in banda a non più di  ~ 60 Hz, viene tipicamente usato un filtro con frequenza di taglio pari a 100 Hz. Tale filtro diviene però fonte di correlazione tra realizzazioni di rumore[332]  [332] Al § 7.4 si mostra come l’autocorrelazione Rnn(τ) di un processo n(t) che attraversa un filtro divenga pari a Rνν(τ) = Rnn(τ) * Rhh(τ), in cui Rhh(τ) è l’autocorrelazione della risposta impulsiva del filtro. tra loro vicine, per cui le osservazioni xi(t) = s(t) + ni(t) devono essere effettuate facendo intercorrere tra una acquisizione e la seguente un intervallo almeno pari al doppio della durata della h(t).
Per rimanere nel campo biomedico, difficilmente il segnale s(t) è sempre lo stesso per tutte le acquisizioni xi(t), bensì presenta una variabilità intrinseca legata sia alla durata dell’esame sia ad alee di origine biologica, come ad es. la latenza variabile per le risposte dei potenziali evocati: in tal caso sono necessarie ulteriori tecniche, la cui discussione trascende dagli scopi di questo testo.
 Sezione 6.5: Gaussiana multidimensionale Su Capitolo 6: Probabilità processi e statistica Sezione 6.7: Appendici