6.6 Elementi di statistica
La statistica si occupa dell’utilizzo numerico di osservazioni e misure, il cui esito viene pensato come il risultato di un fenomeno aleatorio, al fine ad es. di prendere delle decisioni, o inferire dai dati la plausibilità di ipotesi. Ma le cose si rendono interessanti per il fatto che
- potendo ripetere la misura e/o l’osservazione più volte, è possibile ridurre il margine di errore, e migliorare l’affidabilità della decisione;
- non è detto che la d.d.p. del fenomeno in esame sia completamente definita.
Ad esempio, la d.d.p. che produce i valori di osservazione può essere nota, a meno del valore dei suoi parametri media e varianza: compito della statistica è allora anche quello di stimare grandezze altrimenti ignote. Senza alcuna ambizione di affrontare compiutamente l’argomento, limitiamoci qui ad esporre brevemente questi particolari campi applicativi.
6.6.1 Test di verifica di ipotesi
Si tratta di stabilire se sia da ritenere valida una ipotesi H1, oppure se al contrario non si debba ritenere valida l’ipotesi alternativa H0 (o ipotesi nulla); la decisione viene presa confrontando un grandezza di osservazione x (che incarna una realizzazione di v.a. X) con un valore-soglia (di decisione) λ: se x > λ si decide per H1, mentre viceversa se x < λ si decide per H0. Allo stesso tempo, si desiderano valutare i margini probabilistici che indicano il grado di affidabilità della decisione.
Sviluppiamo il ragionamento basandoci sui risultati dell’analisi svolta al §
14.4.2 e riassunti dalla figura a lato, che illustra come nei due casi
H0 ed
H1 la v.a.
x presenti due diverse d.d.p. condizionate
p(x ⁄ H0) e
p(x ⁄ H1). Sempre in figura sono indicate le aree di valore
Pd e
Pp = 1 − Pd rispettivamente pari alla probabilità (di
detezione) che
x superi la soglia
λ nel caso in cui sia vera
H1, e (di
perdita) che non la superi. La
Pfa è invece detta di
prob\SpecialChar endofsentence di
falso allarme in quanto rappresenta la prob. che
x > λ nel caso in cui sia vera
H0, ovvero di decidere per
H1 quando è vera
H0, evento detto anche
errore di primo tipo o
livello di significatività del test, e indicata con
α. La prob. di
detezione Pd è invece detta
potenza del test ed indicata come
1 − β, dove
β evidentemente è la probabilità
di perdita Pp o
errore di secondo tipo.
Conoscendo la d.d.p.
p(x ⁄ H0) della grandezza di osservazione quando è vera
H0, si pone la soglia
λ ad un valore tale che
Pr(x > λ ⁄ H0) = ∫∞λp(x ⁄ H0)dx = α, tale cioè da rendere
Pfa = α, in genere posto pari a 0.05 (ovvero il 5%). Qualora l’osservazione di
x̌ > λ faccia decidere per
H1, spesso al risultato si aggiunge anche la probabilità
∫∞x̌p(x ⁄ H0)dx detta
p-value, che descrive quanto sia
poco probabile osservare un valore di
x che si discosti ancor più da
H0 di quanto non sia avvenuto per la “nostra” osservazione
x̌, e che perciò indica meglio di
α la significatività del test, ovvero la
discrepanza tra i dati osservati e l’ipotesi nulla
H0. Naturalmente, per tutte le possibili osservazioni
x > λ risulta un
p-value < α.
6.6.2 Funzione di verosimiglianza
Viene definita a partire da una probabilità condizionata
, qualora nella stessa espressione siano
invertiti i ruoli di evento condizionato e condizionante, nel senso che ora illustriamo. Rimanendo nel campo della verifica di ipotesi, il valore assunto dalle d.d.p. condizionate
pX(x̌ ⁄ H0) e
pX(x̌ ⁄ H1) qualora valutate in
x = x̌ (l’osservazione) può essere interpretato come la
verosimiglianza di
H0 ed
H1 una volta noto che
x = x̌, ribaltando il ruolo delle ipotesi da quello di evento condizionante a quello di variabile indipendente. Ma attenzione, una verosimiglianza
non è una probabilità, in quanto
pX(x̌ ⁄ H0) + pX(x̌ ⁄ H1) ≠ 1 ! La funzione di verosimiglianza (o
likelihood) è spesso indicata con la lettera
L, in modo da poter scrivere
L(H0, 1 ⁄ x̌) = pX(x̌ ⁄ H0, 1).
6.6.2.1 Decisione di massima verosimiglianza
Riprendendo il tema della verifica di ipotesi §
6.6.1, osserviamo che qualora la soglia di decisione
λ non sia assegnata in base al livello di significatività
Pfa = α desiderato, ma in corrispondenza della intersezione tra
pX(x ⁄ H0) e
pX(x ⁄ H1) come mostrato alla figura che segue,
la decisione stessa è detta di
massima verosimiglianza, dato che sceglie l’ipotesi
Hi per la quale la funzione di verosimiglianza
L(Hi ⁄ x̌) è massima. Notiamo che un tale criterio di decisione comporta
Pp = Pfa solo nel caso in cui la d.d.p. sia la stessa per entrambe le ipotesi (vedi ad es. §
15.4.2); inoltre, anche in questo caso alla decisione effettuata si può
allegare il relativo
p-value. A volte, anziché confrontare tra di loro i valori di
L, se ne esegue
il rapporto, decidendo quindi in base all’esito maggiore o minore di uno (vedi ad es. pag.
1).
6.6.2.2 Curva operativa
Per quanto fino ad ora esposto, all’aumentare della soglia λ si assiste ad un aumento della Pfa a cui corrisponde una diminuzione della Pd, da cui la possibilità di tracciare una curva parametrica sui cui assi sono riportati entrambi i valori, al variare appunto di λ. Tale rappresentazione fu ideata ai fini della detezione radar e per tale motivo denominata roc o Receiver Operating Characteristic, e da allora viene adottata anche in altri ambiti come ad esempio quelli clinici, psicologici, o meteorologici. In tali contesti la prob. di detezione Pd viene anche indicata come specificità del test o percentuale di veri positivi, mentre la prob. di perdita Pp = 1 − Pfa è detta sensibilità o % di falsi positivi.
Ovviamente l’andamento esatto della curva, esemplificato a lato, dipende dalla conoscenza delle due probabilità condizionate
pX(x ⁄ H0) e
pX(x ⁄ H1). Il classificatore che si basa sulla osservazione
x viene quindi giudicato come
migliore o
peggiore rispetto ad un secondo, basato su di un altro parametro
y in base al computo dell’area compresa tra la curva e l’asse delle ascisse (
auc,
Area Under the Curve), pari alla probabilità che per un evento (a caso) della classe
H1 si osservi un valore
x maggiore di quello per un evento (a caso) appartenente alla classe
H0.
6.6.3 Stima di parametro
Nel caso in cui si conosca il tipo di v.a. che caratterizza il fenomeno aleatorio in esame, ma non i suoi parametri (es. media mx e varianza σ2x), una sequenza di valori osservati x = (x1, x2, ⋯xN) può essere usata per effettuarne la stima, ovvero la valutazione sperimentale (ma imprecisa) del valore di m̂x e σ̂2x. Indicando con θ il vero (incognito) valore di un parametro da stimare, il suo stimatore θ̂(x) dipende dalla variabilità di x e quindi è esso stesso una v.a., che può essere caratterizzata nei termini della relativa d.d.p. pΘ̂(θ̂), nonché di media mθ̂ e varianza σ2θ̂.
Anche se per uno specifico vettore di osservazione
x lo stimatore commette un errore
ε(x) = θ̂(x) − θ
desidereremmo che il valore atteso di tale errore fosse nullo, ovvero che
mθ̂ = E{θ̂(x)} = θ
Qualora ciò si verifichi lo stimatore è detto
non polarizzato, o
centrato. Per quanto riguarda la varianza della stima
σ2θ̂ = E{(θ̂(x) − mθ̂)2}
vorremmo che fosse la più piccola possibile. Uno stimatore non polarizzato e che consegue la minima varianza tra i possibili stimatori è detto
efficiente ed eguaglia il limite di Cramér-Rao; viene inoltre detto
consistente se
limN → ∞ Pr{θ̂(x) = θ} = 1, ovvero se all’aumentare della dimensione
N del campione,
sicuramente θ̂(x) → θ. Infine, uno stimatore consistente è anche
asintoticamente normale se all’aumentare di
N la sua d.d.p. tende ad una gaussiana con valor medio
θ, e varianza
σ2θ̂ che si riduce come
1⁄N.
Prendiamo dunque in esame una tra le diverse tecniche che consentono di arrivare ad un procedimento di stima.
6.6.3.1 Stima di massima verosimiglianza
In questo caso il valore stimato è quello che massimizza la funzione di verosimiglianza (§
6.6.2) calcolata in corrispondenza ai dati campionari
x̌, ovvero
^θ = argmaxθ{L(θ ⁄ x̌)}. Ad esempio, nel caso in cui i valori osservati
x̌ = (x1, x2, ⋯xN) siano ottenuti da un fenomeno aleatorio caratterizzato da una d.d.p. gaussiana con media
mx e varianza
σ2x (incognite), e gli esperimenti siano statisticamente indipendenti, la funzione di verosimiglianza risulta
L(mx, σ2x ⁄ x̌) = pX(x̌ ⁄ mx, σ2x) = N∏i = 1 1 √2πσ2x exp⎧⎩− 1 2 ⎛⎝ xi − mx σx ⎞⎠2⎫⎭
ma a questa espressione si preferisce il suo logaritmo naturale
L = ln L, che essendo
monotono non altera la massimizzazione cercata:
L(mx, σ2x|x̌) = ln L(mx, σ2x / x̌) = − N2 ln(2πσ2x) − 1 2 n⎲⎳i = 1⎛⎝xi − mx σx ⎞⎠2
Per trovare le stime
m̂x e
σ̂2x di massima (log)verosimiglianza, si eguagliano a zero le derivate parziali di
L
∂L ∂mx = 1 σ2x N⎲⎳i = 1(xi − mx) = 0 ∂L ∂σ2x = − N 2 1 σ2x + 1 2σ4x N⎲⎳i = 1(xi − mx)2 = 0
ottenendo gli stimatori (o
statistiche)
di cui ora discutiamo uno alla volta.
La media campionaria
m̂x risulta
non polarizzata e la sua varianza decresce con
N, ovvero
risulta pertanto essere uno stimatore
consistente e asintoticamente normale. In particolare
- la proprietà σ2m̂x= σ2x⁄N ci permette di ridurre a piacimento la variabilità della stima, ripetendo le osservazioni per un adeguato numero di volte;
- all’aumentare di N ed in presenza di indipendenza statistica tra i campioni, il teorema centrale del limite (§ 6.7.2) stabilisce che m̂x è una v.a. gaussiana, indipendentemente dalla natura della v.a. x da cui è estratto il campione.
Esercizio Si desideri stimare il valor medio
m̂x di una v.a.
x di cui si conosce il valore della relativa varianza
σ2x = 4; determinare la dimensione
N del campione statistico affinché la varianza della stima sia pari a
0.1. Dalla seconda delle
(10.139) risulta
N = σ2xσ2m̂x = 4 0.1 = 40 campioni della v.a.
I calcoli per determinare il valore atteso
mσ̂2x = E⎧⎩1 N ∑Ni = 1(xi − m̂x)2⎫⎭ della varianza campionaria
σ̂2x passano prima per la dimostrazione che
∑i(xi − m̂x)2 = ∑i(xi − mx)2 − N(m̂x − mx)2, in modo da ottenere
mσ̂2x = 1 N N⎲⎳i = 1E{(xi − mx)2} − N N E{(m̂x − mx)2} = = 1 N Nσ2x − σ2x N = σ2x N − 1 N
dato che il primo termine corrisponde all’espressione della varianza di
X, ed il secondo alla varianza di
m̂x, calcolata prima. Il risultato ottenuto indica come la varianza campionaria si riveli uno stimatore
polarizzato. Per questo, la formula dello stimatore (di massima verosimiglianza) della varianza viene ordinariamente sostituita dall’espressione
attuando così la
correzione di Bessel.
6.6.4 Stima di intervallo
L’esercizio precedente conferma la proprietà di
consistenza per la media campionaria, ma mette anche in luce come per dimensioni
N del campione finite, la sua accuratezza sarà necessariamente limitata. Allora, dato che la stima del parametro
θ sarà comunque erronea, può invece avere interesse stimare entro quale intervallo (detto
intervallo di confidenza) di valori
(θ1, θ2) possa ricadere
θ con sufficiente certezza, espressa quest’ultima dalla probabilità
Pr{θ1 ≤ θ ≤ θ2} = 1 − α, detta
livello di confidenza, mentre
α è la probabilità
di errore.
Intervallo per la media con varianza nota
Nel caso in cui lo stimatore
θ̂ sia espresso dalla media campionaria
θ̂ = m̂x = 1 N ∑Ni = 1xi a pag.
1 si è osservato che per
N sufficientemente elevato
θ̂ è una v.a. gaussiana con media
mθ̂ = mx e deviazione standard
σθ̂ = σx √N , come mostrato alla figura seguente;
consideriamo quindi
σx nota a priori.
Adottando il cambio di variabile
z = θ̂ − mx σθ̂ ci riconduciamo a risultati ottenibili per una v.a. gaussiana normalizzata, in modo che la condizione
Pr{θ1 ≤ mx ≤ θ2} = 1 − α possa essere riscritta come
in cui
zα⁄2 è il
percentile α⁄2 per
z, e rappresenta il valore che l’errore
normalizzato di stima
|θ̂ − mx| σθ̂ supera con probabilità
α, vedi fig.
6.20-a). Una serie di riscritture della
(10.141) porta al risultato
in cui a
σθ̂ si è sostituito il suo valore
σx √N , che dipende dalla varianza della popolazione e dalla dimensione del campione. Il valore di
zα⁄2 relativo al livello di confidenza
α si ottiene tramite apposite tabelle come quella di fig.
6.20-b).
Esempio Avendo deciso il livello di confidenza
1 − α desiderato, dalla tabella mostrata in fig.
6.20-b) si determina il corrispondente valore di
zα⁄2. Ad un valore normalizzato
zα⁄2 = 1 corrisponde un errore massimo di stima pari
a σθ̂, che comporta un livello di confidenza
1 − α = 68.3%; aumentando il livello fino al 95% si ottiene un valore di percentile
zα⁄2 pari 1.96, mentre ad un livello del 99% corrisponde un percentile di 2.58, ossia un intervallo complessivo esteso per 2*2.58 = 5.16 volte la
σθ̂.
Notiamo che per ridurre l’ampiezza dell’intervallo di confidenza dell’errore di stima non normalizzato
|m̂x − mx| esistono due vie. La prima consiste nell’accettare un minore livello di confidenza
1 − α, ma ciò equivale ad aumentare la prob.
α che l’errore
effettivo sia maggiore di
zα⁄2 ⋅ σθ̂ . La seconda via (se praticabile) è migliore e consiste nell’aumentare la dimensionalità
N del campione statistico, sfruttando così la riduzione con legge
1⁄√ N della deviazione standard della media campionaria
σθ̂ = σx √N .
Per approfondire il significato del risultato ottenuto alla
(10.142) consideriamo che per ogni campione
x di
N elementi si ottiene una
diversa stima
m̂x, a cui corrisponde un intervallo
(θ1, θ2) centrato in
m̂x della stessa ampiezza ma
ogni volta differente. Ciò significa che essendo per ogni campione
x la probabilità che il valore vero della media
mx cada all’interno di
(θ1, θ2) pari ad
1 − α, esiste una probabilità
α che un diverso campione
x’ produca un intervallo
(θ1, θ2) che
NON contiene la vera media
mx.
Esercizio Si voglia stimare l’età media
m degli utenti di una biblioteca civica. A questo scopo si intervista un campione casuale composto da
N = 100 persone, da cui si ottiene una media campionaria pari ad
m̂ = 29 anni. Adottando un valore di deviazione standard per l’età pari a
σ = 8 anni, valutare gli intervalli di confidenza per
m, con un livello pari al 95% ed al 99%.
Risposta Essendo
N sufficientemente grande, assumiamo vera l’ipotesi di gaussianità per la v.a.
m̂ e dunque applicabile la teoria esposta. Dunque il percentile
zα⁄2 nei due casi
1 − α = 95 e 99% vale rispettivamente
z0.025 = 1.96 e
z0.005 = 2.58, mentre la varianza della media campionaria risulta
σm̂ = σ √N = 0.8 fornendo in definitiva
z0.025 ⋅ σx √N = 1.96 ⋅ 0.8 = 1.57 e
z0.005 ⋅ σx √N = 2.58 ⋅ 0.8 = 2.06 nei due casi; pertanto si ottiene
⎧⎨⎩ 27.43 < m < 30.57 con confidenza 95% 26.94 < m < 31.06 con confidenza 99%
ovvero la fascia di età entro cui collocare la
vera età media m, in base al campione a disposizione, al diminuire della probabilità che
m sia in realtà
esterno all’intervallo.
Nel caso in cui il campione venga ridotto a sole
N = 30 persone, ammettendo gli stessi valori di
m̂ = 29 anni e
σ = 8 anni, dato che
√ 30 = 5.48, ora risulta
z0.025 ⋅ σm̂ = 2.86 e
z0.005 ⋅ σm̂ = 3.77, a cui corrispondono intervalli (26.14 - 31.86) e (25.23 - 32.77) con confidenza 95 e 99% rispettivamente.
Poniamo infine che un
diverso campione sempre di
30 persone produca una stima
m̂ = 27 anni anziché 29. In tal caso l’intervallo di confidenza al 95% diviene (24.14 - 29.86).
Caso di varianza incognita
Qualora la varianza
σx della v.a.
x di cui vogliamo stimare la media
mx non sia nota, ad essa viene sostituito il valore della varianza campionaria non polarizzata
σ̂2x = 1 N − 1 ∑Ni = 1(xi − m̂x)2. Una prima conseguenza è che ora
σ̂2x è anch’essa una v.a., ed il suo valore cambia per ogni diversa scelta del campione
N, producendo intervalli di confidenza di
estensione variabile. Essendo
σ̂2x uno stimatore non polarizzato e consistente, per
N sufficientemente elevato l’intervallo può ancora essere ottenuto come indicato dalla
(10.142).
Accade inoltre che al diminuire di
N la variabilità di
σ̂2x causa (a parità di livello di confidenza)
un aumento dell’estensione dell’intervallo, in quanto ora il cambio di variabile che porta ad una v.a. normalizzata
t = θ̂ − mx σθ̂ dà luogo ad una v.a. non più gaussiana bensì
di Student con
N − 1 gradi di libertà, rappresentata in fig.
6.21. Per
N → ∞ la v.a.
t(N) di Student tende ad una gaussiana, mentre per
N più piccoli la sua velocità di azzeramento è ridotta, o come si dice presenta
code più pesanti. Ciò comporta che il percentile
da utilizzare nella
(10.142) non è più lo
zα⁄2 relativo alla gaussiana normalizzata, bensì il valore
t(N − 1)α⁄2 relativo alla nuova d.d.p., e tabulato in fig.
6.21-b).
Come è possibile notare confrontando con la tabella in fig. fig.
6.20-b), a parità di livello di confidenza
1 − α i valori di
t(N − 1)α⁄2 sono sempre maggiori di quelli per
zα⁄2, tanto più per bassi
N, in quanto in tal caso la d.d.p. di Student è più
bassa e larga, e per catturare la stessa area
α occorre
allontanarsi di più dal valor medio. Nel caso di
σ2x incognita l’espressione dell’intervallo di confidenza risulta pertanto
in cui i percentili
tα⁄2 di Student sono ricavati dalla tabella precedente, e
σ̂2x è la varianza campionaria non polarizzata.
Esempio Torniamo al problema della stima dell’età media dei frequentatori di una biblioteca, e svolgiamo le interviste su di un campione di soli 6 individui. I nuovi percentili per un livello di confidenza 1 − α pari al 95% e 99% sono rispettivamente tα⁄2 = 2.57 e 4.03. Pertanto, ponendo di aver anche stavolta stimato una media campionaria pari ad m̂ = 29 anni ed una deviazione standard di σ̂ = 8 anni, i nuovi intervalli di confidenza per l’età media risultano (20.6 - 37.39) e (15.83 - 42.16).
Il risultato
(10.143) è valido, anche per per valori di
N piccoli, purché la v.a. di osservazione
x sia essa stessa gaussiana, dato che in tal caso la media campionaria
m̂x = 1 N ∑Ni = 1xi valuta la somma di gaussiane, anch’essa gaussiana (vedi §
6.5.2); viceversa (
pX(x) qualsiasi) è valida solo per
N elevato, perché in tal caso la gaussianità di
m̂x è garantita dal teorema centrale del limite. Altrimenti (
N piccolo e
x non gaussiana), l’intervallo di confidenza può essere determinato a seguito di una analisi specifica per le diverse d.d.p., che in alcuni casi permettono soluzioni agevoli, mentre un caso di particolare rilevanza è trattato al § seguente.
Abbiamo altresì osservato come all’aumento di N corrisponda una riduzione dell’intervallo di confidenza: nel caso di v.a. x gaussiana trattato finora, qualora si desideri mantenere l’ampiezza dell’intervallo d = θ2 − θ1 inferiore ad un valore dM, dovrà risultare 2 ⋅ zα⁄2 σx √N ≤ dM, e dunque N ≥ 4 ⋅ σ2x ⋅ (zα⁄2 dM )2. Qualora la σx non sia nota, cautelativamente si usa al suo posto un multiplo fino a 4-6 volte la variabilità osservata nel campione.
Esempio Una precedente analisi ci informa che la durata x delle telefonate in un call center è approssimativamente una v.a. gaussiana con media mx incognita e deviazione standard σx = 4 minuti; si calcoli la dimensione minima N del campione necessaria a stimare la durata media mx entro una precisione dM pari a due minuti, con confidenza del 95%. Si ottiene allora N ≥ 4 ⋅ 16(1.96 2 )2 = 61.46, dunque N ≥ 62.
6.6.4.1 Intervallo di confidenza per una frazione
Consideriamo ora una v.a. discreta booleana (o
dicotomica)
x che assume il valore
1 o
0 con probabilità
p e
q = 1 − p rispettivamente, e che può rappresentare un evento di errore, una scelta politica, o una qualunque domanda di un sondaggio, ovvero
p rappresenta
la frazione di una certa caratteristica rispetto al totale dei casi. Dato che il valore medio risulta pari a
mx = E{x} = ∑1i = 0pixi = q ⋅ 0 + p ⋅ 1 = p, la media campionaria
m̂x = 1 N ∑Ni = 1xi rappresenta una stimatore
p̂ di
p. Invocando nuovamente una dimensione del campione
N sufficientemente elevata,
m̂x = p̂ è assimilabile ad una v.a. gaussiana con media
p e varianza
σ2p̂ = p(1 − p) N , che quindi dipende dalla stessa quantità da stimare; utilizziamo dunque al suo posto
σ2p̂ = p̂(1 − p̂) N . Ci troviamo pertanto nelle condizioni di poter applicare il risultato
(10.142) con l’accortezza di sostituire a
σx √N il termine
√p̂(1 − p̂)N , dando luogo ad un intervallo di confidenza espresso come
(θ1, θ2) = p̂±zα⁄2 ⋅ √p̂(1 − p̂)N in cui
zα⁄2 è il quantile per la gaussiana normalizzata, con il livello di confidenza
1 − α desiderato. Osserviamo ora che, a parità di
N, l’estensione dell’intervallo risulta maggiore per valori di
p attorno allo
0.5, e si riduce fino ad annullarsi per
p → 0 e
p → 1.
Esempio A seguito di una campagna pubblicitaria viene svolto un sondaggio mediante
N = 200 interviste chiedendo se il prodotto oggetto della campagna viene ricordato. 85 di queste rispondono affermativamente, determinando una media campionaria pari a
p̂ = 85⁄200 = 0.425, affetta dalla varianza
σ2p̂ = √p̂(1 − p̂)N = √5 ⋅ 0.575200 = 0.035. L’intervallo di confidenza al 95% corrisponde pertanto a
(θ1, θ2) = p̂±zα⁄2 ⋅ √p̂(1 − p̂)N = 0.425 ± 1.96 ⋅ 0.035 = 0.425 ± 0.0686
ovvero dal 36 al 49%, ossia uno
spread di 13 punti. Se invece le risposte affermative fossero state solo 15, avremo ottenuto
p̂ = 15⁄200 = 0.075 e dunque
σ2p̂ = √5 ⋅ 0.925200 = 0.019, fornendo un intervallo
p = 0.075±1.96 ⋅ 0.019 = 0.075±0.036 ovvero dal 3.9 all’11.1%, cioè uno spread di 7.2 punti.
Abbiamo osservato come la variabilità σp̂ = √p(1 − p)N per la stima di frazione dipenda, oltre che da N, anche dallo stesso parametro p oggetto di stima. Ci si pone allora nel caso peggiore, ovvero si suppone p = 0.5 a cui corrisponde p(1 − p) = 0.25 e una massima deviazione standard σp̂ = 0.5 √N , da cui (θ1, θ2) = p̂±zα⁄2 ⋅ 0.5 √N : pertanto il valore N minimo che permette di ottenere un intervallo di estensione dM = 2zα⁄2 ⋅ 0.5 √N al livello 1 − α risulta in prima approssimazione pari a N ≥ ⎛⎝ zα⁄2 dM ⎞⎠2.
Esempio Si intende svolgere un sondaggio per stimare la proporzione degli elettori che voteranno per un certo partito politico, desiderando un intervallo di confidenza che al livello 1 − α = 0.95 non superi l’ampiezza di 2 punti percentuali (la cosiddetta forchetta), ovvero dM = 0.02. Avremo allora bisogno di un campione composto da almeno N ≥ ⎛⎝ zα⁄2 dM ⎞⎠2 = ⎛⎝1.96 0.02 ⎞⎠2 = 9604 soggetti.
6.6.5 Test chi quadro e verifica di distribuzione
Alcuni degli aspetti discussi fino ad ora pongono come condizione quella di avere a che fare con grandezze gaussiane. La tecnica che discutiamo appresso è spesso utilizzata per verificare che la frequenza dei valori osservati rispecchi quella prevista da una distribuzione di probabilità prefissata. A tale scopo, consideriamo una v.a.
x di cui sono state collezionate
N determinazioni, mediante le quali si costruisce un istogramma (pag.
1) suddividendo il campo di variabilità di
x in
m intervalli
Ii, ed indichiamo con
ki il numero di realizzazioni di
x che ricadono entro l’intervallo
Ii,
i = 1, 2, ⋯, m, risultando
∑mi = 1ki = N.
Il test tenta di verificare l’ipotesi
H0 che la v.a.
x abbia effettivamente origine dalla d.d.p. prevista, nel cui caso i valori
ki dovrebbero essere molto prossimi a
Npi, in cui
pi = ∫IipX(x)dx è la probabilità che la d.d.p. assegna all’evento
xϵIi. Pertanto se l’ipotesi
H0 è vera il valore della nuova v.a.
dovrebbe essere vicino allo zero, mentre valori più elevati (di un valore di soglia
λ) suggeriscono di rigettare l’ipotesi. Se
N è sufficientemente elevato i valori
ki sono grandezze gaussiane con valore atteso
mki = Npi e varianza
σ2ki ≃ (Npi)2(), dunque la
(10.144) rappresenta la somma dei quadrati di v.a. gaussiane normalizzate, e
χ2 risulta essere una v.a. detta
chi quadro ad
m − 1 gradi di libertà, la cui d.d.p. assume l’andamento riportato in figura
6.22.
L’ipotesi sulla d.d.p. di
x viene dunque accettata con un intervallo di confidenza
1 − α nel caso in cui il valore calcolato per
χ2 risulti inferiore ad una soglia stabilita in base alle tabelle del percentile
χ2α(m − 1), che corrisponde ad una probabilità di errore (decidere
H0 quando invece non è vera) pari ad
α. Notiamo che, a differenza dei casi precedenti, il percentile si riferisce
all’intera area
α anziché alla sua metà, in quanto l’intervallo di confidenza è comunque delimitato a sinistra dallo zero.
Esempio Una moneta viene lanciata 200 volte, producendo 115 volte testa e 85 croce. Si può ritenere la moneta
non truccata, con un livello di significatività del 95% ? Evidentemente in questo caso
m = 2 e
p1 = p2 = 0.5, cosicché il calcolo della
(10.144) porta a
χ2 = (115 − 100)2100 + (85 − 100)2 100 = 4.5. Per
m − 1 = 1 grado di libertà la tabella dei percentili fornisce
χ20.05(1) = 0.004, pertanto dato che
χ2 = 4.5 > 0.004 = χ20.05(1) il test rigetta l’ipotesi, che può essere ammissibile solo accettando una probabilità di errore
α maggiore del 95%, vedi tabella di cui all’ultima nota.
Come ultimo argomento di questa sezione, vediamo come poter ridurre il rumore sovrapposto ad un segnale ripetuto.
6.6.6 Stima di forma d’onda
Il problema è quello di voler stimare, anziché un singolo valore (o parametro), una intera forma d’onda, ovvero l’andamento di un segnale limitato nel tempo, di cui si possono disporre di più repliche, ognuna affetta da una fonte di rumore additivo (§
8.4), oppure qualora la realizzazione del segnale possa essere influenzata da fattori diversi da quelli che si intendono studiare. Un esempio tipico di tale esigenza si ha in campo biomedico, in cui deboli segnali elettrici (dell’ordine dei
μV) di natura biologica sono captati mediante elettrodi disposti sul corpo, alla ricerca ad es. di particolarità in un segnale elettrocardiografico semi-periodico, che per sua natura presenta fisiologiche variazioni ed oscillazioni, o nel caso dei
potenziali evocati che si producono nelle vie nervose a seguito di stimolazione.
Allo scopo di ridurre per quanto possibile la variabilità dovuta alle cause di disturbo che potrebbero impedire il riscontro di caratteristiche del segnale
s(t) di significato diagnostico, le
N repliche del segnale osservato
xi(t) = s(t) + ni(t) con
i = 1, 2, ⋯N in cui
ni(t) rappresenta il disturbo ogni volta diverso, vengono
mediate tra loro producendo
ŝ(t) = 1N ⎲⎳Ni = 1[s(t) + ni(t)] = s(t) + 1 N ⎲⎳Ni = 1ni(t)
Osserviamo subito che se il processo
n(t) è a media nulla allora il risultato è
non polarizzato, in quanto
E{ŝ(t)} = s(t) + 1N ∑Ni = 1E{ni(t)} = s(t). Per quanto riguarda la varianza di
ŝ(t), aggiungendo l’ipotesi di
incorrelazione (vedi §
7.1.2) tra le possibili coppie
(i, j) di realizzazioni del processo
n(t) otteniamo un risultato del tutto simile a quello della media campionaria eq.
(10.139), ovvero
σ2ŝ(t) = E{(ŝ(t) − s(t))2} = E⎧⎨⎩⎛⎝1 N ⎲⎳Ni = 1ni(t)⎞⎠2 ⎫⎬⎭ = = 1 N2 ⎲⎳Ni = 1⎲⎳Nj = 1E{ni(t)nj(t)} = 1 N2 ⎲⎳Ni = 1E{n2i(t)} = 1 N2 N σ2n = σ2n N
e quindi anche in questo caso la varianza di rumore risulta ridotta grazie all’operazione di media.
Assumendo ora che le realizzazioni del disturbo
n(t) appartengano ad un processo gaussiano bianco con densità di potenza
Pn(f) = N02 (vedi §
7.2.4), osserviamo che la corrispondente varianza
σ2n risulta dipendere dalla banda
W del filtro passa basso che precede l’amplificatore di ingresso allo strumento di acquisizione, ovvero
σ2n = N0W (vedi §
15.4.1). Essendo i segnali di interesse limitati in banda a non più di
~ 60 Hz, viene tipicamente usato un filtro con frequenza di taglio pari a 100 Hz. Tale filtro diviene però fonte di correlazione tra realizzazioni di rumore tra loro vicine, per cui le osservazioni
xi(t) = s(t) + ni(t) devono essere effettuate facendo intercorrere tra una acquisizione e la seguente un intervallo almeno pari al doppio della durata della
h(t).
Per rimanere nel campo biomedico, difficilmente il segnale s(t) è sempre lo stesso per tutte le acquisizioni xi(t), bensì presenta una variabilità intrinseca legata sia alla durata dell’esame sia ad alee di origine biologica, come ad es. la latenza variabile per le risposte dei potenziali evocati: in tal caso sono necessarie ulteriori tecniche, la cui discussione trascende dagli scopi di questo testo.