Sezione 5.1: Teoria delle probabilità Su  Capitolo 5: Probabilità, processi, statistica Sezione 5.3: Processi stazionari ed ergodici 

5.2  Variabili aleatorie

Finora si è parlato di eventi in modo astratto, mentre spesso ci si trova ad associare ad ogni punto dello spazio campione un valore numerico: lo spazio campione Ω diventa allora l’insieme dei numeri e prende il nome di variabile aleatoria, d’ora in poi spesso abbreviato in v.a. Il verificarsi di un evento corrisponde ora all’assegnazione di un valore (tra i possibili) alla v.a.; tale valore “prescelto” prende dunque il nome di realizzazione della v.a. Distinguiamo poi tra variabili aleatorie discrete e continue, a seconda se la grandezza che descrivono abbia valori numerabili o continui[128]  [128] Un esempio classico di v.a. discreta è quello del lancio di un dado, un altro sono i numeri del lotto. Una v.a. continua può essere ad esempio un valore di pressione atmosferica in un luogo, oppure l’attenuazione di una trasmissione radio dovuta a fenomeni atmosferici.. La caratterizzazione della variabile aleatoria in termini probabilistici si ottiene indicando come la “massa di probabilità” si distribuisce sull’insieme di valori che essa può assumere, per mezzo delle 2 funzioni (di v.a.) seguenti.

5.2.1  Densità di probabilità e funzione di distribuzione

Come la massa di un oggetto non omogeneo è distribuita in modo più o meno denso in regioni differenti del suo volume complessivo, così la densità di probabilità (o d.d.p.) indica su quali valori della variabile aleatoria si concentra la probabilità. Ad esempio, la densità della v.a. discreta associata al lancio di un dado può essere scritta:
(10.2) pD(x) = 6n  = 1(1)/(6)δ(x  − n)
variabile aleatoria discreta
il cui significato discutiamo subito, con l’aiuto del grafico a lato, in cui D indica la v.a. (il numero che uscirà), e x una sua realizzazione (una delle 6 facce). I 6 impulsi centrati in x  = n rappresentano una concentrazione di probabilità nei sei possibili valori, e l’area di tali impulsi è esattamente pari alla probabilità di ognuno dei sei risultati. E’ facile verificare che
  − ∞pD(x)dx  = 1  e che  risulta bapD(x)dx  = Pr{a < D ≤ b}
ovvero pari alla probabilità che la v.a. D assuma un valore tra a e b. In particolare, non potendosi verificare una probabilità negativa, si ha pD(x) ≥ 0 con x.
Una funzione di v.a. strettamente collegata alla densità è la funzione di ripartizione o di distribuzione[129]  [129] In realtà, l’ordine storico è quello di definire prima FX(x) come la probabilità che X sia non superiore ad un valore x, ovvero FX(x)  = Pr{X  ≤ x}, e quindi pX(x)  = (dFX(x))/(dx). Il motivo di tale “priorità” risiede nel fatto che FX(x) presenta minori “difficoltà analitiche” di definizione (ad esempio presenta solo discontinuità di prima specie, anche con v.a. discrete)., definita come
(10.3) FX(x) = x  − ∞pX(ξ)dξ  = Pr{X  ≤ x}
vriabile aleatoria continua
e che risulta una funzione non decrescente di x, limitata ad un valore massimo di 1, ed il cui andamento mostriamo a lato sotto a quello di pX(x), per la quale ovviamente risulta pX(x) = (d)/(dx)FX(x); nel caso invece della v.a. discreta D, la relativa funzione di distribuzione è discontinua[130] [130] 
A fianco è mostrata la FD(x) relativa al lancio di un dado: ricordiamo infatti che la derivata di un gradino è un impulso di area pari al dislivello, e dunque applicando la (10.3↑) alla (10.2↑) si ottiene il risultato illustrato.
figure f5.4b.png
.
Ora è ancora più evidente la circostanza che pX(x) è una densità, e diviene una probabilità solo quando moltiplicata per un intervallo di x([131] [131] Infatti la probabilità che X cada tra x0 e x0 + Δx vale x0 + Δxx0pX(x)dxpX(x0)Δx.).
Istogramma
Qualora non si disponga di una espressione analitica idonea a rappresentare il modo con cui si distribuiscono i valori di una v.a., può essere utile svolgerne una stima mediante un istogramma. Questo assume l’aspetto di una versione per così dire quantizzata della d.d.p. incognita, e si ottiene a partire da una serie di realizzazioni[132] [132] Ricavate ad esempio da basi di dati anagrafici, sanitari, meteorologici o quant’altro, oppure effettuando una apposita campagna di misura basata su di un campione statistico di adeguata numerosità (vedi anche § 5.6↓). della v.a., suddividendo il campo di variabilità della grandezza X in sotto-intervalli, e disegnandovi rettangoli verticali, ognuno di altezza pari al numero di volte che (nell’ambito del campione statistico a disposizione) X assume un valore in quell’intervallo, come rappresentato in figura.
istogramma
Dividendo l’altezza di ogni rettangolo per il numero di osservazioni N, si ottiene una approssimazione di pX(x), via via più precisa con N  → ∞, e con una contemporanea riduzione dell’estensione degli intervalli.

5.2.2  Valore atteso, momento e momento centrato

Indichiamo con g(x) una funzione di variabile aleatoria[133] [133] Un esempio di funzione di v.a. potrebbe essere il valore della vincita associata ai 13 in schedina, che dipende dalla v.a. rappresentata dai risultati delle partite, una volta noto il montepremi e le giocate. Infatti, per ogni possibile vettore di risultati, si determina un diverso numero di giocate vincenti, e quindi un diverso modo di suddividere il montepremi. Essendo i risultati improbabili giocati da un ridotto numero di schedine, a queste compete un valore maggiore in caso di vincita, ben superiore al suo valore atteso, indicativo invece della vincita media. .
Valore atteso
Si definisce valore atteso (o media di insieme[134]  [134] Per insieme ci si riferisce allo spazio campione Ω, costituito dai possibili valori assunti dalla v.a. X. ) di g(x) rispetto alla variabile aleatoria X la quantità:
(10.4) EX{g(x)} =   − ∞g(x)pX(x)dx
che corrisponde ad una media pesata, in cui i valori assunti da g(x) in corrispondenza ad un certo x sono pesati[135]  [135] Notiamo che se al posto delle probabilità pX(x)dx utilizziamo i valori di un istogramma Pr(xi)  = (N(xi < x  ≤ xi + Δx))/(N) = (Ni)/(N), l’integrale si trasforma in una sommatoria, il cui sviluppo evidenzia l’equivalenza con una media pesata: xiPr(xi)  = (x1N1  + x2N2 + ... + xnNn)/(N). mediante il corrispettivo valore di probabilità pX(x)dx; tale operazione di media integrale è indicata con la notazione EX{.}[136] [136] In effetti, la E simboleggia la parola Expectation, che è il termine inglese usato per indicare il valore atteso. , mediante la quale si indica a pedice la v.a. (X) rispetto a cui eseguire la pesatura.
Nel caso di una funzione di più v.a. g(x, y), il suo valore atteso viene calcolato in base alla d.d.p. congiunta, ovvero
EX, Y{g(x, y)} =   − ∞  − ∞g(x, y)pXY(x,  y)dxdy
in cui pXY(x,  y) si ottiene a partire dalle d.d.p. condizionate e marginali, come esposto al § 5.1.3↑. Inoltre, la (10.4↑) può essere calcolata ulitizzando una d.p.p. condizionata pX  ⁄ Y(x ⁄ y), ed in tal caso anche il valore atteso EX  ⁄ Y{g(x)} è detto condizionato.
Momento
Qualora si ponga g(x) = xn, ovvero pari alla n-esima potenza della v.a., il valore atteso prende il nome di momento di ordine n, e si indica come
m(n)X  = E{xn} =   − ∞xnpX(x)dx
Nel caso di variabili aleatorie discrete, i momenti sono definiti come m(n)X = ixnipi, in cui pi = Pr{x = xi}, pesando quindi le possibili realizzazioni xi con le rispettive probabilità.
MediaVerifichiamo subito che m(0)X  = 1, mentre Il momento di primo ordine
mX = m(1)X  =  − ∞xpX(x)dx
prende il nome di media
[137] [137] Supponiamo che X rappresenti l’altezza degli individui; l’altezza media sarà allora calcolabile proprio come momento del primo ordine. della v.a. X (a volte denominata centroide), mentre con n = 2 si ha la media quadratica m(2)X =  − ∞x2pX(x)dx.
Momento centrato
Nel caso in cui g(x) = (x − mX)n, il relativo valore atteso è chiamato momento centrato di ordine n, ed indicato come
μ(n)X  = E{(x  − mX)n}  =   − ∞(x − mX)npX(x)dx
E’ immediato constatare che μ(0)X = 1 e che μ(1)X  = 0.
deviazione standard
VarianzaE’ il nome dato al momento centrato del 2o ordine, corrispondente a
σ2X  = μ(2)X  = E{(x  − mX)2}  =   − ∞(x − mX)2pX(x)dx
La radice quadrata della varianza, σX, prende il nome di deviazione standard. Mentre la media mX indica dove si colloca il “centro statistico” della densità di probabilità, σX indica quanto le singole determinazioni della v.a. siano disperse attorno ad mx.
Una relazione notevole che lega i primi due momenti (centrati e non) è ([138] [138] Infatti risulta
σ2X  =  E{(x  − mX)2}  = E{x2  + (mX)2 − 2xmX} = E{x2} + (mX)2 − 2mXE{x}  =   =  m(2)X  + (mX)2 − 2(mX)2 = m(2)X − (mX)2
Si è preferito usare la notazione E{x}, più compatta rispetto all’indicazione degli integrali coinvolti; i passaggi svolti si giustificano ricordando la proprietà distributiva degli integrali (appunto), ed osservando che il valore atteso di una costante è la costante stessa.
):
(10.5) σ2X  = m(2)X  − (mX)2

5.2.3  Variabile aleatoria a distribuzione uniforme

Applichiamo la definizione di momento ad un caso pratico: la variabile aleatoria uniforme è caratterizzata da uno stesso valore di probabilità per tutta la gamma di realizzazioni possibili, limitate queste ultime ad un unico intervallo non disgiunto;
Variabile aleatoria a distribuzione uniforme
pertanto, la densità di probabilità è esprimibile mediante una funzione rettangolare:
pX(x) = (1)/(Δ)rectΔ(x − mX)
in cui Δ rappresenta l’estensione dell’intervallo di esistenza della variabile aleatoria.
E’ facile verificare che il parametro mX, che indica l’ascissa a cui è centrato il rettangolo, corrisponde esattamente al momento di primo ordine di X. Il calcolo della varianza[139] [139] Anziché calcolare σ2X per la pX(x) data, calcoliamo m(2)X per una v.a. uniforme con mX  = 0: in tal caso infatti m(2)X  = σ2X. Si ha: m(2)X  = (Δ)/(2)  − (Δ)/(2)x2(1)/(Δ)dx = (x3)/()||(Δ)/(2) − (Δ)/(2)  = (1)/()(Δ3)/(8) + (Δ3)/(8) = (1)/()2(Δ3)/(8) = (Δ2)/(12). invece fornisce: σ2X = (Δ2)/(12).

5.2.4  Variabile aleatoria gaussiana e funzione erfc{.}

Una variabile aleatoria gaussiana x è descritta da una densità di probabilità di espressione
(10.6) pX(x)  = (1)/((2π)σx)e  − ((x − mx)2)/(2σ2x)
Variabile aleatoria gaussiana
il cui andamento è mostrato in figura, ove si pone in evidenza come mx e σx (media e deviazione standard) siano in relazione la prima con la centratura orizzontale, e la seconda con la dispersione della curva attorno alla media. Oltre che da un punto di vista grafico, i primi due momenti della v.a. descrivono completamente la densità anche dal punto di vista analitico; pertanto, la stima di mx e σx (a partire da un buon numero di realizzazioni[140] [140] Disponendo di un insieme {xn} di N realizzazioni di una variabile aleatoria X, possiamo effettuare le stime ^mx  = (1)/(N)Nn  = 1xn e ^m(2)x  = (1)/(N)Nn  = 1x2n, il cui valore tende asintoticamente a quello delle rispettive medie di insieme, come N (la dimensione del campione statistico) tende a . Al proposito, vedi § 5.6.5↓.) è sufficiente per descrivere completamente il fenomeno aleatorio. La v.a. gaussiana descrive bene una moltitudine di fenomeni naturali, ed è dimostrabile analiticamente che la sua densità è tipica[141]  [141] Il suo scopritore, K.F. Gauss, denominò la v.a. e la sua ddp come Normale, indicando con questo il fatto che il suo uso potesse essere “quotidiano”, e per questo è indicata anche come N(m,  σ2). per grandezze ottenute dalla somma di un numero molto elevato di cause aleatorie, tutte statisticamente indipendenti e con la medesima d.d.p.[142] [142] Questa condizione è anche detta di v.a. indipendenti e identicamente distribuite, ovvero i.i.d. (teorema centrale del limite [143] [143] Vedi http://it.wikipedia.org/wiki/Teoremi_centrali_del_limite, ovvero sperimentare presso http://local.disia.unifi.it/VL/VL_IT/applets/DiceExperiment.html. Inoltre, considerando che al § 5.2.6↓ si mostra come la d.d.p. di una somma di v.a. indipendenti sia pari alla convoluzione tra le rispettive d.d.p., osserviamo che la convoluzione ripetuta di una stessa d.d.p. con se stessa, la gaussianizza.).
 
Variabile aleatoria gaussiana
La funzione di distribuzione FX(x) = x − ∞pX(θ)dθ della gaussiana non è calcolabile in forma chiusa, e pertanto il valore dell’integrale è valutato in forma numerica, e reso disponibile mediante tabelle e grafici. Ma per evitare di dover ripetere il calcolo per ogni valore di mx e σx, i risultati sono riferiti ad una gaussiana normalizzata, secondo il seguente approccio. Il calcolo della probabilità che X non superi un certo valore x, ovvero la definizione di FX(x), è pari a quello dell’area tratteggiata in figura, riferita al caso di una gaussiana a media nulla:
FX(x) = Pr{X  ≤ x} = x − ∞pX(θ)dθ = 1 − x(1)/((2π)σx)e  − (θ2)/(2σ2x)dθ
Effettuiamo ora un cambio di variabile, ponendo (θ)/((2)σx) = η, per cui in corrispondenza di θ = x si ha η = (x)/((2)σx), e risulta dθ  = (2)σxdη. Possiamo dunque riscrivere
FX(x)  =  1 − (x)/((2)σx)(1)/((2π)σx)e  − η2(2)σxdη  =  1 − (x)/((2)σx)(1)/((π))e  − η2dη = 1 − (1)/(2) erfc(x)/((2)σx)
Cosa significa? Abbiamo espresso l’integrale (irrisolvibile in forma chiusa) nei termini
funzione erfc
della “funzione” erfc{.}, che rappresenta la probabilità che il valore assoluto di una v.a. gaussiana a media nulla e varianza (1)/(2) superi il valore dato come argomento, come mostrato a lato, e pari a
erfc{α} = 2α(1)/((π))e  − x2dx
funzione erfc
Figura 5.10 Valore di erfc{α} per una gaussiana normalizzata
I valori di erfc in funzione del suo argomento sono reperibili sia in forma di tabelle numeriche, sia in forma di diagrammi quotati[144] [144] Il termine erfc sta per funzione di errore complementare, e trae origine dai risultati della misura di grandezze fisiche, in cui l’errore di misura, dipendente da cause molteplici, si assume appunto gaussiano. Vedi anche https://it.wikipedia.org/wiki/Funzione_degli_errori..
In linea generale quindi, volendo calcolare la probabilità che una v.a. gaussiana X, con media mx e varianza σ2x superi in ampiezza un determinato valore x, l’unica strada percorribile è quella di utilizzare la funzione erfc, avendo cura di porre come argomento il valore di x debitamente scalato, per ricondursi ad una gaussiana a media nulla e varianza (1)/(2):
(10.7) Pr{X > x} = (1)/(2)erfc(x − mX)/((2)σx)

5.2.5  Altre variabili aleatorie

Altri tipi di variabile aleatoria prendono spesso il nome da quello di uno scienziato, ed in questo testo sono definite congiuntamente ai loro casi di utilizzo, come nel caso della v.a. esponenziale § 17.2.1↓, di Bernoulli § 17.1↓, Poisson § 17.2↓, Rayleigh e Rice pag. 1↓.

5.2.6  Funzione caratteristica e somma di v.a. indipendenti

La funzione caratteristica Φz(w) di una v.a. z è definita come l’antitrasformata di Fourier della sua densità di probabilità, ovvero (equivalentemente) come il valore atteso di ejwz:
Φz(w)  = ℱ − 1{pZ(z)} = EZ{ejwz} = pZ(z)ejwzdz
Osserviamo che, se z = x + y è la somma di v.a. indipendenti, si ottiene:
Φz(w)  =  EZ{ejw(x  + y)}  = EZ{ejwxejwy} = EX{ejwx}EY{ejwy}  =  Φx(w)Φy(w)
in quanto sotto tale ipotesi la d.d.p. congiunta pXY(x, y) si fattorizza nel prodotto delle d.d.p. marginali pX(x) e pY(y) (vedi § 5.1.5↑), ed il valore atteso si scompone nel prodotto di due integrali. Pertanto, la funzione caratteristica di una somma di v.a. indipendenti, è pari al prodotto delle funzioni caratteristiche.
Effettuando ora l’operazione inversa (trasformata di Fourier della funzione caratteristica della somma), e ricordando che ad un prodotto in un dominio corrisponde una convoluzione nell’altro, si ottiene il risultato pZ(z) = ℱ{Φz(w)} = ℱ{Φx(w)Φy(w)} = pX(x)*pY(y) che ci permette di enunciare:
La densità di probabilità della somma di v.a. indipendenti è pari alla convoluzione tra le rispettive densità di probabilità marginali.
La funzione caratteristica ha altri usi... [145]  [145] Vedi ad es. https://it.wikipedia.org/wiki/Funzione_caratteristica_(teoria_della_probabilità)ma non approfondiamo oltre.
  Sezione 5.1: Teoria delle probabilità Su  Capitolo 5: Probabilità, processi, statistica Sezione 5.3: Processi stazionari ed ergodici 
x Ehi! Da febbraio 2023 anche per l' HTML è pronta
revisionata e mooolto ampliata - mentre ciò che stai leggendo è del 2017!
Nato più di 20 anni fa, un progetto di cultura libera divenuto un riferimento nazionale