Sezione 6.3: Processi stazionari ed ergodici Su Capitolo 6: Probabilità processi e statistica Sezione 6.5: Gaussiana multidimensionale 

6.4 Trasformazione di v.a. e cambio di variabili

Quando più v.a. si combinano con leggi diverse dalla somma, il risultato del §  6.2.5 non è più sufficiente a fornire una espressione per la d.d.p. risultante. Illustriamo quindi il procedimento analitico generale, necessario ad ottenere una espressione per la d.d.p. di una generica funzione di v.a.

6.4.1 Caso unidimensionale

Consideriamo una prima v.a. X, ed una seconda Y da essa derivata per mezzo della relazione y = f(x), che si applica alle determinazioni x di X. Nel caso in cui f(x) sia monotona non decrescente (vedi fig. 6.13-a), e indicando con x = g(y) la corrispettiva funzione inversa, la caratterizzazione probabilistica di Y nei termini della sua d.d.p. pY(y) può essere ottenuta a partire da quella di X nei termini della funzione di distribuzione di Y, come
(10.131)
FY(y) = Pr{Y ≤ y} = Pr{X ≤ g(y)}
e calcolando poi pY(y) = dFY(y) dy .
figure f5.266.png
Figure 6.13 Trasformazioni tra variabili aleatorie
D’altra parte, qualora la trasformazione f(x) non sia monotona come nel caso mostrato in fig. 6.13-b), la (10.131) non è più usabile, in quanto i valori y ≤  hanno origine da due diversi intervalli di X, in corrispondenza dei quali l’area sottesa dalla pX(x) individua la probabilità cercata.
Procedendo con ordine, trattiamo prima il caso di f(x) monotona crescente come in fig. 6.13-a), in cui per ogni valore di esiste un solo intervallo di  ⊂ X tale che y =  f(x)|x ∈  ≤ , e la (10.131) può essere riscritta come
FY(y) = Pr{X ≤ g(y)} = FX(x = g(y))
che, derivata, permette di giungere alla espressione che consente il calcolo della pY(y):
(10.132)
pY(y) = dFY(y) dy  =  dFX(x) dx ||x = g(y) dg(y) dy  = pX(g(y)) dg(y) dy
La (10.132) indica che la nuova v.a. y = f(x) possiede una d.d.p. pari a quella di x, calcolata con argomento pari alla funzione inversa x = g(y), moltiplicata per la derivata di g(y). La d.d.p.  della v.a. risultante si presta anche ad un processo di costruzione grafica, come esemplificato in fig. 6.13-c).
Esempio Determinare pY(y), qualora risulti y = f(x) =  0  con x ≤ 0 x2  con x > 0 , nel caso in cui pX(x) = 1 Δ rectΔ(x).
figure f5.27.png
Osserviamo innanzitutto che tutte le determinazioni x ≤ 0 danno luogo ad un unico valore y = 0; pertanto si ottiene pY(0) = 12 δ(y). Per 0 < y ≤  Δ2 4 (corrispondente ad 0 < x ≤  Δ 2 ) si applica la teoria svolta, ottenendo FY(y) = Pr{x ≤ y} = FX(y), e dunque
pY(y) = dFY(y)dy =  dFX(x)dx||x = y d(x = y)dy = 1 Δ 1 2y
in cui l’ultima eguaglianza tiene conto che dFX(x) dx  = pX(x), che vale 1Δ per tutti gli x nell’intervallo in considerazione. L’ultima curva mostra la d.d.p risultante per questo esempio.
Se invece la f(x) è monotona ma decrescente, consideriamo semplicemente che le probabilità Pr{x ≤ X ≤ x + dx} = pX(x)dx e Pr{y ≤ Y ≤ y + dy}|y = f(x) = pY(y)dy devono essere uguali, ma dato che con f(x) decrescente ad un dx positivo corrisponde un dy negativo, prendiamo il valore assoluto di entrambi: pX(x)|dx| = pY(y)|dy|; sostituendo quindi x con la sua funzione inversa x = g(y) e ri-arrangiando si ottiene
(10.133) pY(y) = pX(g(y))||dg(y) dy ||
che è la versione più generale del risultato (10.132).
Esempio Qualora f(x) sia una relazione lineare y = ax + b possiamo scrivere x = g(y) = y − ba e ddy g(y) = 1 a ; pertanto la (10.133) si traduce in pY(y) = 1|a|pXy − b a , ovvero la nuova v.a. Y possiede una d.d.p. con lo stesso andamento di pX(x), ma traslata di b e compressa o espansa di a.
Trasformazione non monotona
In questa circostanza due o più valori di X producono lo stesso valore di Y (vedi fig. 6.13-b)), e non esiste una funzione inversa x = g(y) univoca. In tal caso si suddivide la variabilità di X in più intervalli i, in modo che per ciascuno di essi possa definirsi una fi(x) monotona: tali intervalli individuano eventi mutuamente esclusivi, e dunque si può calcolare il lato destro di (10.133) per ogni funzione inversa gi(y) = f− 1i(x), e quindi sommare i risultati per ottenere pY(y).
Esempio Consideriamo la funzione y = f(x) = cos(x) in cui x è una v.a. con d.d.p. uniforme pX(x) = 12π rect2π(x − π).
figure f5.27a.png
Dato che per 0 ≤ x ≤ π il coseno è decrescente, mentre per π ≤ x ≤ 2π è crescente, applichiamo la (10.133) su questi due intervalli. Per il primo si ha x = g1(y) = arccos(y), la cui derivata vale dg1(y)dy =  − 1 1 − y2 , mentre pX(x) è costante e pari a 12π indipendentemente da x, dunque pX(g1(y)) = 1 2π . Per il secondo intervallo la funzione inversa vale ancora x = g2(y) = arccos(y), così come medesime sono le altre considerazioni. Pertanto si ottiene  
pY(y)  =  pX(g1(y))||dg1(y) dy || + pX(g2(y))||dg2(y) dy || =   =  2 ⋅ 1 2π || − 1 1 − y2 || =  1 π 1 − y2  − 1 ≤ y ≤ 1        0   altrove 

6.4.2 Caso multidimensionale

Descriviamo questo caso per mezzo del vettore di v.a. X = (x1, x2, …, xn), a cui è associata una d.d.p. congiunta pX(x1, x2, …, xn), e di un secondo vettore aleatorio Y dipendente dal primo mediante la trasformazione Y = F(X), ovvero
(10.134) y1 = f1(x1, x2, …, xn) y2 = f2(x1, x2, …, xn) yn = fn(x1, x2, …, xn)
Se esiste la relazione inversa X = F− 1( Y) = G(Y) univoca, composta dall’insieme di funzioni xi = gi(y1, y2, …, yn) per i = 1, 2, ⋯, n, allora per la d.d.p di Y sussiste[295]  [295] 
La dimostrazione segue le medesime linee guida del caso precedente, ed è impostata sulla base della considerazione che la funzione di distribuzione di Y, calcolata in un generico punto ỹ = (1, 2, …, n), rappresenta la probabilità che Y appartenga alla regione (dominio) delimitata dal punto ỹ, indicata con Dỹ:
FY(ỹ) = Pr{Y ≤ ỹ} = Pr{Y ∈ Dỹ}
figure f5.28.png
Alla stessa regione Dỹ, ne corrisponde una diversa Dx̃ nello spazio X, tale che per ogni valore x ∈ Dx̃ risulti y = F(x) ∈ Dỹ. Con queste posizioni, la FY(ỹ) = Pr{Y ∈ Dỹ} si calcola a partire dalla d.d.p. pX(x), integrata sul dominio Dx̃:
FY(ỹ) = Pr{X ∈ Dx̃} = Dx̃pX(x)dx
Infine, osservando che
pY(y1, y2, …, yn) =  nFY(y1, y2, …, yn) y1y2⋯∂yn
si ottiene il risultato mostrato.
un risultato formalmente molto simile a quello valido nel caso monodimensionale, e cioè
(10.135)
pY(y1, y2, …, yn) = pX(X = G(Y))|det(J(X ⁄ Y))|
in cui pX(x = G(Y)) è la d.d.p. di X calcolata con argomento dipendente da Y, e |det(J(X ⁄ Y))| è il modulo del jacobiano della trasformazione inversa G, ossia del determinante della matrice costituita da tutte le derivate parziali di G, detta jacobiana[296] [296] J(X ⁄ Y) è indicata come matrice jacobiana, ed il suo determinante come jacobiano, vedi https://it.wikipedia.org/wiki/Matrice_jacobiana:
J(X ⁄ Y) =  xi yj  =  x1 y1 x1 y2 x1 yn x2 y1 xn y1 xn yn
Un esempio di applicazione della teoria appena discussa viene svolta al § 14.4, allo scopo di descrivere in termini probabilistici il problema della detezione di una sinusoide immersa nel rumore; tale descrizione è quindi usata al § 6.6.1 per impostare il problema della decisione statistica. Un altro caso applicativo si riferisce alla d.d.p. del prodotto tra v.a. (pag. 1).
 Sezione 6.3: Processi stazionari ed ergodici Su Capitolo 6: Probabilità processi e statistica Sezione 6.5: Gaussiana multidimensionale