Sezione 6.1: Teoria delle probabilità Su Capitolo 6: Probabilità processi e statistica Sezione 6.3: Processi stazionari ed ergodici 

6.2 Variabili aleatorie

Finora si è parlato di eventi in modo astratto, mentre spesso ci si trova ad associare ad ogni punto dello spazio campione un valore numerico: lo spazio campione Ω diventa allora l’insieme dei numeri e prende il nome di variabile aleatoria, d’ora in poi spesso abbreviato in v.a. Il verificarsi di un evento corrisponde ora all’assegnazione di un valore (tra i possibili) alla v.a.; tale valore “prescelto” prende dunque il nome di realizzazione della v.a. Distinguiamo poi tra variabili aleatorie discrete e continue, a seconda se la grandezza che descrivono abbia valori numerabili o continui[263]  [263] Un esempio classico di v.a. discreta è quello del lancio di un dado, un altro sono i numeri del lotto. Una v.a. continua può essere ad esempio un valore di pressione atmosferica in un luogo, oppure l’attenuazione di una trasmissione radio dovuta a fenomeni atmosferici.. La caratterizzazione della variabile aleatoria in termini probabilistici si ottiene indicando come la “massa di probabilità” si distribuisce sull’insieme di valori che essa può assumere, per mezzo delle due funzioni (di v.a.) seguenti.

6.2.1 Densità di probabilità e funzione di distribuzione

Come la massa di un oggetto non omogeneo è distribuita in modo più o meno denso in regioni differenti del suo volume complessivo, così la densità di probabilità (o d.d.p.) indica su quali valori della variabile aleatoria si concentra la probabilità. Ad esempio, la densità della v.a. discreta associata al lancio di un dado può essere scritta:
(10.114) pD(x) = 6n = 1 1 6 δ(x − n)
figure f5.4.png
il cui significato discutiamo subito, con l’aiuto del grafico a lato, in cui D indica la v.a. (il numero che uscirà), e x una sua realizzazione (una delle 6 facce). I 6 impulsi centrati in x = n rappresentano una concentrazione di probabilità nei sei possibili valori, e l’area di tali impulsi è esattamente pari alla probabilità di ognuno dei sei risultati. E’ facile verificare che
 −∞pD(x) dx = 1      e che risulta      ba pD(x) dx = Pr{a < D ≤ b}
ovvero pari alla probabilità che la v.a. D assuma un valore tra a e b. In particolare, non potendosi verificare una probabilità negativa, si ha pD(x) ≥ 0 con x.
Una funzione di v.a. strettamente collegata alla densità è la funzione di ripartizione o di distribuzione[264]  [264] In realtà, l’ordine storico è quello di definire prima FX(x) come la probabilità che X sia non superiore ad un valore x, ovvero FX(x) = Pr{X ≤ x}, e quindi pX(x) =  dFX(x) dx . Il motivo di tale “priorità” risiede nel fatto che FX(x) presenta minori “difficoltà analitiche” di definizione (ad esempio presenta solo discontinuità di prima specie, anche con v.a. discrete)., definita come
(10.115) FX(x) = x −∞pX(ξ)dξ = Pr{X ≤ x}

figure f5.5.png
e che risulta una funzione non decrescente di x, limitata ad un valore massimo di 1, ed il cui andamento mostriamo a lato sotto a quello di pX(x), per la quale ovviamente risulta pX(x) = ddx F X(x); nel caso invece della v.a. discreta D, la relativa funzione di distribuzione è discontinua[265]  [265]  In basso è mostrata la FD(x) relativa al lancio di un dado: ricordiamo infatti che la derivata di un gradino è un impulso di area pari al dislivello, e dunque applicando la (10.115) alla (10.114) si ottiene il risultato illustrato. figure f5.4b.png .
Ora è ancora più evidente la circostanza che pX(x) è una densità, e diviene una probabilità solo quando moltiplicata per un intervallo di x([266]  [266] Infatti la probabilità che X cada tra x0 e x0 + Δx vale x0 + Δxx0pX(x)dxpX(x0)Δx.).
Istogramma
Qualora non si disponga di una espressione analitica idonea a rappresentare il modo con cui si distribuiscono i valori di una v.a., può essere utile svolgerne una stima mediante un istogramma. Questo assume l’aspetto di una versione per così dire quantizzata della d.d.p. incognita, e si ottiene a partire da una serie di realizzazioni[267]  [267] Ricavate ad esempio da basi di dati anagrafici, sanitari, meteorologici o quant’altro, oppure effettuando una apposita campagna di misura basata su di un campione statistico di adeguata numerosità (vedi anche § 6.6). della v.a., suddividendo il campo di variabilità della grandezza X in sotto-intervalli, e disegnandovi rettangoli verticali, ognuno di altezza pari al numero di volte che (nell’ambito del campione statistico a disposizione) X assume un valore in quell’intervallo, come rappresentato in figura.
figure f5.6.png
Dividendo l’altezza di ogni rettangolo per il numero di osservazioni N, si ottiene una approssimazione di pX(x), via via più precisa con N → ∞, e con una contemporanea riduzione dell’estensione degli intervalli.

6.2.2 Valore atteso, momento e momento centrato

Si tratta di grandezze per così dire riassuntive del modo con cui si distribuiscono i valori di una v.a., e sono definite a partire da una generica funzione di variabile aleatoria[268]  [268] Un esempio di funzione di v.a. potrebbe essere il valore della vincita associata ai 13 in schedina, che dipende dalla v.a. rappresentata dai risultati delle partite, una volta noto il montepremi e le giocate. Infatti, per ogni possibile vettore di risultati, si determina un diverso numero di giocate vincenti, e quindi un diverso modo di suddividere il montepremi. Essendo i risultati improbabili giocati da un ridotto numero di schedine, a queste compete un valore maggiore in caso di vincita, ben superiore al suo valore atteso, indicativo invece della vincita media. che indichiamo con g(x).
Valore atteso
Si definisce valore atteso (o media di insieme[269]  [269] Per insieme ci si riferisce allo spazio campione Ω, costituito dai possibili valori assunti dalla v.a. X. ) di g(x) rispetto alla variabile aleatoria X la quantità
(10.116) EX{g(x)} =  −∞g(x)pX(x)dx
che corrisponde ad una media pesata, in cui i valori assunti da g(x) in corrispondenza ad un certo x sono pesati mediante il corrispettivo valore di probabilità pX(x)dx; tale operazione di media integrale è indicata con la notazione EX{.}[270]  [270] In effetti, la E simboleggia la parola Expectation, che è il termine inglese usato per indicare il valore atteso. , mediante la quale si indica a pedice la v.a. (X) rispetto a cui eseguire la pesatura.
Nel caso di una funzione di più v.a. g(x, y) il relativo valore atteso è calcolato in base alla d.d.p. congiunta, ovvero
EX, Y{g(x, y)} =  −∞ −∞g(x, y)pXY(x, y)dxdy
in cui pXY(x, y) si ottiene a partire dalle d.d.p. condizionate e marginali, come esposto al § 6.1.3. Infine, la (10.116) può essere calcolata utilizzando una d.p.p. condizionata pX ⁄ Y(x ⁄ y), ed in tal caso anche il valore atteso EX ⁄ Y{g(x)} è detto condizionato, risultando funzione di y.
Momento
Qualora si ponga g(x) = xn, ovvero pari alla n-esima potenza della v.a., il valore atteso prende il nome di momento di ordine n, e si indica come
(10.117) m(n)X = E{xn} =  −∞xnpX(x)dx
Nel caso di variabili aleatorie discrete, i momenti sono definiti come m(n)X = i xnipi, in cui pi = Pr{x = xi}, pesando quindi le possibili realizzazioni xi con le rispettive probabilità. Notiamo subito che m(0)X = −∞pX(x)dx = 1. Ragioniamo ora su due importanti momenti.
Valor medio e media quadratica
Il momento di primo ordine
(10.118) mX = m(1)X =  −∞x pX(x) dx
prende il nome di valor medio della v.a., a volte denominato centroide, e coincide con la media aritmetica ottenibile a partire dalla conoscenza delle realizzazioni della v.a. ottenute ripetendo all’infinito l’esperimento aleatorio. Viceversa il momento di secondo ordine
m(2)X =  −∞x2pX(x) dx
viene indicato come media quadratica.
Esempio  Supponiamo che la v.a. X rappresenti l’altezza degli individui: l’altezza media mX può essere stimata come media aritmetica delle relative misurazioni
X =  N1volte x1 + x1 + ⋯  +  N2volte x2 + x2 + ⋯  + … +  Nnvolte xn + xn + ⋯ N  =  x1N1 + x2N2 + ... + xnNn N
Al tendere di N = ni = 1Ni ad , la stima X viene a coincidere con il risultato mX fornito dalla (10.118) qualora al posto delle probabilità pX(x)dx si sostituiscano i valori Pr(xi) ottenuti tramite un istogramma Pr(xi) = N(xi < x ≤ xi + Δx)N = Ni N , tramutando così l’integrale in una sommatoria, ovvero −∞x pX(x) dx ⇒ i xi Pr(xi). Tale punto di vista motiva il senso del concetto di pesatura dei possibili valori di x con le rispettive frequenze.
Momento centrato
Nel caso in cui g(x) = (x − mX)n il relativo valore atteso è chiamato momento centrato di ordine n, ed indicato come
μ(n)X = E{(x − mX)n} =  −∞(x − mX)npX(x)dx
E’ immediato constatare che μ(0)X = 1 e che μ(1)X = 0.
Varianza
E’ il nome dato al momento centrato del 2o ordine, corrispondente a
σ2X = μ(2)X = E{(x − mX)2} =  −∞(x − mX)2pX(x)dx
figure f5.7.png
La radice quadrata σX della varianza σ2X prende il nome di deviazione standard, e mentre la media mX indica dove si colloca il “centro statistico” della densità di probabilità, σX indica quanto le singole determinazioni della v.a. siano disperse attorno ad mx.
Una relazione notevole che lega i primi due momenti (centrati e non) è ([271]  [271] Infatti risulta
σ2X  =  E{(x − mX)2} = E{x2 + (mX)2 − 2xmX} = E{x2} + (mX)2 − 2mXE{x} =   =  m(2)X + (mX)2 − 2(mX)2 = m(2)X − (mX)2
Si è preferito usare la notazione E{x}, più compatta rispetto all’indicazione degli integrali coinvolti; i passaggi svolti si giustificano ricordando la proprietà distributiva degli integrali (appunto), ed osservando che il valore atteso di una costante è la costante stessa.
):
(10.119) σ2X = m(2)X − (mX)2

6.2.3 Variabile aleatoria uniforme

figure f5.8.png
E’ caratterizzata dal presentare uno stesso valore di probabilità per tutto l’intervallo delle possibili realizzazioni, comprese tra un valore minimo ed uno massimo, come rappresentato in figura; pertanto la densità di probabilità è esprimibile mediante una funzione rettangolare
pX(x) = 1Δ rectΔ(x − mX)
in cui Δ rappresenta l’estensione dell’intervallo di esistenza della variabile aleatoria, mentre il parametro mX, che indica l’ascissa a cui è centrato il rettangolo, corrisponde esattamente al momento di primo ordine di X. Il calcolo della varianza[272]  [272] Anziché calcolare σ2X per la pX(x) data, calcoliamo m(2)X per una v.a. uniforme a media nulla, ovvero con mX = 0, sfruttando il fatto che in base alla (10.119) in tal caso risulta m(2)X = σ2X. Si ottiene:
m(2)X = Δ2 − Δ2 x2 1 Δ dx =  x3 || Δ 2  − Δ2 = 1 Δ3 8  +  Δ3 8  = 1 2 Δ3 8  =  Δ2 12  
invece fornisce: σ2X = Δ212.

6.2.4 Variabile aleatoria gaussiana

A differenza del caso uniforme, la v.a. gaussiana presenta valori più probabili in prossimità del valor medio mx, in accordo alla d.d.p. con espressione
(10.120)
pX(x) = 1 2πσx exp− (x − mx)22σ2x
figure f5.12.png figure Normal_Distribution_WP.png
Figure 6.7 Grafico di una d.d.p. gaussiana 
ed il cui grafico dalla caratteristica forma a campana è mostrato a lato per diversi valori dei parametri mx e σx che compaiono nella (10.120), pari rispettivamente a media e deviazione standard della v.a. (vedi § 6.7.1), e che descrivono completamente la d.d.p. dal punto di vista analitico: pertanto la stima di mx e σx (a partire da un buon numero di realizzazioni[273]  [273] Disponendo di un insieme {xn} di N realizzazioni di una variabile aleatoria X, possiamo effettuare le stime ^mx = 1 N Nn = 1xn e ^m(2)x =  1 N Nn = 1x2n, il cui valore tende asintoticamente a quello delle rispettive medie di insieme, come N (la dimensione del campione statistico) tende a . Al proposito, vedi § 6.6.3.1.) è sufficiente per descrivere completamente il fenomeno aleatorio. La v.a. gaussiana emerge in molti fenomeni naturali, ed è dimostrabile analiticamente che la sua densità è tipica[274]  [274] Tanto che la (10.120) è anche detta Normale, e per questo è indicata anche come N(m, σ2). per grandezze ottenute dalla somma di un numero molto elevato di cause aleatorie, tutte statisticamente indipendenti e con la medesima d.d.p.[275]  [275] Questa condizione è anche detta di v.a. indipendenti e identicamente distribuite, ovvero i.i.d. (teorema centrale del limite [276]  [276] Il teorema viene dimostrato al§ 6.7.2, ma può essere divertente ed utile sperimentarne la validità ricorrendo alla applet presente presso
http://www.randomservices.org/random/apps/DiceExperiment.html
Inoltre, considerando che al § 6.2.5 si mostra come la d.d.p. di una somma di v.a. indipendenti sia pari alla convoluzione tra le rispettive d.d.p., osserviamo che la convoluzione ripetuta di una stessa d.d.p. con se stessa, la gaussianizza.
).

6.2.4.1 Probabilità di un evento gaussiano

Accade che il valore dell’integrale x−∞1 2πσ e− (θ − m)2 2σ2 dθ mostrato in figura
figure f5.13.png
e che corrisponde alla funzione di distribuzione FX(x) della v.a. gaussiana x non sia esprimibile in forma chiusa, e dunque per FX(x) non esiste una formula precisa. Al contrario, il suo valore viene calcolato per via numerica[277]  [277] Ovvero mediante del software che implementa uno dei metodi descritti ad es. presso
https://en.wikipedia.org/wiki/Numerical_integration
, e reso disponibile mediante tabelle e grafici. Per evitare di dover ripetere il calcolo per ogni possibile valore di media e varianza, l’estensione dell’area tratteggiata viene valutata per una v.a. gaussiana normalizzata Z a media nulla e varianza 12, ed espressa nei termini della funzione erfc{α}[278]  [278] Il termine erfc sta per funzione di errore complementare, e trae origine dai risultati della misura di grandezze fisiche, in cui l’errore di misura, dipendente da cause molteplici, si assume appunto gaussiano. Vedi anche https://it.wikipedia.org/wiki/Funzione_degli_errori. definita come rappresentato in fig. 6.9-a), ovvero
erfc{α} = Pr{|z| > α} = 2 α 1 π e− z2dz
il cui andamento è graficato in fig. 6.9-b) per i diversi valori dell’argomento α ≥ 0.
a)     figure f5.14.png
   b)    figure f5.15c.png
Figure 6.9 Valore di erfc{α} per una gaussiana a media nulla e varianza 12
In questi termini, la funzione di distribuzione di z si ottiene come
FZ(z) = Pr{Z ≤ z} =  1 − 1 2 erfc{z} z > 0  12 erfc{ − z} z ≤ 0 
Tale risultato può quindi essere usato per calcolare il valore di probabilità Pr{X > β} con cui una v.a. X con media m e varianza σ2 supera una soglia β ≥ m, applicando il cambio di variabile z = x − m 2 σ, che fornisce
(10.121) Pr {X > β} = 1 2 erfcβ − m 2σ
Esempio Valutare la probabilità che una v.a. gaussiana X con m = 2 e σ2 = 4 superi il valore x = 2.5. Il cambio di variabile x − m 2σ determina per la v.a. normalizzata il nuovo valore di soglia 2.5 − 21.41 ⋅ 2 ≃ 0.17, e dalla fig. 6.9-b) si ottiene Pr{X > β} = 12 erfc{0.17}12 0.82 = 0.41.
Ma proviamo a svolgere i calcoli: il valore di probabilità richiesto dall’esercizio corrisponde a Pr{X > β} = x1 2πσ e− (θ − m)2 2σ2 dθ; ponendo θ − m2  σ = η risulta dθ = 2 σ dη mentre l’estremo inferiore di integrazione diviene η = x − m2 σ, ottenendo così
Pr{X > β}  =  x − m 2 σ 1 2πσ e− η22σdη =  x − m 2 σ 1 π e− η2dη = 1 2 erfcx − m 2σ
Questo risultato tornerà utile al § 15.4, quando dovremo valutare la probabilità di errore nelle trasmissioni numeriche.
La funzione Q
Alcuni esprimono la probabilità di evento gaussiano come Q{x} = Pr{X > x} = x 1 2π e− θ2 2 dθ, riferita dunque ad una sola coda di una v.a. gaussiana a media nulla e varianza unitaria. Tra le due notazioni sussiste pertanto la relazione Q{x} = 12 erfcx 2 .
Valori notevoli
Per avere una idea della rapidità di azzeramento della campana gaussiana, può essere utile tenere conto che in un intervallo di estensione 2σ centrato attorno alla media si trova il 68,3% della probabilità, che sale al 95,5% per un intervallo che si estende per ±2σ attorno alla media, ed arriva al 99,7% per un intervallo ±3σ. Vedi anche la tabella a pag. 1.
Mentre ai §§ 6.5 e 6.7.1 sono approfonditi ulteriori aspetti della v.a. gaussiana, altri tipi di v.a. sono descritti assieme ai rispettivi casi di utilizzo, come nel caso della v.a. esponenziale § 22.2.1, di Bernoulli § 22.1, Poisson § 22.2, Rayleigh e Rice pag. 1. Qui invece il capitolo prosegue introducendo una descrizione di v.a. complementare a quella fornita da d.d.p. e distribuzione, mediante la quale dimostrare il comportamento di una somma di v.a. indipendenti.

6.2.5 Funzione caratteristica

La funzione caratteristica ΦX(ω) di una v.a. X è definita come l’antitrasformata di Fourier della sua densità di probabilità, ovvero (equivalentemente) come il valore atteso di e jωx:
(10.122)
ΦX(ω) = F −1{pX(x)} = EX{e jωx} =  pX(x) e jωx dx
Intuitivamente, possiamo pensare che si sia scelta l’anti-trasformata anziché la trasformata in quanto una d.d.p. è una densità (di probabilità), similmente ad una densità spettrale. Tra una d.d.p. pX(x) e la relativa ΦX(ω) intercorre una relazione biunivoca, nel senso che se due d.d.p. hanno la stessa ΦX(ω), esse coincidono. Affrontiamo subito due importanti applicazioni di questo nuovo strumento.

6.2.5.1 Densità di probabilità della somma di v.a. indipendenti

Osserviamo che, se z = x + y è la somma di v.a. indipendenti, per la sua funzione caratteristica si ottiene
Φz(t)  =  EZ{e j(x + y)t} = EZ{ejxt ejyt} = EX{ejxt} EY{ejyt}  =  Φx(t) Φy(t)
in quanto sotto tale ipotesi la d.d.p. congiunta pXY(x, y) si fattorizza nel prodotto delle d.d.p. marginali pX(x) e pY(y) (vedi § 6.1.5), ed il valore atteso si scompone nel prodotto di due integrali. Pertanto, la funzione caratteristica di una somma di v.a. indipendenti è pari al prodotto delle funzioni caratteristiche.
Effettuando ora l’operazione inversa (trasformata di Fourier della funzione caratteristica della somma), e ricordando che ad un prodotto in un dominio corrisponde una convoluzione nell’altro, si ottiene il risultato
pZ(z) = F {Φz(t)} = F {Φx(t)Φy(t)} = pX(x) * pY(y)
che ci permette di enunciare:
La densità di probabilità della somma di v.a. indipendenti è pari alla convoluzione tra le rispettive densità di probabilità marginali.
EsempioSe x ed y sono due v.a. a distribuzione uniforme tra ±Δ, la loro somma ha densità di probabilità triangolare con base . Pertanto, nel lancio di 2 dadi il risultato più probabile è 7. Infatti può essere ottenuto come 6+1, 5+2, 4+3, 3+4, 2+5, 1+6, ovvero in 6 modi diversi, ognuno con probabilità 161 6  =  1 36 e dunque Pr{7} = 6 1 36  =  1 6 .

6.2.5.2 Funzione caratteristica di una v.a. gaussiana

Consideriamo il caso di una v.a. gaussiana a valor medio nullo e varianza σ2: si tratta di eseguire il calcolo Φx(ω) = −∞ 1 2πσ e− x2 2σ2  e jωx dx, il cui svolgimento[279]  [279]  Ricordando che eα eβ =  eα + β possiamo scrivere Φx(ω) = 12π σ −∞ e jωx − x2 2σ2 dx; riformuliamo quindi l’esponente jωx −  x2 2σ2 come
 − x22σ2  + jωx − (jωσ)22 + (jωσ)22 = − 1 2 x2 σ2  − 2jωx + (jωσ)2 + (jωσ)22 = − 1 2 x σ  − jωσ2 + (jωσ)22
in modo da ottenere
Φx(ω) = e12(jωσ)2 1 2πσ  −∞ e−  1 2 xσ − jωσ2dx =  e−  1 2 (ωσ)2 −∞1 2π e− 12(y)2dy =  e−  1 2 ω2σ2
avendo effettuato il cambio di variabile y =  x σ  − jωσ che dà luogo agli stessi estremi di integrazione, mentre dx = σdy, ed avendo notato come l’integrale ora calcoli l’area di una gaussiana con varianza unitaria, pari a ad uno.
porta al risultato
(10.123) Φx(ω) =  e−  1 2 ω2σ2
ovvero ancora un andamento gaussiano, con dispersione (varianza) inversamente proporzionale a quella della gaussiana di partenza. Qualora la v.a. abbia invece valore medio mx ≠ 0 la proprietà di traslazione della F − trasformata fornisce Φx(ω) = e− 1 2 ω2σ2⋅ e jωmx.
Ma per non farci mancare nulla, citiamo ulteriori proprietà della funzione caratteristica:
Valore massimo
Osserviamo che
|ΦX(ω)| = |EX{ e jωx}| ≤ EX{| e jωx|} = pX(x)dx =  ΦX(ω)|ω = 0 = 1
dunque ΦX(ω) ha un massimo nell’origine.
Relazione con i momenti
Se ΦX(ω) è derivabile k volte, dalla (10.122) si ottiene dkΦX(ω) dωk  = E{(jx)k e jωx} che calcolata per ω = 0 fornisce
dkΦX(ω) dωk ||ω = 0 = jkE{xk} = jkm(k)x
Pertanto conoscendo i primi n momenti m(1)x, m(2)x, ⋯m(n)x della v.a. x è possibile ottenere una approssimazione Φ̂X(ω) della relativa funzione caratteristica ΦX(ω) nella forma di una espansione in serie di potenze, ovvero
ΦX(ω)nk = 0 dkΦX(ω) dωk ||ω = 0 ωk k!  = 1 +nk = 1m(k)x (jω)k k!
Inversione
Conoscendo una stima Φ̂X(ω) della f.c. della v.a. x si può ottenere una approssimazione X(x) della relativa d.d.p. calcolandone la trasformata di Fourier, ovvero
X(x) = 12π Φ̂X(ω) e −jωx dω
Estendiamo ora i concetti fin qui esposti al caso di v.a. vettoriali o multivariate, le cui realizzazioni corrispondono ad una n − upla di valori.

6.2.6 Variabile aleatoria multivariata

In questo caso la v.a. rappresenta congiuntamente un intero vettore x di variabili aleatorie monodimensionali, ossia una loro collezione ordinata, in numero finito (ad es. N), in relazione o meno tra loro in base a legami di tipo probabilistico.
Densità di probabilità
Indicando con X la v.a. vettoriale, e con x una sua realizzazione costituita dalle N componenti x1, x2, ⋯, xN, la v.a. multivariata è descritta per mezzo della d.d.p. pX(x) = pX(x1, x2, ⋯, xN) funzione di N variabili, per la quale deve risultare
 −∞ −∞ −∞pX(x1, x2, ⋯, xN) dx1dx2dxN = 1
Distribuzione
Anche nel caso multivariato può essere definita una funzione di distribuzione FX(x), anch’essa N − dimensionale, il cui valore FX(x) = Pr{x ≤ x} nel punto x = (x1, x2, ⋯, xN) si calcola come
FX(x) = x1 −∞x2 −∞xN −∞pX(x1, x2, ⋯, xN) dx1dx2dxN
Densità di probabilità marginale
La d.d.p. marginale pXi(xi) della singola v.a. monodimensionale xi che prende parte al sistema di coordinate su cui X è definita, può essere calcolata a partire dalla d.d.p. congiunta pX(x) mediante saturazione delle altre v.a., ovvero
(10.124) pXi(xi) =  N − 1 integrali  −∞  −∞ −∞ pX(x1, x2, ⋯, xN) dx1dxi − 1dxi + 1dxN
Densità di probabilità condizionata
La d.d.p. di un sotto-gruppo di v.a. xa = (x1, x2, ⋯, xa), qualora il valore delle restanti coordinate xb = (xa + 1, xa + 2, ⋯, xN) di x sia da ritenersi noto, si ottiene dividendo la d.d.p. congiunta pX(x) per quella marginale pX(xb) che descrive gli eventi condizionanti, ovvero
pX(xa ⁄ xb) = pX(x)pX(xb)
in cui pX(xb) è ottenuta per saturazione (10.124). La separazione ordinale tra i due gruppi di variabili ha lo scopo di semplificare la notazione di questa definizione; in realtà, le v.a. dei due gruppi possono essere prese con un ordine qualsiasi.
Valore atteso e momenti
Nel caso in cui si tratti del valore atteso di una funzione di una sola v.a. marginale, si utilizza ancora la (10.116) in cui la d.d.p. è quella marginale pXi(xi) relativa alla v.a. rispetto alla quale si sta eseguendo la media di insieme. Per questa via è possibile ottenere un vettore mX = (mx1, mx2, , ⋯, mxN) che rappresenta il valor medio della v.a. multivariata X, le cui componenti mxi sono i momenti di primo ordine delle v.a. marginali, ovvero
mxi = EX{xi} = xipXi(xi)dxi
Notiamo che sebbene la notazione EX{xi} indichi un valore atteso calcolato rispetto alla variabilità di tutte le componenti della v.a. multivariata X, il calcolo è svolto ricorrendo alla d.d.p. marginale, in quanto le altre v.a. xj con j ≠ i saturano (10.124).
D’altra parte, è possibile ora valutare anche i cosiddetti momenti misti, in cui cioè la media di insieme considera tutti i possibili valori di due o più componenti di X, pesando ognuno di questi con il relativo valore di probabilità. Ad esempio, un momento misto di ordine (n, m) è definito come
m(n, m)xixj = EX{xnixmj} = xnixmjpXiXj(xi, xj)dxidxj
ed un momento misto centrato di ordine (n, m) come
μ(n, m)xixj = EX{(xi − mxi)n(xj − mxj)m} = (xi − mxi)n(xj − mxj)mpXiXj(xi, xj)dxidxj
in cui la pXiXj(xi, xj) bidimensionale è ottenuta saturando la pX(x) sulle dimensioni diverse da i e j.
E’ ora il turno di estendere i concetti probabilistici allo spazio dei segnali.
 Sezione 6.1: Teoria delle probabilità Su Capitolo 6: Probabilità processi e statistica Sezione 6.3: Processi stazionari ed ergodici