7.1 Correlazione, covarianza e autocorrelazione
Al §
6.3.5 abbiamo discusso come per un processo stazionario ed ergodico
{x(t, θ)} la conoscenza della d.d.p.
pX(x) che descrive la variabilità dei suoi valori indipendentemente da
t e
θ consenta il calcolo dei corrispondenti valori attesi media
mX e varianza
σ2X, nonché della potenza
PX = EX{x2} = σ2X + (mx)2 di ogni suo membro. Tali medie di insieme sono descrizioni statistiche
del primo ordine, in quanto legate alla d.d.p. di
un singolo valore estratto.
In questa sezione definiamo invece una descrizione statistica
del secondo ordine ossia un momento misto (pag.
1), che come vedremo al §
7.2.1 ci metterà in grado di ottenere lo
spettro di densità di potenza dei membri del processo. Tale descrizione si basa sulla considerazione di due istanti
t1 e
t2 = t1 + τ, in corrispondenza dei quali sono estratte le variabili aleatorie
x1 = x(t1),
x2 = x(t2) a partire da una qualunque realizzazione
θ del processo
x(t, θ), di cui al lato sinistro di fig.
7.1 si mostra il caso per uno specifico membro
x(t, θ). Al variare della realizzazione
θ ∈ Θ tutte le coppie di valori campionati sono altrettante determinazioni di una variabile aleatoria
bidimensionale, descritta da una densità di probabilità
congiunta pX1X2(x1x2;t1t2), che dipende anche dagli istanti
t1 e
t2, e che è esemplificata nella parte destra di fig.
7.1; tale d.d.p.
bidimensionale sottende un volume unitario ovvero
∫ ∫p(x1, x2)dx1dx2 = 1, e il suo grafico
3d descrive le regioni del piano
x1x2 in cui ciascuna coppia di possibili valori è più o meno probabile.
7.1.1 Correlazione tra variabili aleatorie
Ora che abbiamo a disposizione la d.d.p. congiunta
pX1X2(x1x2;t1t2) di due v.a.
x1 e
x2 estratte dal processo
x(t, θ) a distanza temporale
τ, possiamo calcolare il loro
momento misto, ovvero un valore atteso (§
6.2.2) in cui, a differenza del caso monodimensionale, i possibili valori sono ponderati mediante la probabilità che si verifichino
assieme. In particolare, il momento misto
di ordine (1,1) (vedi pag.
1)
m(1, 1)XX(t1, t2) tra le v.a. prende il nome di
correlazione, ed è definito come
Prima di proseguire, proviamo ad approfondire il significato di questa nuova descrizione statistica nel suo contesto più ampio di due v.a. di tipo qualsiasi, non necessariamente estratte da un medesimo processo aleatorio, ma che descrivono due eventi in qualche modo interdipendenti.
Osserviamo innanzitutto che il segno della correlazione fra due v.a. x1 e x2 riflette la loro concordanza, nel senso che se m(1, 1)X1X2 > 0 le due v.a. hanno frequentemente lo stesso segno, oppure opposto qualora la correlazione sia negativa.
Individua un concetto simile, ma orientato al problema di
predire il valore atteso di una grandezza (es.
x2) a partire dalla conoscenza di un’altra (in questo caso
x1): possiamo infatti pensare che le grandezze siano legate da una relazione del tipo
x2 = f(x1) + ε dove
ε rappresenta la componente aleatoria, a media nulla e
statisticamente indipendente sia da
x1 che da
x2. Qualora
f(x1) = a ⋅ x1 + b si parla di
regressione lineare in quanto
f(x1) è l’equazione di una retta in cui
a = tanα è il coefficiente angolare e
b l’intercetta, ed al §
7.7.1 si mostra come risulti
a = σx1x2 σx1 e dunque (eq.
(10.152)) sia legato a
m(1, 1)X1X2, mentre
b = mx2 − amx1.
L’ultima riflessione prima di passare al lato analitico riguarda i diagrammi di dispersione (o
scattering) mostrati in fig.
7.3 che mappano la
posizione di un numero elevato di coppie di valori
x1 e
x2 secondo sei possibili leggi di dipendenza stocastica. Assieme alle nuvole, i diagrammi riportano anche i valori
stimati di correlazione
m(1, 1)X1X2 (
), covarianza σx1x2 ( ) (eq. (10.152)), e coefficiente di correlazione ρ (§ 7.7.2).
Nei casi a) e f) le coppie di valori sono legate da una legge ben poco casuale, ma nel secondo caso la correlazione è nulla poiché la dipendenza non è lineare. Nei casi b) e d) c’è più variabilità, ma si nota ancora una certa dipendenza tra le due v.a. Nei casi c) ed e) siamo invece al cospetto di due v.a. statisticamente indipendenti, dato che pX1X2(x1, x2) è fattorizzabile come pX1(x1)pX2(x2), e per le quali tra breve si mostra che risulta m(1, 1)X1X2 = mx1mx2, come infatti riscontriamo per il caso E) in cui le v.a. sono indipendenti, e la correlazione risulta 0.25 cioè pari al prodotto delle medie mx1 = mx2 = 0.5. Per gestire questo caso, occorre introdurre la covarianza, descritta di seguito.
7.1.2 Covarianza, indipendenza statistica e incorrelazione
Nel caso in cui le due v.a. siano
statisticamente indipendenti, ovvero per le quali si possa scrivere
pX1X2(x1, x2;t1, t2) = p(x1)p(x2)(), l’integrale che definisce la correlazione
si fattorizza, fornendo come risultato il prodotto delle medie delle v.a.:
E’ indicata come
σ(x1, x2) e consiste nella correlazione
m(1, 1)XX(t1, t2) a cui è sottratto il termine
mX1mX2, ottenendo il momento misto
centrato tra le due v.a. Infatti:
Siamo ora in grado di enunciare un’importante conseguenza dell’indipendenza statistica:
Se due variabili aleatorie x1 ed x2 sono statisticamente indipendenti, la loro covarianza σ(x1, x2) è nulla, e sono pertanto dette incorrelate.
Questa proprietà è valida in
una sola direzione, in quanto se per due v.a. si verifica una covarianza
σ(x1, x2) nulla,
non è detto che esse siano statisticamente indipendenti. L’unica circostanza in cui l’incorrelazione tra variabili aleatorie
ne implica l’indipendenza statistica è quella relativa al
caso gaussiano, come mostrato al §
6.5.1.
7.1.3 Correlazione di un processo stazionario ergodico
Qualora il processo da cui si estraggono
x1 e
x2 sia
stazionario almeno
in senso lato (§
6.3.4), la relativa d.d.p. congiunta dipende solamente dalla differenza
τ = t2 − t1 tra gli istanti
t2 e
t1 (vedi fig.
7.1), e dunque anche la correlazione
(10.150) dipende solamente da
τ:
che quindi viene ora indicata come
m(1, 1)XX(τ).
Se poi il processo oltre che stazionario è anche
ergodico (§
6.3.5), allora la media di insieme
m(1, 1)XX(τ) assume lo stesso valore della corrispondente media temporale. Pertanto nel caso in cui non si conosca la
pX1X2(x1x2;τ) ma si disponga invece di qualche realizzazione del processo, anziché tramite la
(10.153) la correlazione può essere ottenuta dalla
media temporale x(t, θi)x(t + τ, θi
) (vedi §
6.3.2) calcolata per una qualunque realizzazione
θi. Tale media temporale viene ora indicata come
Rx(τ), e corrisponde a
Dato che per processi stazionari ed ergodici le
(10.153) e
(10.154) forniscono lo stesso risultato, per essi anche la correlazione
(10.153) viene indicata con la notazione
Rx(τ) anziché
m(1, 1)XX(τ). Fermo restando che nel caso in cui non si disponga di realizzazioni del processo, ma si conosca la
pX1X2(x1x2;τ), la correlazione deve essere ottenuta dall’espressione
(10.153).
Prima di utilizzare (al §
7.2.1) il nuovo descrittore statistico
correlazione Rx(τ) per giungere ad una espressione della densità di potenza
Px(f) per processi ergodici, partiamo dal punto di contatto tra questi ultimi ed i segnali certi rappresentato dalle
(10.153) e
(10.154), per approfondire l’interpretazione di
Rx(τ) nel contesto
deterministico.
7.1.4 Autocorrelazione e intercorrelazione di segnali certi
Quando la media temporale
(10.154) è calcolata per un segnale
deterministico x(t) ovvero
Rx(τ) = x(t)x(t + τ) = limT → ∞ 1 T ⌠⌡T ⁄ 2 − T ⁄ 2 x(t)x(t + τ, ) dt
viene chiamata
integrale di autocorrelazione ed ancora indicata con
Rx(τ) come per la
(10.154), entrambe valide per segnali
di potenza. Nel caso invece di un segnale
di energia la
(10.154) darebbe risultato nullo, e per i segnali di energia la definizione di
autocorrelazione diviene
in cui l’operatore di coniugato generalizza l’espressione anche al caso di segnali complessi.
Confrontando le
(10.155) e
(10.154) con la
(10.35) di pag.
1, notiamo come l’autocorrelazione valuti l’energia (o potenza)
mutua (ovvero un
prodotto scalare) tra un segnale
x(t) ed una sua
copia anticipata: in questo senso, un valore elevato di
Rx(τ) indica che per quel valore di
τ (o di anticipo) le due copie del segnale
si somigliano, mentre un suo valore nullo è indice (per quella scelta di
τ) di
ortogonalità.
Esempio In fig.
7.4-a) è raffigurata una sequenza numerica
xn a media nulla ottenuta da una sinusoide a cui è sovrapposto rumore, mentre a destra si mostra la relativa autocorrelazione, che nel caso numerico si valuta come
Rx(k) = 1N ∑Nn = 1xnxn + k. Notiamo come
Rx(k) presenti dei massimi per
k multiplo del periodo della sinusoide, effetto della
sincronizzazione tra il segnale e la sua copia traslata.
Lo stesso concetto di similitudine legato ad uno scorrimento temporale è tanto più valido qualora il prodotto scalare sia calcolato tra due
diversi segnali
x(t) ed
y(t); in tal caso l’operazione prende il nome di integrale di
intercorrelazione, che per segnali
di energia ha espressione:
mentre per quelli
di potenza è definito come
Rxy(τ) = limT → ∞ 1 T ∫T ⁄ 2 − T ⁄ 2x*(t)y(t + τ)dt.
Nel caso in cui
Rxy(τ) = 0 per qualsiasi
τ i segnali sono detti
ortogonali, con riferimento allo spazio dei segnali per il quale
Rxy(τ) è un prodotto scalare, ma anche
incorrelati, con riferimento all’aspetto statistico
(10.151) per segnali a media nulla.
Legame con la convoluzione
Le espressioni
(10.155) e
(10.156) sono anche indicate come
funzioni di autocorrelazione e
intercorrelazione, e dato che il loro argomento è un tempo (l’intervallo tra due campioni)
Rx(τ) e
Rxy(τ) possono essere anche viste come
segnali (funzione di
τ anziché di
t). Nello studio abbiamo già incontrato un integrale (di convoluzione) il cui risultato è una funzione del tempo; la somiglianza tra i due è più profonda di una semplice analogia, in quanto risulta essere
in cui
* è il consueto simbolo di convoluzione.
L’ultima osservazione invita a realizzare la costruzione grafica di fig.
7.5,
che illustra la procedura per il calcolo di
un valore dell’integrale di autocorrelazione di
x(t) = rect2T(t), molto simile a quella già illustrata per la convoluzione (vedi §
3.4.3), con la differenza che ora
non si effettuano ribaltamenti di asse, e la traslazione è
all’indietro (anticipo temporale) anziché in avanti. Per un rettangolo reale risulta
x(t) = x*(−t), e dunque l’operazione equivale a calcolare
x(t) * x(t), ma a differenza della convoluzione alla seconda riga di fig. il termine
x(t + τ) per
τ > 0 si trasla
a sinistra. Alla terza riga è mostrato il prodotto dei segnali soprastanti, di cui l’integrale calcola l’area, fornendo il valore di
Rx(τ) a destra, come in figura.
Per un esempio
animato, vedi l’ultimo link della nota
123 a pag.
3.4.
7.1.5 Proprietà dell’autocorrelazione
Dedichiamoci ora ad approfondire alcuni aspetti che caratterizzano la funzione di autocorrelazione, fondamentali per meglio comprendere le indicazioni che Rx(τ) può fornire a riguardo del segnale x(t).
Invarianza rispetto alle traslazioni temporali
Le funzioni di autocorrelazione
Rx(τ) ed
Ry(τ) di due segnali
x(t) e
y(t) = x(t + θ) sono identiche . Notando ora che i due segnali hanno uguale modulo
|X(f)| = |Y(f)| e spettro di fase che differisce per un termine lineare (pag.
1), osserviamo che l’invarianza rispetto alle traslazioni è un aspetto di un risultato più generale, ossia
l’autocorrelazione non tiene conto dell’informazione legata allo spettro di fase dei segnali
In effetti
x(t) e
y(t) hanno anche la stessa densità spettrale di energia
Ex(f) = Ey(f) = |X(f)|2, come approfondiremo tra breve al §
7.2.1.
L’autocorrelazione di un segnale di durata limitata è anch’essa di durata limitata, di estensione doppia rispetto a quella del segnale originario, come mostrato in fig.
7.5. Nel caso di un segnale di energia a durata illimitata, dato che per ottenere
∫∞−∞x2(t)dt < ∞ occorre che
limt → ∞x(t) = 0,
Rx(τ) tende a zero allo stesso modo.
Nel caso infine di un segnale di potenza, come per un membro di processo ergodico in cui la
Rx(τ) (10.154) eguaglia la media di insieme
m(1, 1)XX(τ), dato che quest’ultima tende a zero per
τ → ∞, lo stesso avviene anche per
Rx(τ), ad eccezione dei due casi seguenti di segnale periodico, oppure a media non nulla.
L’autocorrelazione di un segnale periodico di periodo
T è anch’essa periodica, con lo stesso periodo. Infatti per
τ = nT il secondo fattore integrando in
(10.154) è traslato di un numero intero di periodi. Pertanto non occorre calcolare l’integrale su tutto l’asse dei tempi, e l’autocorrelazione dei segnali periodici è definita come
Qualora un segnale di potenza x(t), od un processo stazionario, possa essere scritto come x(t) = x0(t) + a in cui E{x0(t)} = 0 ed a una costante, troviamo che mx = a, e che Rx(τ) = Rx0(τ) + a2: dunque in questo caso l’autocorrelazione non si annulla per t → ∞, ma tende al valore m2x.
Per una autocorrelazione risulta
Rx(0) = maxτ{Rx(τ)}, ovvero il suo valore per
τ = 0 è
il massimo rispetto a qualunque altro
τ. In particolare,
Rx(0) è uguale all’energia del segnale
x(t), od alla sua potenza se
x(t) è di potenza, ossia
Rx(0) = ⎧⎪⎪⎨⎪⎪⎩ ∞⌠⌡ −∞|x(t)|2dt = Ex > |Rx(τ ≠ 0)| se x(t) è di energia limT → ∞1 T T⁄2⌠⌡ − T⁄2|x(t)|2dt = Px ≥ |Rx(τ ≠ 0)| se x(t) è di potenza
Notiamo inoltre che se
x(t) è periodico, l’ultimo segno
≥ è una eguaglianza per
τ multiplo di un periodo.
E’ possibile verificare che risulta
e ciò consente (vedi §
84) di affermare che
F {Rx(τ)} è reale.
Per l’intercorrelazione si ottiene un risultato simile, ovvero
Rxy(τ) = R * yx(−τ)
Nel caso in cui
x(t) sia reale, si ottiene
Rx(−τ) = Rx(τ), ovvero l’autocorrelazione di un segnale reale è
reale pari, alla stregua (come mostreremo ora) della sua trasformata di Fourier.