Distribuições Conjuntas de Probabilidade

Definimos um par aleatório como uma função (X,Y):ΩRX,YR2(X,Y) : \Omega \to \R_{X,Y} \subset \R^2 que satisfaz uma condição de mensurabilidade.

Condição de mensurabilidade

Diz-se que uma funçao FF com contradomínio em R2\R^2 satisfaz uma condição de mensurabilidade se qualquer região da forma ],x]×],y]]-\infty, x] \times ]-\infty, y] tiver imagem inversa segundo FF na σ\sigma-álgebra A\mathcal{A} sobre Ω\Omega.

Os pares aleatórios discretos e contínuos, enquanto que partilham muitas semelhanças, devem ser tratados em separado para realçar os pormenores que os distinguem.

Pares Aleatórios Discretos

Um par aleatório (X,Y)(X,Y) diz-se discreto se o seu contradomínio RX,Y\R_{X,Y} for contável tal que existe uma função de probabilidade conjunta P:R2[0,1]P: \R^2 \to [0,1] tal que

(X,Y)RX,YP(X=x,Y=y)=1\sum_{(X,Y) \in \R_{X,Y}} P(X = x, Y = y) = 1
P(X=x,Y=y)>0,(X,Y)RX,YP(X = x, Y = y) > 0, \forall_{(X,Y) \in \R_{X,Y}}

A função de probabilidade conjunta costuma ser representada por uma tabela de duas entradas como mostrado abaixo:

X\YX \backslash Y y1y_1 y2y_2 \cdots ymy_m
x1x_1 P(X=x1,Y=y1)P(X=x_1, Y=y_1) P(X=x1,Y=y2)P(X=x_1, Y=y_2) \cdots P(X=x1,Y=ym)P(X=x_1, Y=y_m)
x2x_2 P(X=x2,Y=y1)P(X=x_2, Y=y_1) P(X=x2,Y=y2)P(X=x_2, Y=y_2) \cdots P(X=x2,Y=ym)P(X=x_2, Y=y_m)
\vdots \vdots \vdots \ddots \vdots
xnx_n P(X=xn,Y=y1)P(X=x_n, Y=y_1) P(X=xn,Y=y2)P(X=x_n, Y=y_2) \cdots P(X=xn,Y=ym)P(X=x_n, Y=y_m)

A função de distribuição conjunta é dada por

FX,Y(x,y)=P(Xx,Yy)=xx,yyP(X=x,Y=y)F_{X,Y}(x,y) = P(X \leq x, Y \leq y) = \sum_{x' \leq x, y' \leq y} P(X = x', Y = y')

Às funções que nos dão uma das VA de um par aleatório para todos os valores da outra dá-se o nome de funções de probabilidade marginais. As funções marginais de X e Y são então, respetivamente, dadas por

P(X=x)=yP(X=x,Y=y)P(Y=y)=xP(X=x,Y=y)P(X=x) = \sum_y P(X=x, Y=y) \quad P(Y=y) = \sum_x P(X=x, Y=y)

A partir destas funções definem-se as funções distribuição marginais

FX(x)=P(Xx)=xxP(X=x)=xxyP(X=x,Y=y)F_X(x) = P(X \leq x) = \sum_{x' \leq x} P(X = x') = \sum_{x' \leq x} \sum_y P(X = x', Y = y)
FY(y)=P(Yy)=yyP(Y=y)=yyxP(Y=y,X=x)F_Y(y) = P(Y \leq y) = \sum_{y' \leq y} P(Y = y') = \sum_{y' \leq y} \sum_x P(Y = y', X = x)

Podemos ainda averiguar a influência que as VA's têm uma sobre a outra através das funções de probabilidade condicionais (assumindo que todos os eventos no domínio da VA são possíveis):

P(X=xY=y)=P(X=x,Y=y)P(Y=y)P(X = x | Y = y) = \frac{P(X=x, Y=y)}{P(Y=y)}
P(Y=yX=x)=P(Y=y,X=x)P(X=x)P(Y = y | X = x) = \frac{P(Y=y, X=x)}{P(X=x)}

Esta condicionalidade permite-nos definir duas VA unidimensionais XYX|Y e YXY|X pelo que podemos calcular as suas fd, valor esperado, variância e outros:

FXY=y=P(XxY=y)=xxP(X=x,Y=y)F_{X|Y=y} = P(X \leq x | Y=y) = \sum_{x' \leq x} P(X=x', Y=y)
E(XY=y)=xxP(X=xY=y)E(X|Y=y) = \sum_x xP(X=x| Y=y)
V(XY=y)=E(X2Y=y)E(XY=y)2V(X|Y=y) = E(X^2|Y=y) - E(X|Y=y)^2

com definições análogas para YXY|X.

As VA de um par aleatório dizem-se independentes (X ⁣ ⁣ ⁣YX \indep Y) se para todo o (x,y)R2(x,y) \in \R^2

P(X=x,Y=y)=P(X=x)P(Y=y)FX,Y(x,y)=FX(x)FY(y)P(X=xY=y)=P(X=x)P(Y=yX=x)=P(Y=y)E(YX=x)=E(Y)E(XY=y)=E(X)V(YX=x)=V(Y)V(XY=y)=V(X)\begin{aligned} &&P(X=x, Y=y) &= P(X=x)P(Y=y)\\ &\Leftrightarrow& F_{X,Y}(x,y) &= F_X(x) F_Y(y)\\ &\Leftrightarrow& P(X=x|Y=y) &= P(X=x)\\ &\Leftrightarrow& P(Y=y|X=x) &= P(Y=y)\\ &\Leftrightarrow& E(Y|X=x) &= E(Y)\\ &\Leftrightarrow& E(X|Y=y) &= E(X)\\ &\Leftrightarrow& V(Y|X=x) &= V(Y)\\ &\Leftrightarrow& V(X|Y=y) &= V(X) \end{aligned}

Pares Aleatórios Contínuos

Um par aleatório (X,Y)(X,Y) diz-se contínuo se o seu contradomínio RX,Y\R_{X,Y} for não contável tal que existe uma função de densidade de probabilidade conjunta fX:R2[0,1]f_X: \R^2 \to [0,1] tal que

R2fX,Y(x,y)=1\iint_{\R^2} f_{X,Y}(x, y) = 1
fX,Y(x,y)0,(X,Y)R2f_{X,Y}(x,y) \geq 0, \forall_{(X,Y) \in \R^2}
P((X,Y)A)=AfX,Y(x,y)dydxP((X,Y) \in A) = \iint_{A} f_{X,Y}(x, y) \, dy \, dx

A função de distribuição conjunta é dada por

FX,Y(x,y)=P(Xx,Yy)=xyfX,Y(x,y)dxdyF_{X,Y}(x,y) = P(X \leq x, Y \leq y) = \int_{-\infty}^x \int_{-\infty}^y f_{X,Y}(x,y) \, dx \, dy

Às funções que nos dão uma das VA de um par aleatório para todos os valores da outra dá-se o nome de funções de densidade de probabilidade marginais. As funções marginais de X e Y são então, respetivamente, dadas por

fX(x)=fX,Y(x,y)dyfY(y)=fX,Y(x,y)dxf_X(x) = \int_{-\infty}^\infty f_{X,Y}(x,y) \, dy \quad \quad f_Y(y) = \int_{-\infty}^\infty f_{X,Y}(x,y) \, dx

A partir destas funções definem-se as funções distribuição marginais

FX(x)=P(Xx)=xfX(u)duFY(y)=P(Yy)=yfY(u)duF_X(x) = P(X \leq x) = \int_{-\infty}^x f_X(u) \, du \quad \quad F_Y(y) = P(Y \leq y) = \int_{-\infty}^y f_Y(u) \, du

Tal como no caso discreto podemos averiguar a influência que as VA's têm uma sobre a outra através das funções de densidade de probabilidade condicionais:

fXY=y(x)=fX,Y(x,y)fY(y)fYX=x(y)=fX,Y(x,y)fX(x)f_{X|Y=y}(x) = \frac{f_{X,Y}(x,y)}{f_Y(y)} \quad \quad f_{Y|X=x}(y) = \frac{f_{X,Y}(x,y)}{f_X(x)}

Outra vez, esta condicionalidade define duas VA unidimensionais XYX|Y e YXY|X pelo que podemos calcular as suas fd, valor esperado, variância e outros:

FXY=y(x)=fX,Y(x,y)fY(y)F_{X|Y=y}(x) = \frac{f_{X,Y}(x,y)}{f_Y(y)}
E(XY=y)=xfXY=y(x)dxE(X|Y=y) = \int_{-\infty}^\infty xf_{X|Y=y}(x) \, dx
V(XY=y)=E(X2Y=y)E2(XY=y)V(X|Y=y) = E(X^2 | Y=y) - E^2(X | Y=y)

com definições análogas para YXY|X.

As VA de um par aleatório dizem-se independentes (X ⁣ ⁣ ⁣YX \indep Y) se para todo o (x,y)R2(x,y) \in \R^2

fX,Y(x,y)=fX(x)fY(y)FX,Y(x,y)=FX(x)FY(y)fXY=y(x)=fX(x)fYx=x(y)=fY(y)E(YX=x)=E(Y)E(XY=y)=E(X)V(YX=x)=V(Y)V(XY=y)=V(X)\begin{aligned} &&f_{X,Y}(x,y) &= f_X(x)f_Y(y)\\ &\Leftrightarrow& F_{X,Y}(x,y) &= F_X(x) F_Y(y)\\ &\Leftrightarrow& f_{X|Y=y}(x) &= f_X(x)\\ &\Leftrightarrow& f_{Y|x=x}(y) &= f_Y(y)\\ &\Leftrightarrow& E(Y|X=x) &= E(Y)\\ &\Leftrightarrow& E(X|Y=y) &= E(X)\\ &\Leftrightarrow& V(Y|X=x) &= V(Y)\\ &\Leftrightarrow& V(X|Y=y) &= V(X) \end{aligned}

Covariância e Correlação

A covariância é uma função de duas VA's que mede a associação absoluta entre as mesmas:

cov(X,Y)=E((XE(X))(YE(Y)))=E(XY)E(X)E(Y)cov(X,Y) = E\left( (X - E(X))(Y-E(Y)) \right) = E(XY) - E(X)E(Y)

A covariância desfruta das seguintes propriedades:

  • X ⁣ ⁣ ⁣Ycov(X,Y)=0X \indep Y \Rightarrow cov(X,Y) = 0 e equivalentemente cov(X,Y)0X⊥̸ ⁣ ⁣ ⁣Ycov(X,Y) \neq 0 \Rightarrow X \not\indep Y
  • A implicação contrária não é necessariamente verdade! cov(X,Y)=0⇏X ⁣ ⁣ ⁣Ycov(X,Y) = 0 \not\Rightarrow X \indep Y
  • cov(X,X)=V(X)cov(X,X) = V(X)
  • cov(X,Y)=cov(Y,X)cov(X,Y) = cov(Y,X)
  • cov(aX+b,Y)=acov(X,Y)cov(aX+b, Y) = a \cdot cov(X, Y)
  • cov(X+Z,Y)=cov(X,Y)+cov(Z,Y)cov(X+Z, Y) = cov(X, Y) + cov(Z, Y)
  • cov(i=1nXi,i=1nYi)=i=1nj=1ncov(Xi,Yj)cov(\sum_{i=1}^n X_i, \sum_{i=1}^n Y_i) = \sum_{i=1}^n \sum_{j=1}^n cov(X_i, Y_j)
  • cov(i=1nXi,i=1nXi)=i=1nV(Xi)+2i=1nj=i+1ncov(Xi,Xj)cov(\sum_{i=1}^n X_i, \sum_{i=1}^n X_i) = \sum_{i=1}^n V(X_i) + 2 \sum_{i=1}^n \sum_{j=i+1}^n cov(X_i, X_j)

A covariância tem a desvantagem de não ser adimensional. Ou seja, um escalonamento da VA (multiplicação por um escalar) altera o valor da covariância. Isto é um problema, por exemplo, quando queremos mudar a escala (por exemplo, de kg para g) - a covariância não se mantém!

Para resolver o problema apresentado, serge a correlação. A correlação mede a associação relativa entre duas VA XX e YY:

corr(X,Y)=cov(X,Y)V(X)V(Y)corr(X,Y) = \frac{cov(X,Y)}{\sqrt{V(X)V(Y)}}

XX e YY dizem-se correlacionadas se corr(X,Y)0corr(X,Y) \neq 0 e não correlacionadas caso contrário.

A correlação desfruta das seguintes propriedades:

  • X ⁣ ⁣ ⁣Ycorr(X,Y)=0X \indep Y \Rightarrow corr(X,Y) = 0 e equivalentemente corr(X,Y)0X⊥̸ ⁣ ⁣ ⁣Ycorr(X,Y) \neq 0 \Rightarrow X \not\indep Y
  • A implicação contrária não é necessariamente verdade! corr(X,Y)=0⇏X ⁣ ⁣ ⁣Ycorr(X,Y) = 0 \not\Rightarrow X \indep Y
  • corr(X,X)=1corr(X,X) = 1
  • corr(X,Y)=corr(Y,X)corr(X,Y) = corr(Y,X)
  • corr(aX+b,Y)=corr(X,Y)corr(aX+b,Y) = corr(X,Y)
  • 1corr(X,Y)1-1 \leq corr(X,Y) \leq 1
  • corr(X,Y)=1Y=aX+bcorr(X,Y) = 1 \Leftrightarrow Y = aX+b para algum aR+a \in \R^+ e corr(X,Y)=1Y=aX+bcorr(X,Y) = -1 \Leftrightarrow Y = aX+b para algum aRa \in \R^-

A correlação deve ser interpretada da seguinte forma:

  • corr(X,Y)1|corr(X,Y)| \simeq 1 então XX e YY têm associação quase linear;
  • corr(X,Y)>0corr(X,Y)>0 indica uma correlação linear positiva (i.e, se uma VA aumenta a outra tende a aumentar também) e corr(X,Y)<0corr(X,Y)<0 indica uma correlação linear negativa (i.e, se uma VA aumenta a outra tende a diminuir)