Edit page

Estimação Pontual

Como deverá ser sabido, o nome da cadeira em estudo é Probabilidade e Estatística. Nos capítulos anteriores vimos como atribuir probabilidades a determinados eventos. Isto é, na primeira parte tratámos do estudo de probabilidades.
A segunda parte vai, então, tratar da parte da estatística.

Estatística

Ramo da Matemática Aplicada que estuda como recolher, apresentar e interpretar dados relativos a fenómenos aleatórios, visando a caracterização desses fenómenos.

Vamos introduzir alguns conceitos base da estatística:

  • VA ou característica de interesse - característica crucial para o conhecimento do fenómeno aleatório em estudo;
  • população - conjunto de todos os indivíduos que têm em comum certa característica de interesse;
  • unidade estatística - nome dado a cada elemento de certa população;
  • amostra - subconjunto de uma população que se julga representativo da mesma;
  • dado estatístico - resultado observado em relação a uma característica de interesse e respeitante a cada unidade estatística duma amostra;
  • amostragem - conjunto de procedimentos estatísticos com objetivo de obter amostras;
  • estatística descritiva - conjunto de métodos que permitem tornar a informação retirada diretamente de uma amostra (caótica) num conjunto de informações sumárias e mais relevantes;
  • inferência estatística - compreende um conjunto de métodos com o objetivo de usar a informação (dados/amostra) de modo a responder a questões sobre a população. Consiste então num método para tirar conclusões sobre uma população (geral) a partir de uma amostra (particular).

Na estatística, estamos interessados em fazer afirmações sobre uma característica de interesse de uma dada população. Contudo, é frequente ser impossível analisar essa característica em todos os elementos da população (em estatística, dá-se o nome de unidade estatística a cada elemento da população). É então relevante que sejamos capazes de selecionar uma porção da população, tal que, para essa porção, já seja possível fazer a análise da tal característica. A esta porção damos o nome de amostra e ao processo de seleção dá-se o nome de amostragem. Em relação à amostra, já é possível fazer observações (e a partir destas obter dados estatísticos). A partir das observações, é agora importante ser capaz de obter informação sobre a população em geral. Isto é feito através de uma inferência estatística.

Amostragem e Inferência Estatística

Exemplo

Admita-se que queremos fazer um estudo sobre a altura da população portuguesa. Nesse caso, a característica que está em estudo - a característica de interesse é a altura, sendo a população em estudo o conjunto dos portugueses. Um exemplo de uma unidade estatística é o Cristiano Ronaldo, uma vez que este pertence ao conjunto dos portugueses.
Como seria muito dispendioso ir verificar a altura dos portugueses um a um, é importante obter um subconjunto desta população que se considere representativo da mesma - uma amostra. Um exemplo de uma amostra seria (Cristiano Ronaldo, João Pavão Martins, Quim Barreiros, Luís Humberto, Marco Almeida). O processo para seleção desta amostra denomina-se de amostragem (claro que a amostragem que levou à amostra apresentada não teve nada de aleatório). Em relação à amostra selecionada, podemos fazer a seguinte observação - a que damos o nome de dados estatísticos - (1.87,1.73,1.54,2.14,1.82)(1.87, 1.73, 1.54, 2.14, 1.82) corresponde às alturas dos elementos da amostra selecionada.
Esta amostra é pequena, pelo que analisá-la não é demasiado difícil. No entanto, para amostras maiores, processar toda a informação pode chegar a ser impossível. É então importante tirar conclusões a partir do dado estatístico. Isto é feito através de um conjunto de métodos enquadrados na estatística descritiva. Um exemplo de algo que seria feito neste passo seria calcular a média dos valores observados. No nosso exemplo verificamos que a média das alturas na nossa amostra é 1.82m.
A partir dos dados obtidos podemos realizar uma inferência estatística para obter informação sobre a altura dos portugueses no geral. Podemos, por exemplo, sentir-nos tentados a concluir que, em média, os portugueses medem 1.82m.

Amostragem Aleatória

Por forma a que as inferências tenham a maior precisão possível, exigimos que haja aleatoriedade (parcial ou total) no processo de amostragem.

  • Amostra Aleatória (AA) - Para uma VA de interesse XX e VA's X1,X2,,XnX_1, X_2, \cdots, X_n i.i.d a XX, dizemos que o vetor aleatório X=(X1,X2,,Xn)\underline{X} = (X_1, X_2, \cdots, X_n) diz-se uma amostra aleatória (AA) de dimensão nn, da VA/população XX;

  • Amostra - A uma observação particular de uma AA X=(X1,X2,,Xn)\underline{X} = (X_1, X_2, \cdots, X_n), dá-se o nome de amostra e representa-se por x=(x1,x2,,xn)\underline{x} = (x_1, x_2, \cdots, x_n).
    Temos que

    P(X=x)=i=1nP(Xi=xi)=i=1nP(X=xi)P(\underline{X} = \underline{x}) = \prod_{i=1}^n P(X_i = x_i) = \prod_{i=1}^n P(X = x_i)

    para XX discreta e

    fX(x)=i=1nfXi(xi)=i=1nfX(xi)f_{\underline{X}}(\underline{x}) = \prod_{i=1}^n f_{X_i}(x_i) = \prod_{i=1}^n f_X(x_i)

    para XX contínua.

  • Estatística - medida descritiva de uma AA com o objetivo de sumariar alguma informação sobre a mesma. Eis alguns exemplos:

    • Mínimo: X(1)=mini=1,,nXiX_{(1)} = \min_{i = 1, \cdots, n} X_i
    • Máximo: X(n)=maxi=1,,nXiX_{(n)} = \max_{i = 1, \cdots, n} X_i
    • Amplitude: R=X(n)X(1)R = X_{(n)} - X_{(1)}
    • Média: X=1ni=1nXi\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i
    • Variância Corrigida: S2=1n1i=1n(XiX)2S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2
    • Variância não Corrigida: (S)2=1ni=1n(XiX)2=n1nS2(S')^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^2 = \frac{n-1}{n}S^2
A média das alturas dos portugueses é 1.82m???

Depois da introdução do conceito de amostragem aleatória, deve ser claro porque é que a conclusão a que chegamos no exemplo acima parece estranha: a nossa amostragem não foi aleatória!
A aleatoriedade da amostragem é importante para prevenir o enviesamento da amostra para subconjuntos da população com certas características. Nomeadamente, na nossa amostragem, a média pode estar algo puxada para cima visto que a amostra é composta apenas por homens (que são tendencialmente mais altos que mulheres) e por conter o Humberto (que é gigante).

Atente-se na distinção entre amostra e amostra aleatória. Pode-se pensar na amostra como num subconjunto da população, sendo a amostra aleatória um conjunto de "placeholders" para uma amostra. Pensando no sentido contrário, podemos pensar na amostra aleatória como um conjunto de seleções aleatórias sobre a população, sendo uma amostra uma concretização dessa seleção.

Estimadores

O objetivo principal da estatística é efetuar inferências sobre características de uma VA XX com base numa amostra. Considera-se, no geral, que a distribuição de XX é:

  • parcialmente desconhecida, se é conhecido o tipo de distribuição mas um ou mais parâmetros são desconhecidos. Inferências sobre este tipo de VA's dizem-se do tipo paramétrico.
  • totalmente desconhecida, se nem a distribuição se conhece. Neste caso, as inferências dizem-se não paramétricas.

Um parâmetro desconhecido representa-se normalmente por θ\mathbf{\theta} no caso unidimensional e por θ\mathbf{\underline{\theta}} no caso multidimensional. Ao espaço de valores que θ\theta pode tomar dá-se o nome de espaço paramétrico e representa-se por Θ\mathbf{\Theta}. Para uma VA XX que segue uma distribuição distdist, damos o nome de modelo paramétrico de XX à família de distribuições {dist(θ),θΘ}\{ dist(\theta), \theta \in \Theta \}.

Os estimadores consistem em estatísticas que tentam "adivinhar" o valor de um parâmetro. Mais precisamente, uma estatística diz-se um estimador do parâmetro desconhecido θ\theta se o seu contradomínio estiver contido em Θ\Theta.
Ao valor observado de um estimador TT dá-se o nome de estimativa.

Exemplo

À partida, podemos dizer que a distribuição da altura dos portugueses é totalmente desconhecida, uma vez que não sabemos qual a distribuição que segue. Se assumirmos, no entanto, que a altura dos portugueses segue uma distribuição normal, passamos a ter uma VA parcialmente desconhecida, já que conhecemos a distribuição, mas não sabemos os seus parâmetros (μ\mu e σ2\sigma^2).
Se estivermos interessados em determinar o valor esperado da altura de um português, μ\mu passa a ser o nosso parâmetro desconhecido. O espaço paramétrico é o conjunto de valores que o parâmetro pode tomar. Neste caso, Θ=R+\Theta = \R^+, uma vez que uma pessoa pode tomar qualquer altura positiva (bem, mais ou menos). O modelo paramétrico vai então ser o conjunto de todas as distribuições (com parâmetro especificado) que a altura dos portugueses pode seguir.
Um estimador para o valor esperado é, por exemplo, o que usamos no exemplo inicial: a média X=1ni=1nXi\underline{X} = \frac{1}{n}\sum_{i=1}^n X_i. Nesse exemplo, obtivemos como estimativa o valor de 1.82m1.82m.

Enviesamento

A definição de enviesamento não é lecionada no programa de 2021/22.

Damos o nome de enviesamento de um estimador TT de θ\theta ao valor

biasθ[T(X)]=E(T(X))θbias_\theta[T(\underline{X})] = E(T(\underline{X})) - \theta

Um estimador diz-se centrado se tiver enviesamento nulo e enviesado caso contrário.
Um estimador será tanto melhor quanto menor o seu enviesamento.

Nota

A variância corrigida é centrada, ao contrário da não corrigida. É por esta razão que frequentemente usamos a variância corrigida em vez da não corrigida.

Erro Quadrático Médio

A definição de erro quadrático médio não é lecionada no programa de 2021/22.

O erro quadrático médio procura calcular quanto um estimador se dispersa em torno do verdadeiro valor do parâmetro desconhecido θ\theta. Este é dado por

EQMθ(T(X))=E[(T(X)θ)2]=V(T(X))+biasθ(T(X))2EQM_\theta \left( T( \underline{X} ) \right) = E \left[ (T(\underline{X}) - \theta)^2 \right] = V(T(\underline{X})) + bias_\theta(T(\underline{X}))^2

Um estimador será tanto melhor quanto menor o seu erro quadrático médio.
Dizemos que um estimador T1T_1 é mais eficiente que outro T2T_2, se EQMθ(T1(X))<EQMθ(T2(X))EQM_\theta(T_1(\underline{X})) < EQM_\theta(T_2(\underline{X})). Definimos a eficiência relativa de um estimador T1(X)T_1(\underline{X}) em relação a um estimador T2(X)T_2(\underline{X}) de parâmetro desconhecido θ\theta como:

eθ(T1(X),T2(X))=EQMθ(T2(X))EQMθ(T1(X))e_\theta(T_1(\underline{X}), T_2(\underline{X})) = \frac{EQM_\theta(T_2(\underline{X}))}{EQM_\theta(T_1(\underline{X}))}

Sendo assim, temos que o estimador T1(X)T_1(\underline{X}) é mais eficiente que T2(X)T_2(\underline{X}), se eθ(T1(X),T2(X))>1e_\theta(T_1(\underline{X}), T_2(\underline{X})) > 1.

Método da Máxima Verosimilhança

O método da máxima verosimilhança (MV) consiste num método para obter o valor mais plausível/verosímil para um parâmetro desconhecido θ\theta, de entre todos os valores possíveis para o mesmo, tendo em conta uma amostra x\underline{x}.

Definimos a função verosimilhança como a função L(θx):ΘRL(\theta | \underline{x} ) : \Theta \to \R tal que:

  • L(θx)=P(X=x)=i=1nP(Xi=xiθ)L(\theta | \underline{x}) = P(\underline{X} = \underline{x}) = \prod_{i=1}^n P(X_i = x_i | \theta) no caso discreto;
  • L(θx)=fX(x)=i=1nfXi(xiθ)L(\theta | \underline{x}) = f_{\underline{X}}(\underline{x}) = \prod_{i=1}^n f_{X_i}(x_i | \theta) no caso contínuo;

Ou seja, a função verosimilhança define a probabilidade de obtermos a amostra recolhida x\underline{x} assumindo a validade de um certo valor para o parâmetro desconhecido θ\theta.

Damos o nome de estimativa de máxima verosimilhança ao valor θΘ\theta \in \Theta que maximiza L(θx)L(\theta | \underline{x}) para a amostra x\underline{x}.

Frequentemente, é mais fácil encontrar máximos da função ln[L(θx)]\ln \left[ L(\theta | \underline{x}) \right], já que esta trabalha com somas (ao invés de produtos). A esta função dá-se o nome de log-verosimilhança.

O máximo da função verosimilhança/log-verosimilhança é obtido:

  • por análise pontual, quando Θ\Theta é finito;
  • recorrendo às ferramentas do cálculo, quando Θ\Theta é um conjunto que o permita (por exemplo, um intervalo nos reais).
Exemplo

Consideremos uma variável aleatória de Poisson com valor esperado μ\mu e uma amostra tal que xˉ=0.5\bar{x} = 0.5.


Queremos então determinar a estimativa de máxima verosimilhança para μ\mu.

  • Função de probabilidade

    P(X=x)=eμμxx!P(X = x) = \frac{e^{-\mu} \mu ^{x}}{x!}
  • Função de máxima verosimilhança de μ\mu:

L(μ;x)=i=1neμμxixi!=enμi=1nμxixi!=enμμi=1nxii=1n1xi!L(\mu; \underline{x}) = \prod_{i = 1}^{n} \frac{e^{- \mu} \mu ^ {x_i}}{x_i !} = e^{-n \mu} \cdot \prod_{i = 1}^{n} \frac{\mu^{x_i}}{x_i !} = e^{-n \mu} \cdot \mu^{\sum_{i = 1}^{n} x_i} \cdot \prod_{i = 1}^{n}\frac{1}{x_i !}
  • Log Verosimilhança
    ln L(μ;x)=ln(enμ)+ln(μi=1nxi)ln(i=1nxi!)=ln \ L(\mu; \underline{x}) = ln (e^{-n\mu}) + ln (\mu^{\sum_{i = 1}^{n} x_i}) - ln(\prod_{i = 1}^{n} x_i !) =
=nμ+i=1n(xi) ln(μ)ln(i=1nxi!)=g(μ) = -n\mu + \sum_{i = 1}^{n}(x_i)\ ln(\mu) - ln(\prod_{i = 1}^{n} x_i !) = g(\mu)
  • Derivadas de Log Verosimilhança (procurar máximos)
g(μ)=n+i=1nxiμg'(\mu) = -n + \frac{\sum_{i = 1}^{n} x_i}{\mu}
g(μ)=0μ=i=1nxinμ=xˉg'(\mu) = 0 \Leftrightarrow \mu = \frac{\sum_{i = 1}^{n} x_i}{n} \Leftrightarrow \mu = \bar{x}
g(μ)=i=1nxiμ2<0,  μg''(\mu) = - \frac{\sum_{i = 1}^{n} x_i}{\mu^{2}} \lt 0, \ \ \forall \mu

Logo, temos que uma estimativa de máxima verosimilhança de μ\mu para a amostra x\underline{x} é

emv(μ)=xˉ=0.5emv(\mu) = \bar{x} = 0.5

Temos também que um estimador de máxima verosimilhança para μ\mu é

EMV(μ)=XˉEMV(\mu) = \bar{X}

Nota 1: Caso seja pedido, por exemplo, a estimativa da probabilidade de X>5X > 5, basta utilizar a estimativa de máxima verosimilhança obtida para μ\mu como se fosse o valor real de μ\mu na função e calcular normalmente. (Propriedade da invariância)

Nota 2: Neste exemplo foi dado o valor de xˉ\bar{x} mas poderiam ter sido dadas as observações, i.e x1=0,x2=1,x3=0.5x_1 = 0, x_2 = 1, x_3 = 0.5 ou também ser dito "observaram-se 10 eventos em 20 intervalos de tempo unitários."
Para este tipo de exercícios variam os valores amostrais e as funções de probabilidade/densidade de probabilidade, logo, convém estar familiarizado com propriedades de produtórios e logaritmos e saber interpretar as v.av.a dadas (caso sejam de Poisson, Binomiais, etc).

Este método dá-nos, em função de uma amostra x\underline{x}, uma expressão para uma estimativa de máxima verosimilhança. Substituindo uma amostra particular x\underline{x} por uma amostra aleatória X\underline{X} permite-nos obter um estimador de máxima verosimilhança para θ\theta (que não depende de nenhuma amostra em particular).

Os estimadores de MV satisfazem as seguintes propriedades:

  • Invariância - Se EMV(θ)EMV(\theta) é o estimador de MV de θ\theta e hh uma função bijetiva, então EMV(h(θ))=h(EMV(θ))EMV(h(\theta)) = h(EMV(\theta));
  • Suficiência - As estimativas de MV condensam toda a informação relevante, contida na amostra, sobre o parâmetro;
  • Consistência - À medida que o tamanho da AA aumenta, o EMV(θ)EMV(\theta) dispersa-se cada vez menos do verdadeiro valor de θ\theta.
Exemplo

(Exemplo retirado do Teste 2C de 2016/2017 de PE)

Admita que a proporção de zinco no corpo de um jogador da NBA é representada pela variável aleatória XX com função de densidade de probabilidade

fX(x)={θxθ1,0<x<10,caso contraˊriof_X(x) = \begin{cases} \theta x^{\theta - 1}, & 0 < x < 1 \\ 0, & \text{caso contrário} \end{cases}

onde θ\theta é um parâmetro positivo desconhecido.

Caso queiramos chegar ao estimador de máxima verosimilhança de θ\theta, tendo em conta uma amostra qualquer amostra aleatória (X1,...,Xn)(X_1, ..., X_n) proveniente da população XX, devemos:

  1. Chegar ao valor da função de verosimilhança.
L(θx)=fx(x)=i=1nfXi(xi)=i=1nfX(xi)=i=1n[θxiθ1]=θn[i=1nxi]θ1\begin{aligned} L(\theta | \underline{x}) &= f_{\underline{x}}(\underline{x})\\ &= \prod_{i=1}^n f_{X_i}(x_i) \\ &= \prod_{i=1}^n f_{X}(x_i) \\ &= \prod_{i=1}^n \biggl[ \theta x_i^{\theta - 1} \biggr] \\ &= \theta^n \biggl[\prod_{i=1}^n x_i \biggr]^{\theta - 1} \end{aligned}
  1. Chegar ao valor da função de log-verosimilhança.
lnL(θx)=nln(θ)+(θ1)i=1nlnxi\ln L(\theta | \underline{x})= n \ln(\theta) + (\theta - 1) \sum_{i=1}^n \ln x_i

(Note-se que é muito mais simpático derivar esta função)

  1. Maximização.

A estimativa de MV de θ\theta, θ^\hat{\theta}, será tal que:

θ^:{ddθlnL(θx)=0(ponto de estacioneridade)d2dθ2lnL(θx)<0(ponto de maˊximo){nθ+i=1nln(xi)=0nθ2<0{θ^=ni=1nln(xi)[i=1nln(xi)]2n<0(sempre verdade)\begin{aligned} \hat{\theta}: &\begin{cases} \frac{d}{d\theta} \ln L(\theta | \underline{x}) &= 0 \qquad \text{(ponto de estacioneridade)} \\ \frac{d^2}{d\theta^2} \ln L(\theta | \underline{x}) &< 0 \qquad \text{(ponto de máximo)} \\ \end{cases} \\ &\begin{cases} \frac{n}{\theta} + \sum_{i=1}^n \ln(x_i) = 0 \\ -\frac{n}{\theta^2} < 0 \\ \end{cases} \\ &\begin{cases} \hat{\theta} = - \frac{n}{\sum_{i=1}^n \ln(x_i)} \\ - \frac{[\sum_{i=1}^n \ln(x_i)]^2}{n} < 0 \qquad \text{(sempre verdade)}\\ \end{cases} \end{aligned}

Temos, por fim, que:

EMV(θ)=θ^=ni=1nln(xi)EMV(\theta) = \hat{\theta} = - \frac{n}{\sum_{i=1}^n \ln(x_i)}

Distribuições Amostrais

Distribuição Amostral

Distribuição seguida por uma estatística ou estimador.

Exemplos:

  • FX(1)(x)=1(1FX(x))nF_{X_{(1)}}(x) = 1 - (1 - F_X(x))^n
  • FX(n)(x)=(FX(x))nF_{X_{(n)}}(x) = (F_X(x))^n

A média está de modo geral relacionada com o estimador de MV do valor esperado, pelo que é particularmente interessante estudar a sua distribuição amostral. Como já vimos no capítulo anterior:

Xnormal(μ,σ2)Xnormal(μ,σ2n)X com qualquer distribuic¸a˜Xnormal(μ,σ2n) para n>> (segundo o TLC)X \sim \op{normal}(\mu, \sigma^2) \Rightarrow \overline{X} \sim \op{normal}(\mu, \frac{\sigma^2}{n}) \\ X \text{ com qualquer distribuição } \Rightarrow \overline{X} \sim \op{normal}(\mu, \frac{\sigma^2}{n}) \text{ para } n>> \text{ (segundo o TLC)}