ESTATÍSTICA: Desvio-padrão, Erro Padrão e Intervalo de Confiança

Uma das dúvidas mais comuns no estudo de Estatística é a diferença entre desvio-padrão amostral (s), erro-padrão (s) e intervalo de confiança (IC).

O desvio-padrão amostral é uma medida de variabilidade de uma única amostra composta por n elementos, sendo obtido por meio da equação matemática a seguir:


Onde: s = desvio-padrão amostral, Xi = valor do i-ésimo elemento de X, X̄ = média amostral e n = tamanho da amostra.

Valores mais elevados de s indicam que a variabilidade dos dados entre os valores dos elementos da amostra e a média amostral é considerável. Salienta-se que a soma dos quadrados das diferenças é usada para evitar um valor nulo quando a variabilidade existe. Veja a comparação de duas amostras de mesmo tamanho:

Exemplo 1: Em uma fábrica de esferas metálicas, os diâmetros, em milímetros, de 6 esferas coletadas aleatoriamente (amostra 1) foram medidos e comparados com os diâmetros de outras 6 esferas coletadas no dia seguinte (amostra 2). Eis os dados: amostra 1 (8, 6, 7, 8, 6, 7) e amostra 2 (8, 8, 7, 8, 7, 8).

> am1 = c(8, 6, 7, 8, 6, 7) # criando o vetor da amostra 1
> am2 = c(8, 8, 7, 8, 7, 8) # criando o vetor da amostra 2
> sd(am1) # calculando o desvio-padrão da amostra 1
> [1] 0.8944272
> sd(am2) # calculando o desvio-padrão da amostra 2
> [1] 0.5163978

A amostra 1 apresentou maior desvio-padrão do que a amostra 2, ou seja, a amostra 1 mostra maior variabilidade dos valores de seus elementos com relação à média amostral.
O desvio-padrão amostral é representado junto à média amostral da seguinte forma:

Amostra 1: 7,00 ± 0,89
Amostra 2: 7,67 ± 0,52

O erro padrão é uma medida de variabilidade de um conjunto de médias de amostras, sendo estas obtidas a partir de uma mesma população. Para entender melhor o conceito, imagine que várias amostras de mesmo tamanho sejam retiradas, com reposição, de uma população. A distribuição das médias dessas amostras tenderá a uma distribuição normal com média µ e desvio-padrão σ/√n (erro-padrão).
Dado que geralmente não se conhece o desvio-padrão populacional, a equação matemática do erro padrão se torna assim:


Onde: s = erro padrão, s = desvio padrão amostral e n = tamanho da amostra.
OBS: o cálculo de s é feito com n sendo a soma dos elementos de todas as amostras coletadas.

Na prática, use o erro padrão da média para determinar a precisão com a qual a média das amostras estima µ. Baixos valores de erro padrão da média indicam maior precisão da estimativa da média da população. E, dada a equação, valores elevados de desvio padrão geram um erro padrão maior e, consequentemente, uma estimativa menos precisa. Por fim, tamanhos amostrais maiores resultam em um erro padrão menor e em uma estimativa mais precisa.

O intervalo de confiança da média populacional µ, por sua vez, é o intervalo de valores que com (1 - α)% de confiança contém o valor de µ. Na verdade, se fizermos infinitas coletas de amostras, com reposição, (1 - α)% dos IC criados conterão o valor de µ.
Uma vez que a distribuição das médias amostrais é normal com média µ, pode-se calcular os valores mínimo e máximo do IC relacionados ao nível de significância α. Mas, para tanto, há duas formas de calcular o IC: conhecendo o desvio-padrão populacional (σ) e sem o valor de σ.

a) Cálculo de IC conhecendo σ
Para tanto, utiliza-se a equação matemática a seguir:


Onde: IC = intervalo de confiança, X̄: média amostral, Zα/2 = estatística Z de α/2, σ = desvio-padrão populacional e n = tamanho da amostra.

b) Cálculo de IC sem conhecer σ
Para tanto, utiliza-se a equação matemática a seguir:


Onde: IC = intervalo de confiança, X̄: média amostral, tα/2 = estatística t de α/2 com g.l. = n - 1, s = desvio-padrão amostral e n = tamanho da amostra.
OBS1: o IC apresenta em uma parte de sua equação o equivalente da fórmula do erro padrão, mas na prática o IC é obtido a partir de uma única amostra, com X̄, s e n correspondentes. OBS2: como já mencionado, o erro padrão corresponde ao desvio-padrão das médias amostrais. E também pode ser visto como um IC onde a probabilidade de µ estar contida no intervalo é de, aproximadamente, 68%.

Veja como calcular o IC da média no exemplo a seguir:

Exemplo 2: Suponha que uma indústria esteja avaliando o tempo máximo de duração das pilhas que fabricam e, para tanto, usaram uma amostra aleatória de 15 pilhas. Os períodos de duração, em horas, foram os seguintes: 150, 166, 170, 159, 169, 180, 166, 145, 162, 180, 174, 172, 160, 145 e 173. Qual é o intervalo de confiança para a média do tempo de duração das pilhas? Dado: α = 0,05.

IC(µ, 0,95) = (164,73 - 2.14(11,28/3,87); 164,73 + 2.14(11,28/3,87))
IC(µ, 0,95) = (158,49; 170,97)

O software R pode fornecer o IC diretamente, sem precisar fazer os cálculos acima e sem precisar baixar pacotes específicos de dados:

> X = c(150, 166, 170, 159, 169, 180, 166, 145, 162, 180, 174, 172, 160, 145, 173) # cria-se o vetor de dados
> t.test(X) # apesar do comando de teste t, apenas o IC é aproveitado

One Sample t-test

data: X
t = 56.568, df = 14, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
158.4874 170.9793 ← IC calculado pelo software R
sample estimates:
mean of x
164.7333

Assim, o intervalo de médias amostrais [158.4874, 170.9793] deve conter a média populacional µ com 95% de confiança.


Referências:
ERRO-PADRÃO. Disponível em: <support.minitab.com/pt-br/minitab/17/topic-library/basic-statistics-and-graphs/hypothesis-tests/tests-of-means/what-is-the-standard-error-of-the-mean/>. Acesso em: 14 dez. 2016.
INTERVALO DE CONFIANÇA. Disponível em: <www.portalaction.com.br/inferencia/intervalo-de-confianca>. Acesso em: 14 dez. 2016.
INTERVALOS DE CONFIANÇA. Disponível em: <leg.ufpr.br/~silvia/CE701/node46.html>. Acesso em: 14 dez. 2016.