ESTATÍSTICA: Teste de normalidade de Shapiro-Wilk

Grande parte dos testes de hipóteses ensinados nas disciplinas de Estatística exige que os dados estejam distribuídos normalmente. Mas, como saber se isso ocorre?
Serão apresentadas duas ferramentas capazes de fornecer informações úteis para decidir se um conjunto de dados apresenta distribuição normal. Dentre elas, o teste de normalidade de Shapiro-Wilk será enfatizado por ser muito eficiente e de fácil aplicação no software R.

1 - Histograma: a construção de histogramas é a forma mais fácil de verificar se os dados estão distribuídos normalmente. Mas, por ser uma avaliação visual, é um método considerado subjetivo. Ao usar o software gratuito R, basta digitar o comando hist(dados), onde dados corresponde ao vetor de dados que está sendo avaliado;

2 - Teste de Shapiro-Wilk: este é um teste de hipóteses que avalia, com um nível de confiança, se um conjunto de dados tem distribuição normal. A hipótese nula (Ho) estabelece que os dados são distribuídos normalmente enquanto que a alternativa, Ha, estabelece que os dados não são distribuídos normalmente.
Seu comando no R é simples: shapiro.test(dados), onde dados corresponde ao vetor de dados que está sendo avaliado e o nível de confiança usado é de 95%. Para saber qual das hipóteses é satisfeita, com um nível de confiança pré-estabelecido, basta consultar o p-valor. Se for maior ou igual que o nível de significância (α), Ho não poderá ser rejeitada. Caso contrário, Ho deverá ser rejeitada.
Veja o exemplo abaixo:

--------------------------------------------------------------------------------------------------------------------------
Exemplo 1 - Verifique se o conjunto de dados a seguir tem distribuição normal: 107, 95, 104, 99, 102, 99, 104, 103, 98, 101, 95, 103, 105, 93, 100, 88, 93, 91, 101, 99, 100, 105, 96, 103, 102, 97, 96, 97, 97, 97, 108, 90, 99, 93, 98, 104, 98, 101, 95, 98, 106, 107, 91, 94, 97, 111, 94, 89, 94, 99, 96, 96, 110, 102, 93, 99, 101, 97, 102, 106, 97, 108, 103, 92, 100, 107, 99, 113, 94, 108, 93, 101, 99, 103, 89, 97, 100, 99, 91, 110, 92, 107, 100, 95, 95, 97, 109, 101, 100, 98, 105, 96, 102, 111, 97, 102, 96, 93, 99, 105.

> dados = c(107, 95, 104, 99, 102, 99, 104, 103, 98, 101, 95, 103, 105, 93, 100, 88, 93, 91, 101, 99, 100, 105, 96, 103, 102, 97, 96, 97, 97, 97, 108, 90, 99, 93, 98, 104, 98, 101, 95, 98, 106, 107, 91, 94, 97, 111, 94, 89, 94, 99, 96, 96, 110, 102, 93, 99, 101, 97, 102, 106, 97, 108, 103, 92, 100, 107, 99, 113, 94, 108, 93, 101, 99, 103, 89, 97, 100, 99, 91, 110, 92, 107, 100, 95, 95, 97, 109, 101, 100, 98, 105, 96, 102, 111, 97, 102, 96, 93, 99, 105)
>hist(dados, col = "blue")



>shapiro.test(dados)

Shapiro-Wilk normality test

data: dados

W = 0.9857, p-value = 0.3555

Veja que o histograma apresenta suas barras de forma similar à uma distribuição normal. E que o p-valor do teste de Shapiro-Wilk é maior que 0.05 (nível de significância do teste). Consequentemente, pode-se afirmar que com um nível de confiança de 95% o conjunto de dados estudado apresenta distribuição normal.

OBS: caso queira mudar o nível de confiança do teste ou, até mesmo, configurar o histograma para melhorar sua qualidade gráfica, basta acessar a ajuda do software R para conhecer os subcomandos responsáveis pelas alterações citadas.
--------------------------------------------------------------------------------------------------------------------------