ESTATÍSTICA: Percentil e gráfico de boxplot

Percentil (Pk) é uma medida de posição em um conjunto de dados em ordem crescente. De forma específica, é o elemento do conjunto ordenado cujos valores menores ou iguais a ele correspondem a k% de todos os elementos. Por exemplo, o percentil 50 (P50) em um conjunto de dados ordenados é o elemento cujos valores menores ou iguais a ele correspondem a 50% do todo.
Para determinar qualquer percentil, utilize a equação a seguir:

L = (k/100)*n, onde L é a posição do percentil, k é a porcentagem estabelecida e "n" é o número de elementos.

Se o resultado do cálculo da posição L for um número decimal, arredonde o valor para o próximo número inteiro (posição do percentil desejado). Este número inteiro é a posição do elemento cujo valor é o percentil desejado.
Caso o resultado do cálculo seja um número inteiro, tire a média entre o valor do elemento de posição L e o valor do elemento de posição L + 1. O resultado do cálculo será o percentil desejado.
Veja os dois exemplos a seguir:

--------------------------------------------------------------------------------------------------------------------------
Exemplo 1 - Encontre o P50 do conjunto de dados a seguir: 13.0 mL, 15.0 mL, 15.5 mL, 16.0 mL e 16.1 mL.
Resolução: L = (50/100)*5 = 2.5. Como o valor é decimal, arredonde para 3. Logo, o P50 está na posição 3. Ou seja, o valor 15.5 mL é o P50 dos dados.
--------------------------------------------------------------------------------------------------------------------------
Exemplo 2 - Encontre o P25 do conjunto de dados a seguir: 13.0 mL, 15.0 mL, 15.5 mL e 16.0 mL.
Resolução: L = (25/100)*4 = 1. Como L é um número inteiro, pegue os valores das posições 1 e 2 (13.0 e 15.0 mL, respectivamente) e calcule sua média. P25 = (13.0 + 15.0)/2 = 14.0 mL.
OBS: note que o P25 obtido não existe no conjunto de dados original, mas representa a posição hipotética cujos dados menores ou iguais a ele são 25% do todo.
--------------------------------------------------------------------------------------------------------------------------

Curiosidades: os percentis 25, 50, 75 e 100 são também conhecidos como quartis (Q1, Q2, Q3 e Q4, respectivamente). E os percentis 10, 20, 30, 40, 50, 60, 70, 80, 90 e 100 são conhecidos como decis. E o valor do percentil 50, ou Q2, é denominado mediana.

O softaware R calcula qualquer percentil de modo muito fácil. Basta usar o seguinte comando:

quantile(d, k), onde "d" é o conjunto total de dados (vetor de dados) e "k" é a porcentagem, entre 0 (0%) e 1 (100%).

--------------------------------------------------------------------------------------------------------------------------
Exemplo 3 - Considere o vetor de dados "x" inserido no software R: 1, 3, 5, 5, 9, 11, 30, 43. Qual é o valor da mediana desses dados?

> quantile(x, 0.50)
50%
7
(A mediana dos dados é igual a 7)

Conferindo os cálculos do R: L = (50/100)*8 = 4. Como L é um número inteiro, deve-se calcular a média entre os valores das posições 4 e 5. No caso, 5 e 9, respectivamente. Sua média é: (5+9)/2 = 7.
--------------------------------------------------------------------------------------------------------------------------

Outra ferramenta simples do R, relacionada aos percentis, é a construção de boxplots. Estes gráficos são responsáveis por evidenciar os valores de P25 ou Q1, mediana ou Q2, P75 ou Q3 e de possíveis outliers dos dados (não discutido no presente tópico).
O boxplot do conjunto de dados "x" do exemplo 3, disponível abaixo, apresenta os percentis mencionados. Note que junto aos percentis, foram indicados os quartis correspondentes (uso mais frequente).



OBS1: veja no eixo vertical os valores dos elementos do vetor de dados "x".
OBS2: para obter o boxplot de um conjunto de dados no software R basta digitar o seguinte comando:

> boxplot(dados)

onde dados corresponde ao nome do conjunto de valores (vetor de dados) que serão convertidos em um boxplot. No exemplo 3 o conjunto de valores foi nomeado 'x'.