Identificação de Outliers em Conjuntos de Dados

Identificação de Outliers em Conjuntos de Dados
  • Post author:

Sumário

O que são outliers?
Como Determinar se um Ponto é um Outlier?
O que Fazer com os Outliers?
Considerações Finais
Download de Arquivos

Assista também à vídeo-aula a seguir, que além de discutir o exemplo deste artigo também explica como usar o Excel para identificar outliers.

O que são outliers?

O termo outlier é uma palavra com origem na língua inglesa que é utilizada para identificar valores ou observações que são muito diferentes das demais. Em português não há tradução direta para outliers, mas uma boa forma de definirmos esse termo é usando a expressão “ponto fora da curva”.

Trazendo isso para o contexto da gestão, quando coletamos uma amostra com vários valores individuais, pode ser interessante verificarmos se algum deles se destaca de alguma forma. Em geral, quando achamos um outlier, há alguma explicação especial para esse ponto. Para que um ponto tão diferente ocorra, é necessário que algo especial tenha acontecido. Comumente, tais explicações podem ser defeitos, erros de operação ou aumento na variabilidade do processo.

Há diversos métodos com base estatística para determinar se há outliers em conjuntos de dados. Neste artigo vamos aprender um método bem simples baseado na amplitude interquartil (IQR – Interquartile Range). Para isso, considere os 10 valores mostrados a seguir, que representam o peso de um produto ao final do processo de produção:

OUT - Figura 1

A olho nu é difícil dizer se algum dos valores acima é, de fato, um outlier. A média dos valores é 502,5. Então, poderíamos fazer um gráfico de linha comparando cada valor individual com a média. O gráfico abaixo mostra os valores individuais (linha azul clara) e a média da amostra (linha verde).

OUT - Figura 2

Com base no gráfico, podemos pensar que o ponto 525 é um outlier, mas ainda não temos certeza. Quão distante da média o ponto precisa estar para que ele seja considerado um “ponto fora da curva”? Para isso, precisamos de um limite que nos oriente nessa decisão.

Como Determinar se um Ponto é um Outlier?

Nesta seção vamos aprender o método baseado na amplitude interquartil. Vamos usar a sigla IQR para nos referenciar à amplitude interquartil, que é a diferença entre os Quartis 1 e 3 do conjunto de dados.

OUT - Figura 3

Para calcular os quartis, é recomendável utilizar o método de interpolação com base N-1. Se você quiser aprender como fazer isso, leia este artigo sobre cálculo de quartis. No Excel, basta usar a função QUARTIL.EXC. Em nosso exemplo, os Quartis 1 e 3 e o valor de IQR são:

OUT - Figura 4

Agora precisamos determinar os limites inferior e superior para definirmos se um ponto é ou não um outlier. Isso pode ser feito com as fórmulas a seguir:

OUT - Figura 5

Como já sabemos, a média das 10 observações é igual a 502,5. Então os limites serão:

OUT - Figura 6

Como o valor 525 é superior a 514,5, podemos afirmar com um alto grau de certeza de que esse ponto é um outlier.

O que Fazer com os Outliers?

Quando encontramos um outlier, precisamos decidir o que fazer com ele. Em primeiro lugar, um outlier deve ser visto como um ponto que merece atenção especial. Se estivermos fazendo uma pesquisa de mercado, esse ponto pode indicar um cliente com opiniões ou preferências distintas. Por outro lado, se estivermos avaliando a qualidade de produtos saindo de um processo de fabricação, um outlier pode indicar que algo especial aconteceu no processo, como um erro, falta de padronização ou aumento da variabilidade.

Se o objetivo é estimar os parâmetros de um processo, como a média ou o desvio padrão, é recomendável eliminar o outlier antes de calcular tais estimativas.

Em nosso exemplo, se olharmos a média das 10 amostras, penaremos que a média do processo é igual a 502,5. Porém, se eliminarmos o valor 525 e calcularmos a média com os 9 pontos restantes, veríamos que uma estimativa melhor para a média do processo é 500.

OUT - Figura 7

Retirar o ponto e recalcular a média é como se disséssemos que todos os 9 pontos restantes seguem uma média igual a 500, enquanto que o Ponto 7 (525) segue uma outra média própria.

Considerações Finais

Neste artigo aprendemos apenas um dos métodos para identificar outliers. Livros de estatística aplicada apresentam outros métodos que podem ser usados com base na distribuição de probabilidade dos dados. Apesar da simplicidade do método descrito neste artigo, ele é bastante eficaz na identificação de outliers em amostras pequenas.

Uma aplicação útil do método que acabamos de aprender é em estudos de cronoanálise. Em estudos de tempos, é comum observarmos uma pequena quantidade de ciclos, com 10 a 20 observações para cada elemento. Como o objetivo é determinar o tempo médio da operação, após a coleta dos dados é recomendável analisar todas as medições de tempo e eliminar os outliers antes de calcular as médias e os desvios padrão de cada elemento.

Download de Arquivos

[PDF] Slides da Vídeo-aula

[XLSX] Exemplo resolvido neste artigo / vídeo-aula