Medidas numéricas
Uma variedade de medidas numéricas são usadas para resumir os dados. A proporção, ou porcentagem, dos valores dos dados em cada categoria é a principal medida numérica para dados qualitativos. A média, mediana, moda, percentis, intervalo, variância e desvio padrão são as medidas numéricas mais comumente usadas para dados quantitativos. A média, geralmente chamada de média, é calculada somando todos os valores de dados para uma variável e dividindo a soma pelo número de valores de dados. A média é uma medida da localização central dos dados. A mediana é outra medida de localização central que, ao contrário da média, não é afetada por valores de dados extremamente grandes ou extremamente pequenos. Ao determinar a mediana, os valores dos dados são primeiro classificados na ordem do menor valor para o maior valor. Se houver um número ímpar de valores de dados, a mediana é o valor médio; se houver um número par de valores de dados, a mediana é a média dos dois valores do meio. A terceira medida de tendência central é a moda, o valor dos dados que ocorre com maior frequência.
Os percentis fornecem uma indicação de como os valores dos dados são distribuídos ao longo do intervalo do menor valor para o maior valor. Aproximadamente p por cento dos valores dos dados caem abaixo do p º percentil e cerca de 100 - p por cento dos valores dos dados estão acima do p º percentil. Os percentis são relatados, por exemplo, na maioria dos testes padronizados. Os quartis dividem os valores dos dados em quatro partes; o primeiro quartil é o 25º percentil, o segundo quartil é o 50º percentil (também a mediana) e o terceiro quartil é o 75º percentil.
O intervalo, a diferença entre o maior valor e o menor valor, é a medida mais simples de variabilidade nos dados. O intervalo é determinado apenas por dois valores de dados extremos. A variância ( s dois) e o desvio padrão ( s ), por outro lado, são medidas de variabilidade que se baseiam em todos os dados e são mais comumente usadas. A Equação 1 mostra a fórmula para calcular a variância de uma amostra que consiste em n Itens. Na aplicação equação 1, o desvio (diferença) de cada valor de dados da média da amostra é calculado e elevado ao quadrado. Os desvios quadrados são então somados e divididos por n - 1 para fornecer a variação da amostra.
O desvio padrão é a raiz quadrada da variância. Como a unidade de medida do desvio padrão é igual à unidade de medida dos dados, muitos indivíduos preferem usar o desvio padrão como medida descritiva da variabilidade.
Outliers
Às vezes, os dados de uma variável incluirão um ou mais valores que parecem excepcionalmente grandes ou pequenos e fora do lugar quando comparados com os outros valores de dados. Esses valores são conhecidos como outliers e frequentemente foram incluídos erroneamente no conjunto de dados. Estatísticos experientes tomam medidas para identificar valores discrepantes e, em seguida, revisam cada um cuidadosamente quanto à precisão e adequação de sua inclusão no conjunto de dados. Se um erro tiver sido cometido, uma ação corretiva, como rejeitar o valor dos dados em questão, pode ser tomada. A média e o desvio padrão são usados para identificar outliers. UMA com -score pode ser calculado para cada valor de dados. Com x representando o valor dos dados, x̄ a média da amostra, e s o desvio padrão da amostra, o com -score é dado por com = ( x - x̄ ) / s . O com -score representa a posição relativa do valor dos dados, indicando o número de desvios padrão da média. A regra é que qualquer valor com um com -score menor que −3 ou maior que +3 deve ser considerado um outlier.
Análise exploratória de dados
A análise exploratória de dados fornece uma variedade de ferramentas para resumir e obter informações rapidamente sobre um conjunto de dados. Dois desses métodos são o resumo de cinco números e o gráfico de caixa. Um resumo de cinco números consiste simplesmente no menor valor de dados, o primeiro quartil, a mediana, o terceiro quartil e o maior valor de dados. Um box plot é um dispositivo gráfico baseado em um resumo de cinco números. Um retângulo (ou seja, a caixa) é desenhado com as extremidades do retângulo localizadas no primeiro e terceiro quartis. O retângulo representa os 50 por cento intermediários dos dados. Uma linha vertical é desenhada no retângulo para localizar a mediana. Por fim, as linhas, chamadas de bigodes, se estendem de uma extremidade do retângulo ao menor valor de dados e da outra extremidade do retângulo ao maior valor de dados. Se outliers estiverem presentes, os bigodes geralmente se estendem apenas para os menores e maiores valores de dados que não são outliers. Pontos, ou asteriscos, são colocados fora dos bigodes para denotar a presença de outliers.
Compartilhar: