[[bot89:aed:inicio]]

AED - Análise Exploratória de Dados

Em estatística, análise exploratória de dados (AED) é uma abordagem para analisar conjuntos de dados visando resumir as suas principais características, particularmente com métodos gráficos e visuais. Um modelo estatístico pode ou não ser usado, mas AED objetiva principalmente ver o que os dados podem nos dizer para além da modelagem ou de testes de hipóteses. Análise exploratória de dados foi promovida por John Tukey para incentivar estatísticos a explorar dados e, eventualmente, formular novas hipóteses que possam levar à nova coleta de dados e a experimentos. AED é diferente de análise de dados inicial (AID), que foca mais estreitamente na verificação de suposições necessárias aos modelos de testes de hipóteses, manipulação de valores ausentes e transformações de variáveis, conforme necessário. AED abrange AID. - (Traduzido da WikiPedia).



Muitas vezes esquecemos como funciona a ciência e a engenharia. Idéias vêm mais frequentemente de exploração anterior do que de descargas atmosféricas. (…) Encontrar a pergunta é muitas vezes mais importante do que encontrar a resposta. Análise exploratória de dados é uma atitude, uma flexibilidade que depende de visualização gráfica, não é um conjunto de técnicas. (Tukey 1980).

Em sistemática e taxonomia, uma ciência histórica, a análise exploratória é fundamental, pois é através dela que podemos postular boas hipóteses e usar teste de hipóteses para confirmá-las.

Numa exploração de dados, no entanto, ao criar hipóteses, deve-se evitar usar os mesmos dados para testar essas hipóteses. Se alguém tem limitado o conhecimento a priori, então uma abordagem válida é criar dois conjuntos de dados: aplicar exploração de dados sobre o primeiro conjunto para criar hipóteses e usar o segundo conjunto de dados para testar essas hipóteses . Tal processo, no entanto, só é prático para conjuntos de dados grandes. Independentemente da situação específica, o uso de uma rotina e estruturação de relatórios transparentes de exploração sistemática de dados irá melhorar a qualidade da investigação.. (Zuur et al. 2010).

A análise exploratória não é “dragagem” de dados! Assume-se que o pesquisador formulou a priori hipóteses biológicas plausíveis amparadas pela teoria.

  1. Controlar a qualidade dos dados
  2. Sugerir hipóteses para os padrões observados (novos estudos)
  3. Apoiar a escolha dos procedimentos estatísticos de testes de hipótese
  4. Avaliar se os dados atendem às premissas dos procedimentos estatísticos escolhidos

Dois artigos que você deveria ler:



A. John W. Tukey, 1980. We Need Both Exploratory and Confirmatory. The American Statistician, 34, pp.23-25.
B. Alain F. Zuur, Elena N. Ieno, Chris S. Elphick, 2010. A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, 1, Blackwell Publishing Ltd, pp.3–14, ISSN 2041-210X.
  • AED deve ser iniciada ainda durante a coleta de dados, pois através dela podemos conhecer nossos dados e acompanhar como estamos coletando esses dados. * AED baseia-se largamente em técnicas visuais (gráficos) * Pode levar entre 20 e 50% do tempo das análises. * Os seguinte tutorial exemplifica algumas ferramentas do R para fazer AED:
  • bot89/aed/inicio.txt
  • Última modificação: 09/17/2019 17:17
  • por labotam_admin