Compreendendo os dados - contexto

Os dados são uma abstração da vida real, e a vida real pode ser complicada, mas se você reunir contexto suficiente, poderá pelo menos fazer um esforço sólido para entendê-lo.

Compreendendo os dados - contexto

Olhe para o céu noturno e as estrelas parecem pontos em uma superfície plana. A falta de profundidade visual torna a tradução do céu para o papel bastante direta, o que torna mais fácil imaginar constelações. Basta conectar os pontos. No entanto, embora você perceba que as estrelas estão à mesma distância de você, na verdade elas estão a anos-luz de distância.




Se você pudesse voar além das estrelas, como seriam as constelações? Isso é o que Santiago Ortiz se pergunta ao visualizar estrelas de uma perspectiva diferente, conforme mostrado na Figura 1.25.



A visualização inicial coloca as estrelas em um layout global, da maneira como você as vê. Você olha para a Terra além das estrelas, mas como se elas estivessem a uma distância igual do planeta.

Aumente o zoom e você poderá ver as constelações como você veria do solo, empacotado em um saco de dormir nas montanhas, olhando para o céu claro.



A visão percebida é divertida de ver, mas aperte o botão para mostrar a distância real e fica interessante. A transição das estrelas e as constelações fáceis de distinguir são praticamente irreconhecíveis. Os dados parecem diferentes deste novo ângulo.

Isso é o que o contexto pode fazer. Ele pode mudar completamente sua perspectiva sobre um conjunto de dados e pode ajudá-lo a decidir o que os números representam e como interpretá-los. Depois de saber do que se tratam os dados, sua compreensão o ajudará a encontrar as partes fascinantes, o que leva a uma visualização valiosa.

Figura 1-25



Sem contexto, os dados são inúteis e qualquer visualização que você criar com eles também será inútil. Usar dados sem saber nada sobre eles, a não ser os próprios valores, é como ouvir uma citação resumida de segunda mão e depois citá-la como o principal ponto de discussão em um ensaio. Pode estar tudo bem, mas você corre o risco de descobrir mais tarde que o orador quis dizer o oposto do que você pensava.

Você precisa saber quem, o quê, quando, onde, por que e como - os metadados ou os dados sobre os dados - antes de saber do que se tratam os números.

o que vemos quando morremos

Quem: Uma citação em um grande jornal tem mais peso do que uma de um site de fofocas de celebridades que tem a reputação de esticar a verdade. Da mesma forma, os dados de uma fonte confiável geralmente implicam em melhor precisão do que uma enquete online aleatória.

Por exemplo, o Gallup, que mede a opinião pública desde os anos 1930, é mais confiável do que, digamos, alguém (por exemplo, eu) fazendo experiências com uma pequena amostra única do Twitter tarde da noite durante um curto período de tempo. Enquanto o primeiro trabalha para criar amostras representativas de uma região, há incógnitas com o último.

Falando nisso, além de quem coletou os dados, também é importante de quem são os dados. Voltando aos gumballs, muitas vezes não é financeiramente viável coletar dados sobre tudo ou todos em uma população. A maioria das pessoas não tem tempo para contar e categorizar mil chicletes, muito menos um milhão, então eles fazem uma amostra. A chave é amostrar uniformemente em toda a população para que seja representativa do todo. Os coletores de dados fizeram isso?

Como: Muitas vezes as pessoas pulam a metodologia porque ela tende a ser complexa e para um público técnico, mas vale a pena conhecer a essência de como os dados de interesse foram coletados.

Se foi você que coletou os dados, está pronto para prosseguir, mas quando pegar um conjunto de dados online, fornecido por alguém que você nunca conheceu, como saberá se ele é bom? Você confia imediatamente ou investiga? Você não precisa saber o modelo estatístico exato por trás de cada conjunto de dados, mas procure pequenas amostras, altas margens de erro e suposições inadequadas sobre os assuntos, como índices ou classificações que incorporam informações irregulares ou não relacionadas.

Às vezes, as pessoas geram índices para medir a qualidade de vida nos países, e uma métrica como a alfabetização é usada como fator. No entanto, um país pode não ter informações atualizadas sobre alfabetização, então o coletor de dados simplesmente usa uma estimativa de uma década antes. Isso vai causar problemas porque o índice funciona apenas sob a suposição de que a taxa de alfabetização uma década antes é comparável à atual, o que pode não ser (e provavelmente não é) o caso.

O que: Em última análise, você deseja saber do que se tratam os seus dados, mas antes de fazer isso, você deve saber o que cerca os números. Converse com especialistas no assunto, leia artigos e estude a documentação que os acompanha.

Nos cursos de introdução à estatística, você normalmente aprende sobre métodos de análise, como teste de hipóteses, regressão e modelagem, no vácuo, porque o objetivo é aprender matemática e conceitos. Mas quando você chega aos dados do mundo real, o objetivo muda para a coleta de informações. Você muda de, 'O que está nos números?' para 'O que os dados representam no mundo; isso faz sentido; e como isso se relaciona com outros dados? '

Um grande erro é tratar todos os conjuntos de dados da mesma forma e usar os mesmos métodos e ferramentas enlatados. Não faça isso.

Quando: A maioria dos dados está ligada ao tempo de alguma forma, podendo ser uma série temporal ou um instantâneo de um período específico. Em ambos os casos, você deve saber quando os dados foram coletados. Uma estimativa feita décadas atrás não equivale a uma no presente. Isso parece óbvio, mas é um erro comum pegar dados antigos e passá-los como novos porque são os que estão disponíveis. As coisas mudam, as pessoas mudam e os lugares mudam e, portanto, naturalmente, os dados mudam.

Onde: As coisas podem mudar entre cidades, estados e países da mesma forma que mudam ao longo do tempo. Por exemplo, é melhor evitar generalizações globais quando os dados vêm de apenas alguns países. A mesma lógica se aplica a locais digitais. Dados de sites, como Twitter ou Facebook, encapsulam o comportamento de seus usuários e não se traduzem necessariamente no mundo físico.

Embora a lacuna entre o digital e o físico continue diminuindo, o espaço entre eles ainda é evidente. Por exemplo, um mapa animado que representava a 'história do mundo' com base na Wikipedia com geo-tags, mostrava pontos para cada entrada, em um espaço geográfico. O final do vídeo é mostrado na Figura 1-26.

O resultado é impressionante e há uma correlação com a linha do tempo da vida real, com certeza, mas está claro que, como o conteúdo da Wikipedia é mais proeminente em países de língua inglesa, o mapa mostra mais nessas áreas do que em qualquer outro lugar.

Por que: Finalmente, você deve saber o motivo pelo qual os dados foram coletados, principalmente como uma verificação de sanidade para viés. Às vezes, os dados são coletados, ou mesmo fabricados, para servir a uma agenda, e você deve ter cuidado com esses casos. Governo e eleições podem ser a primeira coisa que vem à mente, mas os chamados gráficos de informação em toda a web, cheios de palavras-chave e publicados por sites que tentam pegar o suco do Google, também se tornaram um culpado comum. (Eu me apaixonei por isso algumas vezes nos meus primeiros dias de blog para FlowingData, mas aprendi minha lição.)

Aprenda tudo o que puder sobre seus dados antes de qualquer coisa, e sua análise e visualização serão melhores para eles. Você pode então passar o que sabe aos leitores.

Figura 1-26

No entanto, só porque você tem dados, não significa que você deva fazer um gráfico e compartilhá-lo com o mundo. O contexto pode ajudá-lo a adicionar uma dimensão - uma camada de informações - aos gráficos de dados, mas às vezes significa que é melhor parar porque é a coisa certa a fazer.

Em 2010, o Gawker Media, que mantém grandes blogs como Lifehacker e Gizmodo, foi hackeado e 1,3 milhão de nomes de usuário e senhas vazaram. Eles estavam disponíveis para download via BitTorrent. As senhas foram criptografadas, mas os hackers decifraram cerca de 188.000 delas, o que expôs mais de 91.000 senhas únicas. O que você faria com esse tipo de dados?

A melhor coisa a fazer seria destacar nomes de usuário com senhas comuns (leia-se pobres), ou você poderia ir mais longe e criar um aplicativo que adivinhasse as senhas, dado um nome de usuário.

Uma rota diferente pode ser destacar apenas as senhas comuns, conforme mostrado na Figura 1-27. Isso oferece alguns insights sobre os dados sem tornar muito fácil fazer login com a conta de outra pessoa. Também pode servir como um aviso para que outras pessoas alterem suas senhas para algo menos óbvio. Você sabe, algo com pelo menos dois símbolos, um dígito e uma mistura de letras maiúsculas e minúsculas. As regras de senha são ridículas hoje em dia. Mas estou divagando.

Figura 1-27

Com dados como o conjunto do Gawker, uma análise profunda pode ser interessante, mas também pode fazer mais mal do que bem. Nesse caso, a privacidade dos dados é mais importante, então é melhor limitar o que você mostra e vê.

Se você deve usar dados nem sempre é algo claro. Às vezes, a divisão entre o que é certo e errado pode ser cinza, então é você quem decide. Por exemplo, em 22 de outubro de 2010, o Wikileaks, uma organização online que libera documentos privados e mídia de fontes anônimas, divulgou 391.832 relatórios de campo do Exército dos Estados Unidos, agora conhecidos como Registros da Guerra do Iraque. Os relatórios registraram 66.081 mortes de civis em 109.000 mortes registradas, entre 2004 e 2009.

O vazamento expôs incidentes de abuso e relatórios errôneos, como mortes de civis classificadas como 'inimigo morto em ação'. Por outro lado, pode parecer injustificado publicar descobertas sobre dados classificados obtidos por meios menos saborosos.

Talvez devesse haver uma regra de ouro para os dados: trate os dados dos outros da maneira que gostaria que eles fossem tratados.

No final, tudo se resume ao que os dados representam. Os dados são uma abstração da vida real, e a vida real pode ser complicada, mas se você reunir contexto suficiente, poderá pelo menos fazer um esforço sólido para entendê-lo.

Extraído com permissão do editor, Wiley, de Pontos de dados: visualização que significa algo por Nathan Yau. Copyright 2013

Biografia do autor
Nathan Yau
, autor de Pontos de dados: visualização que significa algo , tem um PhD em estatística e é um consultor estatístico que ajuda os clientes a usar seus dados por meio da visualização. Ele criou o popular site FlowingData.com , e é o autor de Visualize isto: o guia FlowingData para design, visualização e estatísticas , também publicado pela Wiley.

Para mais informações por favor visite http://flowingdata.com e siga o autor no Facebook e Twitter

Idéias Frescas

Categoria

Outro

13-8

Cultura E Religião

Alquimista Cidade

Livros Gov-Civ-Guarda.pt

Gov-Civ-Guarda.pt Ao Vivo

Patrocinado Pela Fundação Charles Koch

Coronavírus

Ciência Surpreendente

Futuro Da Aprendizagem

Engrenagem

Mapas Estranhos

Patrocinadas

Patrocinado Pelo Institute For Humane Studies

Patrocinado Pela Intel The Nantucket Project

Patrocinado Pela Fundação John Templeton

Patrocinado Pela Kenzie Academy

Tecnologia E Inovação

Política E Atualidades

Mente E Cérebro

Notícias / Social

Patrocinado Pela Northwell Health

Parcerias

Sexo E Relacionamentos

Crescimento Pessoal

Podcasts Do Think Again

Patrocinado Por Sofia Gray

Vídeos

Patrocinado Por Sim. Cada Criança.

Recomendado