A ciência do erro

Hillary Clinton teve uma liderança direta nas pesquisas e na previsão eleitoral projetada, e foi derrotada inequivocamente nas eleições de 2016. (Crédito da imagem: Robyn Beck/AFP/Getty Images)
Como a sondagem estragou as eleições de 2016
Distinguir o sinal do ruído requer tanto conhecimento científico quanto autoconhecimento. – Nate Silver
Na véspera da eleição de 2016, o site 538 de Nate Silver deu a Clinton 71% de chance de ganhar A presidência. Outros sites que usaram as mais avançadas técnicas de agregação e modelagem analítica disponíveis tiveram suas chances ainda maiores: o New York Times chances de ganhar em 84% , o Princeton Election Consortium a tinha em 95-99% e a ABC News chamou isso de Clinton foi um bloqueio para 274 votos eleitorais — o suficiente para ganhar — imediatamente antes da votação realmente acontecer. Mas, em uma reviravolta impressionante, Trump superou em muito o que todos esperavam nas pesquisas estaduais e nacionais, vencendo quase todos os estados derrotados, além de vários estados previstos para favorecer Clinton, e ele é o novo presidente eleito. Aqui está a ciência de como isso aconteceu.
As previsões finais pré-eleitorais de Larry Sabato / University of Virginia Center for Politics. Crédito da imagem: captura de tela de 270towin em http://www.270towin.com/maps/crystal-ball-electoral-college-ratings .
Gostamos de pensar que, com dados suficientes, podemos tratar qualquer problema cientificamente. Isso pode, em princípio, ser verdade para as previsões de votação, e 2012 parece servir como um ótimo exemplo: onde o 538 de Nate Silver previu os resultados de cada estado individual : todos os 50. Desta vez, havia muitas pesquisas diferentes de alta qualidade e dados grandes, pelo menos tantas quanto havia em 2012. E, o mais importante, a ciência por trás disso é simples. Se você quer saber como uma amostra de, digamos, um milhão de pessoas vai votar, não precisa pedir a todos um milhão para prever o resultado. Tudo que você precisa fazer é enquete o suficiente pessoas para que você possa afirmar com confiança o resultado. Assim, você pode decidir pesquisar 100, 500, 2.000 ou até 10.000 pessoas e descobrir que 52% apóiam Clinton em qualquer uma dessas quatro pesquisas. O que eles dizem a você é muito diferente, no entanto:
- 100 pessoas: 52% ± 10%, com 95% (2 sigma) de confiança.
- 500 pessoas: 52% ± 4,5% com 95% de confiança.
- 2.000 pessoas: 52% ± 2,2% com 95% de confiança.
- 10.000 pessoas: 52% ± 1,0% com 95% de confiança.
Esses tipos de erros são conhecidos nos círculos científicos como erros estatísticos. Pesquise mais pessoas e seus erros diminuem, e maiores são as chances de que a amostra que você pesquisou reflita com precisão o que o eleitorado realmente fará.
Uma visualização de como sua incerteza estatística diminui à medida que o tamanho da amostra aumenta. Crédito da imagem: Fadethree na Wikipedia em inglês.
Se você tiver uma amostra verdadeiramente aleatória de futuros eleitores, esse é o único tipo de erro que importa. Mas se você não fizer isso, há outro tipo de erro que a pesquisa nunca detectará, e é um tipo de erro muito mais insidioso: erros sistemáticos. Um erro sistemático é uma incerteza ou imprecisão que não melhora ou desaparece à medida que você coleta mais dados, mas uma falha inerente à maneira como você coleta seus dados.
- Talvez as pessoas que você entrevistou não reflitam a população votante maior. Se você perguntar a uma amostra de pessoas de Staten Island como eles vão votar, isso é diferente de como as pessoas em Manhattan – ou Syracuse – vão votar.
- Talvez as pessoas que você entrevistou não vão votar nas proporções que você espera. Se você pesquisar uma amostra com 40% de brancos, 20% de negros, 30% de hispânicos/latinos e 10% de asiáticos-americanos, mas sua participação real de eleitores for 50% de brancos, seus resultados de pesquisa serão inerentemente imprecisos. [Esta fonte de erro se aplica a qualquer demografia, como idade, renda ou ambiente (por exemplo, urbano/suburbano/rural.)]
- Ou talvez o método de pesquisa seja inerentemente não confiável. Se 95% das pessoas que dizem que votarão em Clinton realmente o fazem, mas 4% votam em terceiros e 1% votam em Trump, enquanto 100% daqueles que dizem que votarão em Trump realmente o fazem, isso se traduz em um balanço pró-Trump de +3%.
Ler a linha de 200″ mL à esquerda pode parecer razoável, mas seria uma medida errônea. Erros sistemáticos como esse não melhoram ou desaparecem com mais dados. Crédito da imagem: MJCdetroit na Wikipédia em inglês sob c.c.a.-s.a.-3.0.
Nada disso quer dizer que há algo de errado com as pesquisas que foram realizadas, ou com a ideia de votação em geral. Se você quer saber o que as pessoas estão pensando, ainda é verdade que a melhor maneira de descobrir é perguntar a elas. Mas fazer isso não garante que as respostas que você recebe não sejam tendenciosas ou imperfeitas. Isso é verdade mesmo de sondagem de boca de urna , o que não reflete necessariamente como o eleitorado votou. É como uma pessoa razoável como Arthur Henning poderia ter escrito, em 1948,
Dewey e Warren obtiveram uma vitória arrebatadora na eleição presidencial de ontem. Os primeiros retornos mostraram a chapa republicana liderando Truman e Barkley de forma bastante consistente nos estados do oeste e do sul... retornos completos revelariam que Dewey ganhou a presidência por uma esmagadora maioria dos votos eleitorais...
e todos nós aprendemos como isso acabou.
Truman segurando uma cópia do infame Chicago Daily Tribune após a eleição de 1948. Crédito da imagem: usuário do flickr A Meyers 91 do original de Frank Cancellare, via https://www.flickr.com/photos/85635025@N04/12894913705 sob cc-by-2.0.
Eu não iria tão longe quanto Alex Berezow, do Conselho Americano de Ciência e Saúde, dizendo previsões eleitorais e chances de ganhar são um absurdo completo , embora ele faça alguns bons pontos. Mas direi que não faz sentido fingir que esses erros sistemáticos não são reais. De fato, esta eleição demonstrou, de forma bastante enfática, que nenhum dos modelos de pesquisa por aí os controlou adequadamente. A menos que você entenda e quantifique seus erros sistemáticos – e você não pode fazer isso se não entender como sua pesquisa pode ser tendenciosa – as previsões eleitorais sofrerão com o problema GIGO: lixo dentro, lixo fora .
E, apesar do que indicavam as pesquisas, Donald Trump venceu as eleições de 2016 e será o próximo presidente dos Estados Unidos. Crédito da imagem: Andrew Harrer/Bloomberg.
É provável que os sucessos de 2012 tenham sido um acaso, onde os erros sistemáticos se anularam ou os modelos de projeção simplesmente acertaram o nariz. O ano de 2016 não foi tão abalado, indicando que há um longo caminho a percorrer antes de termos uma maneira confiável e robusta de prever os resultados das eleições com base em pesquisas. Talvez represente uma oportunidade de aprendizado e uma chance de pesquisas e como eles são interpretados melhorar. Mas se os analistas não mudarem nada, ou aprenderem as lições erradas de suas imprecisões, é improvável que vejamos as projeções alcançarem os sucessos de 2012 novamente.
Esta postagem apareceu pela primeira vez na Forbes , e é oferecido a você sem anúncios por nossos apoiadores do Patreon . Comente em nosso fórum , & compre nosso primeiro livro: Além da Galáxia !
Compartilhar: