A evolução selvagem da ciência de dados e como descompactá-la
Os cientistas de dados ganharam destaque ao nos fazer clicar em anúncios - agora a profissão abrange um multiverso.
- As definições de ciência de dados abrangem uma gama contenciosamente ampla.
- Na academia, a ciência de dados inclui a confusão do “trabalho de zeladoria de dados” e as sutilezas de comunicar resultados por meio de dados.
- A maioria dos argumentos sobre a definição de ciência de dados se resume a poder e financiamento.
Extraído de Como os dados aconteceram: uma história da era da razão à era dos algoritmos . Copyright (c) 2023 por Chris Wiggins e Matthew L Jones. Usado com permissão do editor, W. W. Norton & Company, Inc. Todos os direitos reservados.
“Vi as melhores mentes da minha geração destruídas pela loucura”, escreveu o poeta Allen Ginsberg. Cláusula após cláusula, Ginsberg cantou sobre o abismo entre a aspiração mais elevada e as realidades da América da Guerra Fria: “hipsters com cabeça de anjo queimando pela antiga conexão celestial com o dínamo estrelado na maquinaria da noite” – e o abismo experimentado por estudantes com a crescente universidades militarizadas: “que passaram pelas universidades com olhos radiantes e frios alucinando o Arkansas e a tragédia da luz de Blake entre os estudiosos da guerra”.
Em 2011, Jeff Hammerbacher, ex-líder da equipe de dados do Facebook, criticando Ginsberg, lamentou: “As melhores mentes da minha geração estão pensando em como fazer as pessoas clicarem nos anúncios. Isso é péssimo. De todas as coisas para otimizar, uma geração escolheu manipular a atenção.
Juntamente com DJ Patil, Hammerbacher é creditado por cunhar o termo “cientista de dados” para descrever um novo papel crucial no mundo corporativo, desde start-ups até corporações da Fortune 500. O que um cientista de dados faz de diferente dos praticantes de todas as várias abordagens quantitativas do mundo que já vimos? O que exatamente é “ciência de dados”? As definições, veremos, variam.
A ciência de dados industriais passou a significar aprendizado de máquina e estatística combinados com a engenharia de software e o trabalho de dados concretos necessários para criar produtos e serviços digitais. Na pesquisa acadêmica, o termo é amplo, estendendo-se além das estatísticas para incluir as habilidades mais amplas e menos “técnicas” necessárias para dar sentido ao mundo por meio de dados, desde a confusão do “trabalho de zeladoria de dados” até as nuances de comunicar resultados por meio de dados. Em vez de “queimar pela antiga conexão celestial” de forma abstrata, o termo fala das complexidades práticas de tal trabalho, começando com a análise de dados ficando suja de dados. Citando Robert A. Heinlein, um escritor muito diferente da Guerra Fria, o cientista de dados Joel Grus satirizou a expectativa de que um “cientista de dados” tivesse dominado a ampla diversidade de tarefas de dados necessárias na indústria:
“um cientista de dados deve ser capaz de executar uma regressão, escrever uma consulta sql, criar um site, projetar um experimento, fatorar matrizes, usar um quadro de dados, fingir entender o aprendizado profundo, roubar da galeria d3, argumentar r versus python , pense em mapreduce, atualize um anterior, construa um painel, limpe dados confusos, teste uma hipótese, converse com um empresário, crie um script de shell, codifique em um quadro branco, hackeie um valor-p, aprenda um modelo de máquina. especialização é para engenheiros.”
À medida que o campo ganhou destaque na indústria e na academia, com oportunidades de emprego associadas, oportunidades de financiamento e novos departamentos e diplomas, empregadores e administradores procuraram definir as coisas com mais precisão. Freqüentemente, tentar definir “ciência de dados” se transforma em uma disputa verbal nas seções de comentários online que coevoluíram com a internet. Em vez de insistir em uma definição de “ciência de dados”, procuramos delinear contornos de contestação em torno do termo.
Dar sentido ao mundo por meio de dados foi transformador.
Há uma década, em apresentações, por meio de memes, em comentários a postagens, os praticantes lutam pelo que o termo realmente significa, em contraste com estatísticas, aprendizado de máquina ou “mineração de dados” anteriores. Os argumentos dizem respeito fundamentalmente a quem tem autoridade e quem ganha capacidades para reorganizar o poder ao lidar com os dados. E dizem respeito a quem, em última instância, obtém o financiamento – nas empresas, na academia e no governo.
Para ser claro, havia boas razões para entusiasmo e financiamento. Em uma variedade de setores, entender o mundo por meio de dados foi transformador. A capacidade de recomendar o produto e o conteúdo certos para usuários comerciais possibilitou o chamado modelo de negócios de “cauda longa”.
Da mesma forma, no software comercial, nos acostumamos com os telefones como dispositivos com os quais podemos falar “para”, não “ligados”, pois o reconhecimento de fala melhorou através de vários saltos quânticos. Em finanças, o fundo individual mais lucrativo, o Medallion Fund da Renaissance Technologies, negocia usando análise estatística, junto com atenção considerável à engenharia de software necessária para coletar dados, aprender modelos e executar negociações.
Em biologia e saúde humana, percebeu-se rapidamente que o sequenciamento de genomas inteiros na década de 1990 tinha o potencial de mudar nossa compreensão de doenças humanas complexas por meio de dados. “A biologia está no meio de uma mudança radical intelectual e experimental”, declarou a bióloga Shirley Tilghman na primeira frase de um artigo na Nature em 2000. “Essencialmente, a disciplina está deixando de ser uma ciência pobre em dados para se tornar uma - ciência rica.”
Em uma ampla variedade de campos da atividade humana, ficou claro que “a nova tecnologia permite questões inteiramente novas”, que “exigirão . . . novos conjuntos de ferramentas analíticas .”
Compartilhar: