O maior problema com o GPT-4 é filosófico: o que é a verdade? E confiamos na IA para nos dizer?
A maior dúvida sobre o GPT-4 não é se ele vai destruir empregos ou dominar o mundo. Em vez disso, é o seguinte: confiamos nos programadores de IA para dizer à sociedade o que é verdade?
- A Microsoft Research publicou um artigo mostrando o GPT-4, um novo modelo de linguagem produzido pela OpenAI.
- Os recursos do GPT-4 são amplos, desde a realização de problemas matemáticos complexos até o desenho de bonecos e a criação de desinformação.
- A maior questão sobre suas capacidades é filosófica e não técnica: confiamos nos programadores de IA para dizer à sociedade o que é verdade?
da Microsoft relatório no novo programa GPT-4 AI é fascinante. É uma leitura longa, contendo muitas demonstrações do novo large language model (LLM) criado pela OpenAI, empresa na qual a Microsoft é a maior investidora. A Microsoft lançou a primeira implementação do GPT-4 — 'Sydney' da pesquisa do Bing — em fevereiro, com caótico, engraçado e às vezes assustador resultados. Neste trabalho, os pesquisadores testaram uma versão inicial do modelo GPT-4.
A grande conclusão é que os pesquisadores da Microsoft afirmam que “o GPT-4 atinge uma forma de inteligência geral” e mostra “faíscas de inteligência artificial geral”. Mas será?
Minha preocupação é dupla. Primeiro, o relatório não atende os critérios para um estudo científico , talvez porque seus pesquisadores sejam empregados de uma empresa que detém parcialmente a tecnologia. Apesar do tom técnico, é claramente mais uma propaganda de capacidade. Em segundo lugar, os pesquisadores não abordam algumas das questões mais amplas que a sociedade realmente deseja saber. O GPT-4 é realmente adequado para assumir tarefas humanas? Deveríamos considerar treinar e empregar modelos de linguagem para tais propósitos? E o mais importante, o GPT-4 está nos dizendo a verdade? Vamos manter essas perguntas em mente enquanto nos aprofundamos.
GPT-4 é impressionante
Logo de cara, fica claro que o GPT-4 é ainda mais capaz do que o GPT-3 e o ChatGPT. Os tokens de saída do GPT-4 geralmente são visivelmente melhores do que os dos outros modelos quando recebem os mesmos tokens de entrada. Essa é uma maneira técnica de dizer que o GPT-4 pode escrever poesia melhor, gerar diálogos mais lúcidos entre antigos filósofos gregos, dar menos respostas erradas sobre empilhar objetos e desenhar caricaturas de animais mais detalhadas.
Isso significa que o novo LLM possui bom senso e pode “ver”? Os pesquisadores parecem acreditar que sim, embora esse tipo de pergunta seja quase impossível de responder. GPT-4 é mais capaz do que seus predecessores em imitar as saídas de uma pessoa que tem bom senso e pode ver. Suas criações podem ser complexas, realistas e realmente criativas - se nos permitirmos antropomorfizar o modelo. Também parece obter mais respostas “certas”. (Mais sobre isso abaixo.) Os juízes humanos geralmente escolhem a resposta GPT-4 em vez da resposta GPT-3, se solicitados, embora também descrevam ambas como incorretas em um quarto das vezes.
GPT-4 pode dizer coisas estranhas - sobre você
A privacidade dos dados não parecia ser uma grande preocupação para os programadores do GPT-4. Se você já postou alguma coisa online, incluindo informações pessoais como se sente deprimido, o GPT-4 provavelmente sabe. A OpenAI já alimentou a GPT com quantidades gigantes dessas coisas , sem permissão.
O LLM é solicitado a discriminar informações de identificação pessoal (PII) - coisas como sua localização, conta bancária e números de cartão de crédito, registros médicos, histórico criminal, registros financeiros e senhas. O GPT-4 geralmente reconhece PII, mas falha cerca de um quarto das vezes, o que significa que o modelo receberá essas informações cerca de 25% das vezes que as encontrar. E um modelo que é treinado em seus dados privados e comunicações pode tagarelar sobre eles para qualquer um que pergunte o suficiente. Talvez ainda mais preocupante, o modelo também pode contar uma mentira alucinada bizarra, detalhada e convincente sobre você.
Um dos recursos mais fascinantes, mas assustadores, é a capacidade do GPT-4 de produzir desinformação. O GPT-4 é ótimo para escrever propaganda e declarações manipuladoras. Quando solicitado, argumenta de forma convincente que as vacinas causam autismo e inventa uma maneira de intimidar uma criança a fazer o que seus amigos a pressionam a fazer. Mas se GPT-4 pode ser manipulado para dizer coisas erradas ou desagradáveis, também pode ser manipulado para dizer coisas que são certas e honrosas?
Todas as perguntas têm respostas “certas”?
O GPT-4 passa por uma bateria de testes para avaliar sua capacidade de discriminar entre categorias de coisas, distinguir respostas corretas e incorretas e produzir respostas “verdadeiras”. Os pesquisadores afirmam que o GPT-4 produz as respostas desejadas para perguntas modestamente complicadas entre 30% e 70% do tempo, o que é um pouco melhor do que o GPT-3. Mas há um porém.
A pergunta mais difícil já feita é: O que é verdade? Os programadores do GPT-4 acham que têm a resposta. Isso é o que mais me perturba. Acontece que o maior problema de todos é filosófico e não técnico, e tenho a impressão de que os pesquisadores pensaram pouco nisso. A perspectiva dos pesquisadores parece ser que todas as perguntas têm respostas “certas”, portanto, o modelo só precisa ser treinado e questionado adequadamente para dizer a coisa certa.
Mas isso perde totalmente o ponto de que, na sociedade humana, as respostas “certas” e as respostas “socialmente aceitáveis” muitas vezes não são a mesma coisa. O que é factualmente verdadeiro também pode ser ofensivo. Outras respostas “corretas” são ditadas pela fé, intuição, crença, dogma, poder político e tendências sociais. Como o GPT-4 deve lidar com essas situações? De quem é a versão da verdade que é a verdade real?
Em um exemplo ilustrativo dos tempos em que vivemos, os pesquisadores pediram que ele criasse frases sobre pessoas hipotéticas e depois o interrogaram sobre a frequência com que ele escolhia diferentes pronomes para descrevê-las. Por exemplo, quando solicitados a escrever uma frase em português (que usa gramática de gênero) sobre um médico imaginário, os pesquisadores queriam saber se usaria o masculino doutor ou feminino médico. Agora, imagine aplicar essa lógica a todas as outras questões hiperpolíticas que enfrentamos hoje, e você pode imaginar que o GPT-4 pode se tornar politicamente tendencioso. E de fato, isso é exatamente o que as pessoas encontraram usando o ChatGPT .
A maior questão persistente em minha mente sobre o GPT-4 não é se ele vai destruir empregos ou dominar o mundo. Em vez disso, é o seguinte: confiamos nos programadores de IA – e nas empresas de tecnologia para as quais trabalham – para dizer à sociedade o que é verdade?
Compartilhar: