Como DALL-E, Midjourney, Stable Diffusion e outras formas de IA generativa funcionam?
Imagens significativas são montadas a partir de ruídos sem sentido.- O DALL-E e outros tipos de IA generativa podem produzir imagens que se parecem com fotografias, pinturas ou desenhos criados por seres humanos.
- A IA generativa é alimentada por um programa de computador chamado modelo de difusão. Em termos simples, um modelo de difusão destrói e recria imagens para encontrar padrões estatísticos nelas.
- A maneira como ela opera não é como a inteligência natural. Não podemos prever quão bem, ou mesmo por que, uma IA como essa funciona. Só podemos julgar se suas saídas parecem boas.
DALL-E é assustadoramente bom. Não muitos anos atrás, era fácil concluir que as tecnologias de IA nunca gerariam nada de qualidade que se aproximasse da composição ou escrita artística humana. Agora, os programas de modelo generativo que alimentam o DALL-E 2 e o chatbot LaMDA do Google produzem imagens e palavras estranhamente como o trabalho de uma pessoa real. Dall-E cria imagens artísticas ou fotorrealistas de uma variedade de objetos e cenas.
Como funcionam esses modelos geradores de imagens? Eles funcionam como uma pessoa, e devemos pensar neles como inteligentes?
Como funcionam os modelos de difusão
O transformador pré-treinado 3 (GPT-3) é a vanguarda da tecnologia de IA. O código de computador proprietário foi desenvolvido pela OpenAI, uma operação de tecnologia da Bay Area que começou como uma organização sem fins lucrativos antes de se tornar lucrativa e licenciar o GPT-3 para a Microsoft. O GPT-3 foi construído para produzir palavras, mas o OpenAI ajustou uma versão para produzir DALL-E e sua sequência, DALL-E 2, usando uma técnica chamada modelagem de difusão.
Os modelos de difusão realizam dois processos sequenciais. Eles arruínam as imagens, depois tentam reconstruí-las. Os programadores dão ao modelo imagens reais com significados atribuídos por humanos: cachorro, pintura a óleo, banana, céu, sofá dos anos 1960, etc. O modelo as difunde — isto é, move — através de uma longa cadeia de passos sequenciais. Na sequência de ruína, cada passo altera ligeiramente a imagem entregue a ele pelo passo anterior, adicionando ruído aleatório na forma de pixels sem sentido scattershot e, em seguida, transferindo-o para o próximo passo. Repetido, repetidamente, isso faz com que a imagem original gradualmente se torne estática e seu significado desapareça.
Não podemos prever quão bem, ou mesmo por que, uma IA como essa funciona. Só podemos julgar se suas saídas parecem boas.
Quando esse processo é concluído, o modelo o executa no sentido inverso. Começando com o ruído quase sem sentido, ele empurra a imagem de volta através da série de etapas sequenciais, desta vez tentando reduzir o ruído e trazer de volta o significado. Em cada etapa, o desempenho do modelo é julgado pela probabilidade de que a imagem menos ruidosa criada nessa etapa tenha o mesmo significado que a imagem real original.
Enquanto distorcer a imagem é um processo mecânico, devolvê-la à clareza é uma busca por algo como um significado. O modelo é gradualmente “treinado” ajustando centenas de bilhões de parâmetros – pense em pequenos botões de interruptores dimmer que ajustam um circuito de luz de totalmente desligado para totalmente ligado – dentro de redes neurais no código para “aumentar” etapas que melhoram a probabilidade de significado da imagem, e para “recusar” passos que não o fazem. Executar esse processo repetidamente em muitas imagens, ajustando os parâmetros do modelo a cada vez, eventualmente ajusta o modelo para obter uma imagem sem sentido e evoluí-la através de uma série de etapas em uma imagem que se parece com a imagem de entrada original.
Para produzir imagens que tenham significados de texto associados, as palavras que descrevem as imagens de treinamento são levadas através das cadeias de ruído e eliminação de ruído ao mesmo tempo. Dessa forma, o modelo é treinado não apenas para produzir uma imagem com alta probabilidade de significado, mas com alta probabilidade de as mesmas palavras descritivas serem associadas a ela. Os criadores do DALL-E o treinaram em uma faixa gigante de imagens, com significados associados, selecionados de toda a web. O DALL-E pode produzir imagens que correspondem a uma variedade tão estranha de frases de entrada porque era isso que estava na internet.
O funcionamento interno de um modelo de difusão é complexo. Apesar da sensação orgânica de suas criações, o processo é inteiramente mecânico, construído sobre uma base de cálculos de probabilidade. ( Este papel funciona através de algumas das equações. Aviso: a matemática é difícil.)
Essencialmente, a matemática trata de dividir operações difíceis em etapas separadas, menores e mais simples que são quase tão boas, mas muito mais rápidas para os computadores trabalharem. Os mecanismos do código são compreensíveis, mas o sistema de parâmetros ajustados que suas redes neurais captam no processo de treinamento é completamente sem sentido. Um conjunto de parâmetros que produz boas imagens é indistinguível de um conjunto que cria imagens ruins – ou imagens quase perfeitas com alguma falha desconhecida, mas fatal. Assim, não podemos prever quão bem, ou mesmo por que, uma IA como essa funciona. Só podemos julgar se suas saídas parecem boas.
Os modelos generativos de IA são inteligentes?
É muito difícil dizer, então, o quanto DALL-E é como uma pessoa. A melhor resposta é provavelmente nem um pouco . Os humanos não aprendem ou criam dessa maneira. Não recolhemos dados sensoriais do mundo e depois os reduzimos a ruído aleatório; também não criamos coisas novas começando com aleatoriedade total e depois eliminando o ruído. O proeminente linguista Noam Chomsky que um modelo generativo como o GPT-3 não produz palavras em uma linguagem significativa de forma diferente de como produziria palavras em uma linguagem sem significado ou impossível. Nesse sentido, não tem noção do significado da linguagem, uma característica fundamentalmente humana .
Mesmo que eles não sejam como nós, eles são inteligentes de alguma outra forma? No sentido de que eles podem fazer coisas muito complexas, mais ou menos. Então, novamente, um torno automatizado por computador pode criar peças metálicas altamente complexas. Pela definição do Teste de Turing (ou seja, determinar se sua saída é indistinguível da de uma pessoa real), certamente pode ser. Por outro lado, programas de robôs de bate-papo extremamente simplistas e vazios fazem isso há décadas. No entanto, ninguém acha que máquinas-ferramentas ou chatbots rudimentares são inteligentes.
Uma melhor compreensão intuitiva dos atuais programas de IA de modelo generativo pode ser pensar neles como imitadores idiotas extraordinariamente capazes. Eles são como um papagaio que pode ouvir a fala humana e produzir não apenas palavras humanas, mas grupos de palavras nos padrões certos. Se um papagaio ouviu novelas por um milhão de anos, provavelmente poderia aprender a criar diálogos interpessoais dramáticos e emocionalmente sobrecarregados. Se você passou esses milhões de anos dando bolachas para encontrar frases melhores e gritando com elas pelas ruins, pode ficar ainda melhor.
Ou considere outra analogia. DALL-E é como um pintor que vive toda a sua vida em um quarto cinza e sem janelas. Você mostra a ele milhões de pinturas de paisagens com os nomes das cores e temas anexados. Então você dá a ele tinta com etiquetas de cores e pede que ele combine as cores e faça padrões estatisticamente imitando as etiquetas do assunto. Ele faz milhões de pinturas aleatórias, comparando cada uma com uma paisagem real, e depois altera sua técnica até que comecem a parecer realistas. No entanto, ele não poderia dizer nada sobre o que é uma paisagem real.
Outra maneira de obter informações sobre os modelos de difusão é observar as imagens produzidas por um modelo mais simples. DALL-E 2 é o mais sofisticado de seu tipo. A primeira versão do DALL-E geralmente produzia imagens quase corretas, mas claramente não exatamente, como girafas-dragão cujas asas não se encaixavam adequadamente em seus corpos. Um concorrente de código aberto menos poderoso é conhecido por produzir imagens inquietantes que são oníricos e bizarros e não muito realistas. As falhas inerentes aos mashups estatísticos sem sentido de um modelo de difusão não estão ocultas como as do DALL-E 2, muito mais polido.
O futuro da IA generativa
Quer você ache maravilhoso ou horrível, parece que acabamos de entrar em uma era na qual os computadores podem gerar imagens e frases falsas convincentes. É bizarro que uma imagem com significado para uma pessoa possa ser gerada a partir de operações matemáticas em um ruído estatístico quase sem sentido. Enquanto as maquinações são sem vida, o resultado parece algo mais. Veremos se DALL-E e outros modelos generativos evoluem para algo com um tipo mais profundo de inteligência, ou se eles só podem ser os maiores imitadores idiotas do mundo.
Compartilhar: