Outro

IA do Google aprende que ações 'agressivas' e traição compensam

A inteligência artificial DeepMind do Google aprende o que é preciso para vencer, fazendo escolhas humanas em situações competitivas.

À medida que o desenvolvimento da inteligência artificial continua a uma velocidade vertiginosa, persistem dúvidas sobre se entendemos no que estamos nos metendo. Um temor é que robôs cada vez mais inteligentes ocupem todos os nossos empregos. Outro medo é que criaremos um mundo onde uma superinteligência um dia decidirá que não precisa de humanos. Esse medo é bem explorado na cultura popular, por meio de livros e filmes como o o Exterminador do Futuro Series.

Outra possibilidade é talvez aquela que faz mais sentido - uma vez que são os humanos que as criam, as máquinas e as inteligências das máquinas provavelmente se comportarão como os humanos. Para melhor ou pior. DeepMind, a empresa de IA de ponta do Google, mostrou exatamente isso.

As realizações do programa DeepMind até agora incluem aprender com sua memória, imitando vozes humanas , escrevendo música , e vencendo o melhor Vai jogador do mundo.

Recentemente, a equipe da DeepMind executou uma série de testes para investigar como a IA responderia quando confrontada com certos dilemas sociais. Em particular, eles queriam descobrir se a IA tem mais probabilidade de cooperar ou competir.

Um dos testes envolvidos 40 milhões instâncias de jogar o jogo de computador Reunião , durante o qual a DeepMind mostrou o quão longe está disposta a ir para conseguir o que deseja. O jogo foi escolhido porque encapsula aspectos do clássico 'Dilema do Prisioneiro' da teoria dos jogos.

Colocando personagens controlados por IA (chamados de “agentes”) uns contra os outros, DeepMind os fez competir para coletar o máximo de maçãs virtuais. Quando a quantidade de maçãs disponíveis diminuiu, os agentes de IA começaram a exibir táticas 'altamente agressivas', empregando feixes de laser para nocautear uns aos outros. Eles também roubariam as maçãs do oponente.

Veja como um desses jogos funcionou:

Os agentes DeepMind AI estão em azul e vermelho. As maçãs são verdes, enquanto os raios laser são amarelos.

A equipe DeepMind descreveu seu teste em um postagem do blog Por aqui:

'Nós permitimos que os agentes joguem este jogo milhares de vezes e aprendam como se comportar racionalmente usando aprendizado de reforço multi-agente profundo. Naturalmente, quando há maçãs suficientes no ambiente, os agentes aprendem a coexistir pacificamente e a coletar o máximo de maçãs que puderem. No entanto, à medida que o número de maçãs é reduzido, os agentes aprendem que pode ser melhor para eles marcarem o outro agente para ter tempo por conta própria para coletar as maçãs escassas. ”

Curiosamente, o que parece ter acontecido é que os sistemas de IA começaram a desenvolver algumas formas de comportamento humano.

“Este modelo ... mostra que alguns aspectos da comportamento humano surgem como um produto do ambiente e da aprendizagem. Políticas menos agressivas surgem da aprendizagem em ambientes relativamente abundantes, com menos possibilidade de ação custosa. A motivação da ganância reflete a tentação de tirar um rival e coletar todas as maçãs sozinho ”, disse Joel Z. Leibo da equipe DeepMind para Com fio .

Além da coleta de frutas, a IA também foi testada por meio de um Alcateia jogo de caça. Nele, dois personagens de IA na forma de lobos perseguiram um terceiro agente de IA - a presa. Aqui, os pesquisadores queriam ver se os personagens de IA escolheriam cooperar para pegar a presa porque foram recompensados por aparecerem juntos perto da presa quando ela estava sendo capturada.

“A ideia é que a presa é perigosa - um lobo solitário pode vencê-la, mas corre o risco de perder a carcaça para os necrófagos. No entanto, quando os dois lobos capturam a presa juntos, eles podem proteger melhor a carcaça dos necrófagos e, portanto, receber uma recompensa maior ', escreveram os pesquisadores em seu artigo .

De fato, a estratégia de cooperação incentivada venceu neste caso, com a AI optando por trabalhar em conjunto.

É assim que esse teste resultou:

Os lobos são vermelhos, perseguindo o ponto azul (presa), evitando obstáculos cinza.

Se você está pensando 'A Skynet está aqui', talvez o melhor seja que o segundo teste mostra como o interesse próprio da IA pode incluir cooperação, em vez da competitividade total do primeiro teste. A menos, é claro, sua cooperação para caçar humanos.

Aqui está um gráfico que mostra os resultados dos testes de jogo que mostram um claro aumento na agressão durante a 'Reunião':

Filmes à parte, os pesquisadores estão trabalhando para descobrir como a IA pode eventualmente “controlar sistemas multiagentes complexos, como a economia, sistemas de tráfego ou a saúde ecológica de nosso planeta - todos os quais dependem de nossa cooperação contínua ”.

Uma implementação de IA próxima onde isso pode ser relevante - carros autônomos que terão que escolher as rotas mais seguras, mantendo os objetivos de todas as partes envolvidas em consideração.

O aviso dos testes é que se os objetivos não forem equilibrados na programação, a IA pode agir de forma egoísta, provavelmente não para o benefício de todos.

O que vem por aí para a equipe DeepMind? Joel Leibo quer que a IA se aprofunde nas motivações por trás da tomada de decisões:

“No futuro, seria interessante equipar os agentes com a capacidade de raciocinar sobre as crenças e objetivos de outros agentes”, disse Leibo para Bloomberg .