Máquinas que veem o mundo mais como os humanos
Uma nova abordagem de senso comum para visão computacional permite inteligência artificial que interpreta cenas com mais precisão do que outros sistemas.
Legenda: Esta imagem mostra como o 3DP3 (linha inferior) infere estimativas de pose mais precisas de objetos de imagens de entrada (linha superior) do que sistemas de aprendizado profundo (linha do meio). (Cortesia dos pesquisadores)
Os sistemas de visão computacional às vezes fazem inferências sobre uma cena que fogem do senso comum. Por exemplo, se um robô estiver processando uma cena de uma mesa de jantar, ele pode ignorar completamente uma tigela que é visível para qualquer observador humano, estimar que um prato está flutuando acima da mesa ou perceber erroneamente que um garfo está penetrando uma tigela em vez de encostado nele.
Mova esse sistema de visão computacional para um carro autônomo e os riscos se tornam muito maiores – por exemplo, esses sistemas falharam em detectar veículos de emergência e pedestres atravessando a rua.
Para superar esses erros, os pesquisadores do MIT desenvolveram uma estrutura que ajuda as máquinas a ver o mundo mais como os humanos fazem relatórios Notícias do MIT . Seu novo sistema de inteligência artificial para analisar cenas aprende a perceber objetos do mundo real a partir de apenas algumas imagens e percebe cenas em termos desses objetos aprendidos.
Os pesquisadores construíram a estrutura usando programação probabilística, uma abordagem de IA que permite ao sistema cruzar objetos detectados com dados de entrada, para ver se as imagens gravadas de uma câmera são uma correspondência provável para qualquer cena candidata. A inferência probabilística permite ao sistema inferir se as incompatibilidades são prováveis devido a ruídos ou a erros na interpretação da cena que precisam ser corrigidos por processamento adicional.
Essa proteção de bom senso permite que o sistema detecte e corrija muitos erros que afligem as abordagens de aprendizado profundo que também têm sido usadas para visão computacional. A programação probabilística também possibilita inferir relações de contato prováveis entre objetos na cena e usar o raciocínio de senso comum sobre esses contatos para inferir posições mais precisas para os objetos.
Se você não sabe sobre as relações de contato, pode dizer que um objeto está flutuando acima da mesa - essa seria uma explicação válida. Como seres humanos, é óbvio para nós que isso é fisicamente irrealista e que o objeto em cima da mesa é uma pose mais provável do objeto. Como nosso sistema de raciocínio está ciente desse tipo de conhecimento, ele pode inferir poses mais precisas. Essa é uma visão fundamental deste trabalho, diz o principal autor Nishad Gothoskar, um estudante de doutorado em engenharia elétrica e ciência da computação (EECS) do Projeto de Computação Probabilística.
Além de melhorar a segurança dos carros autônomos, esse trabalho pode melhorar o desempenho dos sistemas de percepção do computador que devem interpretar arranjos complicados de objetos, como um robô encarregado de limpar uma cozinha desordenada.
Os coautores de Gothoskar incluem Marco Cusumano-Towner; engenheiro de pesquisa Ben Zinberg; a estudante visitante Matin Ghavamizadeh; Falk Pollok, engenheiro de software do MIT-IBM Watson AI Lab; o recém-formado em EECS, Austin Garrett; Dan Gutfreund, investigador principal do MIT-IBM Watson AI Lab; Joshua B. Tenenbaum, Professor de Desenvolvimento de Carreira Paul E. Newton de Ciência Cognitiva e Computação no Departamento de Cérebro e Ciências Cognitivas (BCS) e membro do Laboratório de Ciência da Computação e Inteligência Artificial; e autor sênior Vikash K. Mansinghka, principal cientista de pesquisa e líder do Projeto de Computação Probabilística em BCS. A pesquisa está sendo apresentada na Conferência sobre Sistemas de Processamento de Informação Neural em dezembro.
Uma explosão do passado
Para desenvolver o sistema, chamado 3D Scene Perception via Probabilistic Programming (3DP3), os pesquisadores se basearam em um conceito dos primeiros dias da pesquisa de IA, que é que a visão computacional pode ser pensada como o inverso da computação gráfica.
A computação gráfica se concentra na geração de imagens a partir da representação de uma cena; a visão computacional pode ser vista como o inverso desse processo. Gothoskar e seus colaboradores tornaram essa técnica mais apreensível e escalável, incorporando-a a uma estrutura construída usando programação probabilística.
A programação probabilística nos permite escrever nosso conhecimento sobre alguns aspectos do mundo de uma forma que um computador pode interpretar, mas, ao mesmo tempo, nos permite expressar o que não sabemos, a incerteza. Assim, o sistema é capaz de aprender automaticamente com os dados e também detectar automaticamente quando as regras não são válidas, explica Cusumano-Towner.
Neste caso, o modelo é codificado com conhecimento prévio sobre cenas 3D. Por exemplo, o 3DP3 sabe que as cenas são compostas de objetos diferentes e que esses objetos geralmente ficam um em cima do outro – mas nem sempre podem estar em relacionamentos tão simples. Isso permite que o modelo raciocine sobre uma cena com mais senso comum.
Aprendendo formas e cenas
Para analisar uma imagem de uma cena, o 3DP3 primeiro aprende sobre os objetos naquela cena. Depois de ver apenas cinco imagens de um objeto, cada uma tirada de um ângulo diferente, o 3DP3 aprende a forma do objeto e estima o volume que ocuparia no espaço.
Se eu mostrar um objeto de cinco perspectivas diferentes, você pode construir uma representação muito boa desse objeto. Você entenderia sua cor, sua forma e seria capaz de reconhecer esse objeto em muitas cenas diferentes, diz Gothoskar.
Mansinghka acrescenta: Isso é muito menos dados do que abordagens de aprendizado profundo. Por exemplo, o sistema de detecção de objetos neurais Dense Fusion requer milhares de exemplos de treinamento para cada tipo de objeto. Em contraste, o 3DP3 requer apenas algumas imagens por objeto e relata incerteza sobre as partes da forma de cada objeto que não conhece.
O sistema 3DP3 gera um gráfico para representar a cena, onde cada objeto é um nó e as linhas que conectam os nós indicam quais objetos estão em contato uns com os outros. Isso permite que o 3DP3 produza uma estimativa mais precisa de como os objetos são organizados. (As abordagens de aprendizado profundo dependem de imagens de profundidade para estimar poses de objetos, mas esses métodos não produzem uma estrutura gráfica de relações de contato, portanto, suas estimativas são menos precisas.)
Modelos de linha de base com desempenho superior
Os pesquisadores compararam o 3DP3 com vários sistemas de aprendizado profundo, todos encarregados de estimar as poses de objetos 3D em uma cena.
Em quase todos os casos, o 3DP3 gerou poses mais precisas do que outros modelos e teve um desempenho muito melhor quando alguns objetos estavam obstruindo parcialmente outros. E o 3DP3 só precisava ver cinco imagens de cada objeto, enquanto cada um dos modelos de linha de base que superava precisava de milhares de imagens para treinamento.
Quando usado em conjunto com outro modelo, o 3DP3 conseguiu melhorar sua precisão. Por exemplo, um modelo de aprendizado profundo pode prever que uma tigela está flutuando ligeiramente acima de uma mesa, mas como o 3DP3 tem conhecimento das relações de contato e pode ver que essa é uma configuração improvável, é capaz de fazer uma correção alinhando a tigela com a mesa.
Achei surpreendente ver quão grandes os erros do aprendizado profundo às vezes podem ser - produzindo representações de cena onde os objetos realmente não combinam com o que as pessoas perceberiam. Também achei surpreendente que apenas um pouco de inferência baseada em modelo em nosso programa probabilístico causal fosse suficiente para detectar e corrigir esses erros. Claro, ainda há um longo caminho a percorrer para torná-lo rápido e robusto o suficiente para desafiar os sistemas de visão em tempo real - mas pela primeira vez, estamos vendo programação probabilística e modelos causais estruturados melhorando a robustez sobre o aprendizado profundo em 3D rígido benchmarks de visão, diz Mansinghka.
No futuro, os pesquisadores gostariam de impulsionar o sistema ainda mais para que ele possa aprender sobre um objeto a partir de uma única imagem, ou um único quadro em um filme, e então ser capaz de detectar esse objeto de forma robusta em diferentes cenas. Eles também gostariam de explorar o uso do 3DP3 para coletar dados de treinamento para uma rede neural. Muitas vezes, é difícil para os humanos rotular imagens manualmente com geometria 3D, então o 3DP3 pode ser usado para gerar rótulos de imagem mais complexos.
O sistema 3DP3 combina modelagem gráfica de baixa fidelidade com raciocínio de senso comum para corrigir grandes erros de interpretação de cenas feitos por redes neurais de aprendizado profundo. Esse tipo de abordagem pode ter ampla aplicabilidade, pois aborda importantes modos de falha de aprendizado profundo. A realização dos pesquisadores do MIT também mostra como a tecnologia de programação probabilística desenvolvida anteriormente no programa Probabilistic Programming for Advancing Machine Learning (PPAML) da DARPA pode ser aplicada para resolver problemas centrais de IA de senso comum no atual programa Machine Common Sense (MCS) da DARPA, diz Matt Turek, gerente do programa DARPA para o programa Machine Common Sense, que não esteve envolvido nesta pesquisa, embora o programa tenha financiado parcialmente o estudo.
Financiadores adicionais incluem a colaboração da Agência de Ciência e Tecnologia de Defesa de Cingapura com o MIT Schwarzman College of Computing, o Probabilistic Computing Center da Intel, o MIT-IBM Watson AI Lab, a Aphorism Foundation e a Siegel Family Foundation.
Republicado com permissão de Notícias do MIT . Leia o artigo original .
Neste artigo, robótica de inovação em tecnologia emergenteCompartilhar: