A.I. está traduzindo mensagens de línguas há muito perdidas
Pesquisadores do MIT e do Google usam aprendizado profundo para decifrar linguagens antigas.
- Pesquisadores do MIT e do Google Brain descobrem como usar o aprendizado profundo para decifrar linguagens antigas.
- A técnica pode ser usada para ler idiomas que morreram há muito tempo.
- O método se baseia na capacidade das máquinas de realizar tarefas monótonas rapidamente.
Há cerca de 6.500-7.000 línguas faladas atualmente no mundo. Mas isso é menos de um quarto de todas as línguas que as pessoas falaram ao longo da história humana. Esse número total é cerca 31.000 idiomas, de acordo com alguns estimativas linguísticas. Cada vez que uma língua se perde, assim continua aquela forma de pensar, de se relacionar com o mundo. As relações, a poesia da vida exclusivamente descrita por meio dessa linguagem também se perdem. Mas e se você pudesse descobrir como ler as línguas mortas? Pesquisadores de COM e Google Brain criou um sistema baseado em IA que pode fazer exatamente isso.
Enquanto os idiomas mudam, muitos dos símbolos e como as palavras e caracteres são distribuídos permanecem relativamente constantes ao longo do tempo. Por causa disso, você pode tentar decodificar uma linguagem perdida há muito tempo se compreender sua relação com uma linguagem progenitora conhecida. Esse insight é o que permitiu à equipe que incluiu Jiaming Luo e Regina Barzilay do MIT e Yuan Cao do laboratório de IA do Google para usar o aprendizado de máquina para decifrar o antigo idioma grego Linear B (de 1400 aC) e um cuneiforme Ugarítico (hebraico antigo) idioma que também tem mais de 3.000 anos.
O Linear B foi previamente quebrado por um humano - em 1953, foi decifrado por Michael Ventris. Mas esta foi a primeira vez que a linguagem foi descoberta por uma máquina.
A abordagem dos pesquisadores se concentrou em 4 propriedades principais relacionadas ao contexto e ao alinhamento dos personagens a serem decifrados - similaridade distributiva, mapeamento de caráter monotônico, dispersão estrutural e sobreposição cognata significativa.
Eles treinaram a rede de IA para procurar essas características, conseguindo a tradução correta de 67,3% do Linear B cognatos (palavra de origem comum) em seus equivalentes gregos.
O que a IA pode potencialmente fazer melhor em tais tarefas, de acordo com a MIT Technology Review , é que ele pode simplesmente adotar uma abordagem de força bruta que seria muito exaustiva para os humanos. Eles podem tentar traduzir símbolos de um alfabeto desconhecido testando-o rapidamente em comparação com símbolos de um idioma após o outro, examinando-os por meio de tudo o que já é conhecido.
Próximo para os cientistas? Talvez a tradução de Linear A - a língua do grego antigo que ninguém conseguiu decifrar até agora.
Você pode verificar o artigo 'Decifragem Neural via Fluxo de Custo Mínimo: de Ugarítico a Linear B' aqui .
Noam Chomsky sobre os grandes mistérios da linguagem
Noam Chomsky contempla as questões básicas, mas ainda irrespondíveis, da lingüística.
Compartilhar: