Reconhecimento de fala
Reconhecimento de fala , a capacidade dos dispositivos de responder aos comandos falados. O reconhecimento de voz permite o controle mãos-livres de vários dispositivos e equipamentos (um benefício particular para muitas pessoas com deficiência), fornece entrada para tradução automática e cria ditado pronto para impressão. Entre as primeiras aplicações para Fala o reconhecimento foi automatizado Telefone sistemas e software de ditado médico. É freqüentemente usado para ditado, para consultar bancos de dados e para dar comandos a computador com base em sistemas, especialmente em profissões que contam com vocabulários especializados. Também habilita assistentes pessoais em veículos e smartphones, como Da Apple Siri.
Antes de qualquer máquina pode interpretar a fala, um microfone deve traduzir as vibrações da voz de uma pessoa em uma onda elétrico sinal. Este sinal, por sua vez, é convertido pelo sistema hardware —Por exemplo, a placa de som de um computador — em um sinal digital. É o sinal digital que um programa de reconhecimento de voz analisa para reconhecer separadamente fonemas , os blocos básicos de construção do discurso. O fonemas são então recombinados em palavras. No entanto, muitas palavras soam parecidas e, para selecionar a palavra apropriada, o programa deve contar com o contexto . Muitos programas estabelecem o contexto por meio da análise de trigramas, um método baseado em um banco de dados de grupos frequentes de três palavras, nos quais são atribuídas probabilidades de que quaisquer duas palavras serão seguidas por uma determinada terceira palavra. Por exemplo, se um falante disser quem sou, a próxima palavra será reconhecida como o pronome I, em vez de como o olho que soa semelhante, mas é menos provável. No entanto, às vezes é necessária intervenção humana para corrigir erros.
Programas para reconhecer algumas palavras isoladas, como sistemas de navegação por voz por telefone, funcionam para quase todos os usuários. Por outro lado, programas de fala contínua, como programas de ditado, devem ser treinados para reconhecer os padrões de fala de um indivíduo; o treinamento envolve a leitura do usuário em voz alta de amostras de texto. Hoje, com o crescente poder dos computadores pessoais e dispositivos móveis, a precisão do reconhecimento de voz melhorou significativamente. As taxas de erro foram reduzidas para cerca de 5% em vocabulários contendo dezenas de milhares de palavras. Uma precisão ainda maior é alcançada em vocabulários limitados para aplicações especializadas, como ditado de radiológicos diagnósticos .
Compartilhar:
