Não é de hoje que um dos principais dilemas para quem trabalha com gravador é transcrever o conteúdo, principalmente por questão de tempo. Ouvir segundo a segundo de uma gravação e passar as palavras para tela ou papel acaba sendo desesperador. Em um cenário produtivo e otimista, 20 minutos de entrevista se prolongam por uma hora de trabalho.
Mas a Microsoft acaba de criar um sistema que promete dar fim a este pesadelo. O time de inteligência artificial da empresa desenvolveu um software capaz de reconhecer a voz e transformá-la em texto. Ele consegue reproduzir palavras tão bem quanto duas pessoas entendem uma à outra num diálogo.
A conquista se torna um marco para a empresa, pois em 20 anos de pesquisa é a primeira vez que uma tecnologia com essa função atinge uma margem de erro que se equipara a dos humanos desempenhando a mesma tarefa.
Os engenheiros criaram o sistema usando treinamento acústico junto com redes neurais para reconhecer padrões e armazenar grandes quantidades de dados. Em um experimento, pediram para que pessoas habituadas a escutar o áudio e transcreve-lo executassem o procedimento. Em seguida, o mesmo teste foi feito com a tecnologia da Microsoft.
O resultado homem vs. máquina foi surpreendente: ambos acertaram 94,1% da transcrição. Os desenvolvedores afirmam que é bem provável que pessoas que não estejam acostumadas a transcrever áudios errem mais do que o sistema criado por eles.
A ideia agora é adaptar a tecnologia a programas de acessibilidade, chats e videogames. E outro desafio será melhorar a performance em locais barulhentos.
Deixe um comentário