A DeepMind, empresa de inteligência artificial do Google, conseguiu ensinar um sistema a ler lábios de pessoas a partir de imagens gravadas e assim, fornecer legendas para o que elas estavam dizendo. O sistema, ao final, ficou mais eficaz do que a leitura labial feita com profissionais treinados para isso.

Para atingir a precisão das análises, foram usadas cerca de 5 mil horas de programação da BBC, para treinar a máquina. Conforme a New Scientist, elas continham aproximadamente 118 mil frases inteiras.

Para o treinamento foram usados programas que foram ao ar entre janeiro de 2010 e dezembro de 2015, e o sistema foi testado usando programas que rodaram entre março e setembro de 2016.

A máquina foi capaz de legendar sentenças bastante complexas, como "We know there will be hundreds of journalists here as well" (sabemos que haverá centenas de jornalistas aqui também) e "According to the latest figures from the Office of National Statistics" (de acordo com os números mais recentes do escritório de estatísticas nacionais).

Além de aprender a leitura labial, a máquina tinha o desafio de preparar o seu próprio material para estudo. Os arquivos de programas de TV disponíveis estavam com áudio e vídeos dessincronizados, em vários casos, havia uma defasagem de mais de um segundo entre as duas coisas. Sendo assim, ficava quase impossível para o sistema criar associações entre sons e a posição dos lábios das pessoas que apareciam na tela.

O sistema, então, foi alimentado com algumas associações corretas entre sons e formatos de boca. Através dessa informação, ele conseguiu sincronizar o áudio e o vídeo das suas 5 mil horas de treino. Após, o sistema "assistiu" novamente o material para aprender as novas relações entre sons e formatos de boca.

O sistema em questão é bastante útil, em especial para auxiliar pessoas com dificuldades auditivas a entender o que está sendo falado em vídeos, programas de TV e filmes. A ideia de gerar legendas automáticas também é ideal em serviços de streaming como o YouTube. Além disso, os assistentes digitais também seriam beneficiados, já que se tornariam capazes de compreender tudo apenas com a leitura a partir da câmera do dispositivo.