Usando apenas a linguagem em milhões de artigos científicos antigos, um algoritmo de aprendizado de máquina foi capaz de fazer descobertas científicas completamente novas.

Em um estudo publicado na Nature em 3 de julho, pesquisadores do Laboratório Nacional Lawrence Berkeley usaram um algoritmo chamado Word2Vec para analisar documentos científicos sobre conexões que os humanos haviam perdido.

Seu algoritmo então cita previsões de possíveis materiais termoelétricos, que convertem calor em energia e são usados ​​em muitas aplicações de aquecimento e resfriamento.

no entanto, o algoritmo não sabia a definição de termoelétrica. Não recebeu nenhum treinamento em ciência de materiais. Usando apenas associações de palavras, o algoritmo foi capaz de fornecer uma lista de possíveis novos materiais termoelétricos, alguns dos quais podem ser melhores do que os usados atualmente.

"Ele pode ler qualquer artigo sobre ciência dos materiais, então pode fazer conexões que nenhum cientista poderia fazer", disse o pesquisador Anubhav Jain. "Às vezes faz o que um pesquisador faria; outras vezes faz essas associações interdisciplinares".

Para treinar o algoritmo, os pesquisadores avaliaram a linguagem em 3,3 milhões de resumos relacionados à ciência dos materiais, terminando com um vocabulário de cerca de 500.000 palavras. Eles alimentaram os resumos para o Word2vec, que usaram o aprendizado de máquina para analisar as relações entre as palavras.

algoritmo
O algoritmo não é supervisionado e constrói suas próprias conexões

 "O modo como esse algoritmo Word2vec funciona é que você treina um modelo de rede neural para remover cada palavra e prever quais serão as palavras próximas a ela", disse Jain. "Ao treinar uma rede neural em uma palavra, você obtém representações de palavras que podem realmente conferir conhecimento."

Usando apenas as palavras encontradas em resumos científicos, o algoritmo foi capaz de entender conceitos como a tabela periódica e a estrutura química das moléculas. O algoritmo relacionou palavras que foram encontradas juntas, criando vetores de palavras relacionadas que ajudaram a definir conceitos.

Em alguns casos, as palavras estavam ligadas a conceitos termoelétricos, mas nunca haviam sido descritas como termoelétricos em nenhum resumo pesquisado. Essa lacuna no conhecimento é difícil de identificar por olhos humanos, mas é fácil para um algoritmo detectar.

Depois de mostrar sua capacidade de prever materiais futuros, os pesquisadores retomaram seu trabalho no tempo, virtualmente. Eles descartaram dados recentes e testaram o algoritmo em documentos antigos, vendo se ele poderia prever descobertas científicas antes que elas acontecessem. Mais uma vez, o algoritmo funcionou.

Em um experimento, os pesquisadores analisaram apenas artigos publicados antes de 2009 e foram capazes de prever um dos melhores materiais termoelétricos modernos quatro anos antes de serem descobertos em 2012.

Esta nova aplicação de aprendizado de máquina vai além da ciência de materiais. Como não é treinado em um conjunto de dados científicos específico, você poderia facilmente aplicá-lo a outras disciplinas, retreinando-o na literatura sobre qualquer assunto que desejasse. Vahe Tshitoyan, o principal autor do estudo, diz que outros pesquisadores já se aproximaram, querendo aprender mais.

"Esse algoritmo não é supervisionado e constrói suas próprias conexões", disse Tshitoyan. "Você poderia usar isso para coisas como pesquisa médica ou descoberta por novas drogas. A informação está lá fora. Nós apenas não fizemos essas conexões ainda porque você não pode ler todos os artigos."

As possibilidades causam espanto, mas o fato de algoritmo desprezar o significado dos termos e apenas cruzar as palavras entregando novos resultados nunca antes vistos, trazem um maior conforto para aqueles que acham que o fim da humanidade está diretamente associado a substituição do homem pela máquina. 

A presença na pesquisa demonstra que novamente a tecnologia chega como coadjuvante para acelerar às descobertas que podem ou não ser aplicadas pelo homem, para o homem.