Quando os pesquisadores começaram a vislumbrar a ideia de criar máquinas que possam ver e entender como nós, surgiram diversos esforços que culminaram no surgimento da visão computacional. Está área é um subcampo da inteligência artificial (IA) e ciência da computação que está evoluindo muito nos últimos anos. Trata-se de tecnologias que se utilizam de processamento de dados visuais.

Os maiores responsáveis pela grande evolução da visão computacional nos últimos anos foram as tecnologias de deep learning e as redes neurais artificiais (artificial neural networks). Destes, o que mais lida bem com dados não estruturados, como imagens e vídeos.

Alguns poréns sobre a visão computacional

Mesmo que as melhorias proporcionadas pela visão computacional tenham sido significativas nos últimos anos, é importante ter em mente que ainda estamos longe de ter algoritmos capazes de dar sentido a fotos e vídeos da mesma forma que nós. Até o momento, uma ferramenta que tem sido muito útil para atingir este objetivo são as redes neurais profundas (deep neural networks), que são capazes de classificar de maneira eficiente imagens e localizar objetos nelas. Entretanto, quando é exigido uma interpretação de contexto das imagens e a relação entre diferentes objetos, o sistema falha miseravelmente.

Pesquisa de imagens

Um dos setores que a visão computacional já proporcionou um grande progresso foi na classificação de imagens e detecção de objetos. Poucas empresas possuem o imenso armazenamento de dados de usuários como a Google. Através das imagens coletadas, a desenvolvedora de softwares consegue desenvolver modelos de IA extremamente eficientes. Um exemplo disso é o Google Fotos, onde é possível localizar uma imagem escrevendo algum termo na busca, mesmo que o arquivo não tenha em sua descrição o que você inseriu na busca.

Reconhecimento facial

Até há alguns anos atrás, o reconhecimento facial era uma tecnologia não muito eficiente e cara, limitada somente a empresas de grande porte ou que exigissem um alto nível de segurança. Entretanto, nos últimos anos, houve um grande avanço nos algoritmos de visão computacional, fazendo com que tal tecnologia evoluísse em termos de eficiência, baixasse o seu custo e chegasse a vários dispositivos, inclusive os mobile. Exemplo disso é o iPhone X que trouxe a tecnologia FaceID, onde é utilizado uma rede neural para realizar a autenticação e desbloquear o celular (é impressionantes como mesmo com condições de baixa luminosidade, barba, cortes diferentes de cabelo, chapéus e óculos, o sistema de biometria ainda funciona).

Vídeo incorporado do YouTube

Câmeras de segurança inteligentes utilizadas em "smart homes"

Com o crescimento cada vez maior de gadgets conectados à internet, focados em atividades diárias de uso doméstico, a IoT (internet das coisas) está se tornando cada vez mais popular nas casas, transformando-as em smart homes, casas com diversos objetos conectados a nuvem que se comunicam através da internet com celulares, notebooks e desktops. Com isso, o uso de câmeras de segurança inteligentes aumentou consideravelmente, já que elas permitem o fácil acesso às imagens de qualquer lugar que se esteja. Entretanto, somente enviar as imagens gravadas para a nuvem e transmiti-las para algum dispositivo móvel já não é mais o suficiente.

Com a utilização de algoritmos de visão computacional, as câmeras de segurança inteligentes podem passar a não só transmitir imagens, mas analisá-las. Um exemplo disso é detectar o movimento de algum objeto e iniciar de forma automática a gravação. Porém, é possível torná-la melhor ainda e fazer ela distinguir um objeto em movimento de outro, para conseguir detectar se é algo inocente ou perigoso para os moradores da casa.

Imagem ilustrativa de câmeras de segurança inteligentes analisando imagens. Fonte: Boyd Digital Global Tech News
Imagem ilustrativa de câmeras de segurança inteligentes analisando imagens. Fonte: Boyd Digital Global Tech News

As possibilidades são muitas, mas ainda não chegamos a este ponto de fazer com que as câmeras de segurança possam analisar imagens de forma criteriosa. Mas nada impede de que isso surja daqui há alguns anos, principalmente devido a velocidade com que a tecnologia está evoluindo.

Sensores de imagem que se utilizam de IA integrada

Em abril de 2020, a Sony lançou novos sensores de imagem que se utilizam de AI integrada. Este processo de inteligência artificial não depende de informações processadas de servidores na nuvem ou outro sistema. Os chips são capazes de gerar pings anônimos de metadados para dizer a você o que foi visto.

Um dos pontos positivos da nova tecnologia, é garantir a privacidade, ja que todo o processamento é feito somente pelos chips. Outro ponto é a obtenção de informação, e processamento das mesmas, em tempo real, possibilitando um tempo de resposta a alguma tarefa de maneira muito mais rápida e eficiente.

É importante salientar que esta nova tecnologia não possui como objetivo, por enquanto, substituir os sofisticados softwares de deep learning que funcionam através da nuvem. Entretanto, isso de fato é um passo para um futuro onde câmeras podem funcionar com sistemas inteligentes totalmente independentes.

A tecnologia de IA integrada abre espaço para realizar diversas tarefas de maneira rápida eficiente como, por exemplo, no aprimoramento das câmeras de segurança inteligentes, que foram citadas acima, ou em carros autônomos para detectar possíveis barreiras e tomar decisões de forma automática.

Vídeo incorporado do YouTube

Carros autônomos

É o sonho de mitos um dia poder se locomover sem a necessidade de pegar no volante de um carro, acelerar e mudar de marcha. Entretanto, para chegar a este ponto, há vários desafios complexos a se transpassar. Atualmente temos sistemas semiautomáticos que conseguem até certo ponto conduzir o carro de maneira automática como, por exemplo, os carros da montadora Tesla, de Elon Musk.

Para fazer com que os carros possam dirigir de forma autônoma ou quase autônoma, é necessário que o sistema compreenda o ambiente ao seu redor. Para isso, há diversas câmeras instaladas ao redor do veículo, que coletam informações que são analisadas por redes neuras profundas (deep neural networks), onde são analisadas diversas imagens das atividades do carro comparadas a outras, de outros usuários. Desta forma, se consegue evitar colisões e navegar tranquilamente nas estradas.

Vídeo incorporado do YouTube

Processamento de imagens médicas

Com os algoritmos da visão computacional utilizando deep learning, é possível analisar diversas imagens e compara-las para obter um resultado mais rápido e eficaz para um diagnóstico de saúde de uma pessoa, analisando exames ou sintomas, ou para a criação de medicamentos, através da realização de diversas combinações de substancias e suas possíveis reações ao serem combinadas e colocadas em contato com o corpo humano.

Vídeo incorporado do YouTube

Interagindo com o mundo real

A realidade aumentada (RA) é utilizada hoje por diversos aplicativos, que vão desde, por exemplo, lojas de óculos (para experimentar diferentes modelos) até jogos mobile como Pokemon Go. Para realizar o ambiente e o rosto das pessoas, os sistemas de RA utilizam deep learning para detectar e rastrear os objetos do local e inserir formas virtuais.

Vídeo incorporado do YouTube

Lojas sem caixa para pagamento

Há alguns anos atrás, a Amazon lançou sua loja Go, onde é possível entrar, pegar o que necessita e simplesmente sair, sem que seja preso por roubar o local. Para que isso seja possível, foi utilizado diversos sistemas de inteligência artificial que se utilizam de câmeras, sensores e análise de imagens através de algoritmos avançados que consegue acompanhar os itens que foram pagos e transportados para o caixa ou devolvidos para as prateleiras. Hoje a Amazon já conta com 18 unidades equipadas com esta tecnologia inovadora e pretende expandir mais ainda.

Vídeo incorporado do YouTube