Como câmeras dão aos nossos dispositivos o poder da visão

janeiro 31, 2021

By carolcfuenmayor

Seja um fone de ouvido de realidade virtual avançado, um robô doméstico ou simplesmente um piloto automático para nossos carros voadores, uma grande proporção dos sonhos da ficção científica exige que os computadores vejam.

Uma máquina não pode interagir com o mundo físico se não souber o que há nesse mundo físico, mas os engenheiros se esforçaram para ensinar os computadores a extrair uma compreensão espacial útil de imagens.

O machine learning está no caminho certo para resolver esse problema, dando aos computadores o poder da visão.

O avanço veio com a mudança dos insights diretos dos engenheiros de software em direção ao lento processo evolutivo que só foi possível com as redes neurais.

De repente, o trabalho de um desenvolvedor de visão por computador mudou de projetar as regras básicas de visão para construir conjuntos de dados que permitem o desenvolvimento dessas mesmas regras por meio do machine learning.

Ao deixar o desenvolvimento real da visão para o processo de aprendizado lento e iterativo, e se concentrar em fornecer os recursos necessários a esse processo, os desenvolvedores repentinamente descobriram que os computadores não apenas podiam ver, mas até mesmo começar a atribuir alguma medida de compreensão ao que veem.

Usando conjuntos de dados para dar às máquinas o poder da visão

No machine learning, um conjunto de dados é uma coleção selecionada de informações que são organizadas para permitir um aprendizado útil sobre um tópico específico.

Então, quando o Google ficou famoso por querer ensinar um programa a identificar vídeos de gatos, ele primeiro teve que criar uma série de conjuntos de dados a serem usados por sua rede neural nascente de localização de gatos.

O conjunto de dados não deve conter apenas vídeos de gatos e não gatos, mas metadados que especificam a resposta verdadeira – contendo gato ou não contendo gato.

Sem essa curadoria do conjunto de dados, a rede neural não tem como saber se uma determinada execução foi bem-sucedida em sua tentativa de adivinhar ou não.

E é o feedback de suposições corretas e incorretas que fornecem o contexto para que algoritmos de machine learning reestruturem uma rede neural para ser melhor na resolução de um determinado problema.

Portanto, a criação de conjuntos de dados de alta qualidade e precisos é uma grande preocupação no desenvolvimento de modelos de redes neurais em geral e modelos de visão computacional em particular.

Com um conjunto de dados bem formado em mãos, junto com um algoritmo de machine learning bem escolhido, um desenvolvedor pode sentar e esperar que seu programa melhore.

Hoje, mais de cinco anos depois que os computadores do Google começaram a identificar gatos de maneira confiável, o espaço da visão computacional evoluiu consideravelmente.

Onde os computadores costumavam se esforçar para identificar rostos humanos em condições ideais, agora muitos sistemas de segurança doméstica oferecem reconhecimento facial automatizado de visitantes (ou intrusos) em tempo real.

Mesmo empresas aparentemente pequenas como a Bitmoji estão explorando o potencial da tecnologia de visão computacional para permitir que os usuários criem automaticamente um avatar que se pareça com o usuário.

Tecnologias que surgem da tecnologia de visão computacional

A visão computacional pode começar a identificar não apenas os tipos gerais de objetos, mas os detalhes mais matizados e o conteúdo informativo aninhado.

Isso se estende desde o reconhecimento óptico de caracteres (OCR), que reinterpreta os contornos das letras visíveis como texto legível, até a leitura labial algorítmica, que faz quase o mesmo com a linguagem falada.

Com o advento de câmeras de alcance tridimensional baratas, como a usada pela câmera de jogos Kinect da Microsoft, os desenvolvedores têm ainda mais caminhos possíveis para extrair dados do comportamento humano.

Em particular, a tecnologia de visão por computador passou recentemente do reconhecimento facial rápido, o simples achado de rostos dentro de frames, para a identificação facial rápida – a verificação desse rosto em um banco de dados de indivíduos conhecidos.

Uma área de estudo ainda mais avançada e difícil tem a ver com a chamada “análise de sentimento”, na qual o programa adivinha não apenas as palavras faladas por uma pessoa, mas também seu efeito emocional.

Evolução do poder das câmeras

Agora, no entanto, a maior fonte potencial de mudança para a visão computacional é baseada no hardware: as câmeras de alta qualidade agora encontradas em praticamente todos os smartphones, junto com um computador cada vez mais poderoso embutido.

Isso não significa apenas que os usuários serão capazes de capturar fotos e vídeos nas mais diversas situações, mas também que a análise dessas imagens possa ser feita cada vez mais sem a necessidade de fazer upload dos dados para um servidor remoto.

Seja uma agenda que lembra os rostos das pessoas ou um jogo de realidade aumentada no estilo Pokémon Go, o advento de produtos de visão computacional onipresentes para dispositivos móveis mudará o papel da tecnologia para sempre.

Visão computacional e coleta de dados nos levarão ao futuro

Seja para pesquisa de mercado ou conhecimento científico, qualquer produto de machine learning requer um conjunto de dados especificamente adaptado para ser a linha de base necessária para o trabalho em questão.

No futuro, a visão computacional terá duas tarefas: análises cada vez mais complexas de fotos e vídeos, e análises cada vez mais rápidas dos mesmos.

Cada uma dessas metas aparentemente contraditórias exigirá conjuntos de dados de imagens cada vez mais engenhosos que permitam que algoritmos de machine learning falsifiquem suposições ao longo de linhas cada vez mais sutis.

Isso significa que o Google e outros mecanismos de pesquisa podem em breve permitir uma ampla variedade de pesquisas baseadas em conteúdo para fotos e vídeos.

Ou seja, pesquisas por imagens baseadas no que essas imagens contêm, em vez do que é dito pelo título ou marcação de metadados.

Mas os novos aplicativos verdadeiramente incríveis virão por meio da aplicação direta pelos usuários.

Esses aplicativos incluem tudo, desde rastreamento e análise simultâneos em multidões de centenas ou mesmo milhares, a hardware e serviços de identificação facial vestíveis sempre ativos.

A capacidade dos wearables de incorporar a funcionalidade “always-on” também será revolucionária e só será possível graças ao aumento da capacidade de computação móvel e à diminuição das demandas de eletricidade das arquiteturas de rede neural modernas.