A divisão de investigação do Facebook, a FAIR (ou Facebook AI), criou um sistema de inteligência artificial que pode tornar muito mais eficiente a utilização por empresas de software para tarefas de visão computacional que podem ir do reconhecimento facial até funções necessárias para carros autónomos.

O nome do novo modelo, SEER, ou SELf-supERvised (auto-supervisão), significa que consegue aprender de forma autónoma as tais tarefas, o que muda significativamente a necessidade de bases de dados infindáveis para resultados convincentes.

Atualmente, o treino de sistemas de aprendizagem de machine learning para a maior parte das tarefas como reconhecimento facial ou de objetos requer centenas de milhares ou até milhões de conjuntos de dados catalogados. Criar um conjunto de dados com classificação para que haja precisão pode ser caro e demorado, daí o novo modelo ter um potencial enorme para o mundo empresarial em geral.

Na base da descoberta está cientista-chefe do Facebook AI, Yann LeCun, que nos dizia há dois anos como os sistemas de inteligência artificial ainda tinham um nível de raciocínio inferior a um gato. Já no final do ano passado, a investigadora que lidera a divisão da inteligência artificial da IBM, Aya Stoffer, nos dizia que evoluções recentes estavam a permitir dar aos sistemas maior raciocínio, atuando mesmo sem enormes bases de dados a alimentá-los.

Yann LeCun explica agora que a ideia do novo modelo passa precisamente por criar inteligência artificial que possa aprender da mesma forma que uma criança humana. Ou seja, por meio da observação e da construção de um modelo mental das relações entre os objetos.

"Os bebés aprendem como tudo funciona assistindo ao espetáculo que é o mundo", explica LeCun. "Depois de ter uma boa compreensão e representação do mundo, pode-se aprender qualquer tarefa com relativa rapidez."

LeCun dá o exemplo dos adolescentes, que graças a esse tipo de raciocínio e aprendizagem conseguem aprender a conduzir com apenas algumas horas de aulas. O software atual usado para carros autónomos, por exemplo, requer milhões de horas simuladas para igualar o mesmo nível de desempenho e descobertas como esta podem abrir um novo caminho de aprendizagem para os carros-robô.

Essa mesma ideia tinha-nos sido dita por Aya Stoffer: "Já conseguimos dar raciocínio às máquinas e as aplicações são infindáveis".

Menos dados, mais eficiência com pouco dinheiro

A descoberta do Facebook permite um modelo de IA possa ser treinado a partir de um conjunto muito grande de dados de imagem mesmo que não estejam classificados, o que era um dos grandes problemas para muitas empresas que tinham os dados, mas não os tinham tratados para que possam servir estes sistemas. Com esta evolução é possível uma ampla gama de tarefas específicas relacionadas com a visão e as imagens usando apenas uma pequena fração da quantidade de dados colocados em categorias.

A capacidade de aprender com muito menos exemplos categorizados é crítica para uma ampla gama de inteligência artificial aplicada ao comércio ou a outras aplicações. Também pode ser determinante nos diagnósticos a partir de imagens médicas, por exemplo, onde muito do software de visão por computador atual requer dezenas de milhares de exemplos para atingir a mesma precisão de um radiologista humano. Mas, para uma doença pulmonar rara, pode não haver dezenas de milhares de exemplos disponíveis para treinar tal sistema.

Nos últimos anos, o uso de técnicas semelhantes no processamento de linguagem natural resultou em avanços gigantescos nas capacidades da IA, que é exemplo aquilo que Aya Stoffer nos explicava em 2020. A tecnologia mais recente pode realizar tarefas como tradução de idiomas, resumo de documentos, responder a perguntas sobre um texto e escrever longas passagens de texto coerente a partir de um simples resumo escrito por humanos. As mesmas técnicas também permitiram grandes melhorias de desempenho no reconhecimento de voz para assistentes digitais, como Alexa da Amazon e Google Assistant.

Agora, o Facebook espera que seu novo sistema de IA resulte num salto significativo nas capacidades dos sistemas de visão computacional e, possivelmente, também nos sistemas que podem aprender a relação entre as imagens e as palavras que as descrevem.

Este novo tipo de IA, como o SEER, já com o que se chama de auto-supervisão, descobre as relações entre os dados que recolhe de forna autónoma, usando métodos estatísticos, sem a necessidade de dados classificados para atuar como uma espécie de instrutor que informa o sistema como vincular uma determinada entrada a uma determinada saída.

O SEER permite mais de mil milhões de variáveis ​​e foi treinado usando mais de mil milhões de imagens de contas do Instagram públicas.

A precisão na classificação de imagens do SEER mostrou-se ser melhor do que os sistemas mais avançados treinados a partir de dados já classificados em tarefas como deteção de objetos, segmentação de uma imagem em partes e classificação de imagens em geral. Ao receber apenas 10% dos exemplos já classificados da base de dados ImageNet, o SEER atingiu 77,9% de precisão

O Facebook e Instagram ainda não estar a usar por completo o SEER como sistema com supervisão automática, mas há um sistempa parecido com alguma supervisão que treina com imagens emparelhadas com hashtags e estão já a ajudar a agrupar fotos de utilizadores pode temas, mas também ajudam a detetar automaticamente imagens de discurso de ódio ou propaganda terrorista.