O que são dados sintéticos —e como fazem a  IA evoluir

Tecnologia é considerada uma das mais inovadoras de 2022 pela MIT Technology Review e é utilizada até para o treinamento da Alexa, da Amazon

Ter informações para tomar decisões é tão estratégico que muito se diz por aí que “dados são o novo petróleo”. Nas empresas, essas informações costumam ser usadas no aprendizado de máquinas, e uma nova tática tem acelerado o aprimoramento dessa inteligência artificial: o uso de dados sintéticos.

Não estamos falando de “fake news”: os dados sintéticos são gerados artificialmente, mas de uma maneira muito responsável e científica. Eles partem de uma pequena amostra de dados reais, que é “ampliada” por meio de simulações de computador, métodos estatísticos, algoritmos e outras técnicas para compor universos maiores de dados, mas sempre refletindo o comportamento dos dados originais.

São muitas as utilidades dos dados sintéticos, como explica Thoran Rodrigues, fundador e CEO da BigDataCorp, em um artigo do Projeto Draft. “Eles são usados geralmente para a validação de novos produtos e ferramentas, para pesquisas ou para o treinamento de Inteligência Artificial, quando não há uma base de dados sobre o assunto ou a que existe não tem variedade, qualidade ou o volume necessários”, diz o executivo.

Entre os tipos de dados sintéticos estão números (como os de transações financeiras), imagens (como as de rostos, usadas para reconhecimento facial) e vídeos com simulações em 3D.

Como empresas usam dados sintéticos

A MIT Technology Review elegeu os dados sintéticos como uma das tecnologias mais inovadoras de 2022 e lista alguns exemplos de como já estão sendo usados nas empresas. A multinacional de IA Nvidia, por exemplo, obtém resultados de dez anos de treinamento virtual em apenas dez dias de tempo real graças aos dados sintéticos.

Com eles, a empresa criou um modelo para treinar avatares lutadores de videogame que adquiriram habilidades motoras em 0,27% do tempo que levariam com um simulador virtual baseado em dados puramente reais.

Com os dados sintéticos, os avatares receberam diretamente exemplos de movimentos que a Nvidia gostaria que eles executassem. Tradicionalmente, o aprendizado desses agentes se daria a partir da construção de um repertório por meio de suas interações no ambiente virtual e da realização de tarefas específicas. 

Para atingir os resultados pretendidos, a Nvidia contou com um simulador GPU, usado pela NASA, e que é capaz de processar quantidades gigantes de dados.

Treinamento da Alexa

Quando citamos referências como a NASA, dá a impressão de que os dados sintéticos são coisa de outro mundo. Longe disso: eles já estão bem próximos de tecnologias que fazem parte do nosso cotidiano.

A Amazon, por exemplo, usa dados sintéticos para treinar a assistente de voz Alexa. Os sistemas de reconhecimento de visão dos mercados inteligentes da Amazon Go também se valem do recurso.

O Google, por sua vez, utiliza essa inovação para simulações na empresa de veículos autônomos Waymo. Lá, os dados sintéticos ajudam a configurar situações que envolvem, entre outros fatores, o comportamento de motoristas agressivos.

A vantagem, nesse caso, é testar circunstâncias que não requerem riscos reais. O carro autônomo não precisa passar por acidentes nas ruas para que sua Inteligência Artificial o torne um veículo seguro.

Sinal roxo

Apesar de todo o potencial de inovação que apresentam, os dados sintéticos também têm limitações. Segundo Rodrigues, da BigDataCorp, existe o risco de mapearem situações irreais e, dessa forma, gerarem distorções no modelo de aprendizagem.

O executivo exemplifica esse ponto fraco com uma eventual ocorrência no treinamento de um carro autônomo. Suponha que, durante o aprendizado da identificação do que fazer se o sinal está verde, amarelo ou vermelho, o veículo receba o estímulo de um sinal roxo e interprete que deva continuar se locomovendo com essa cor. Em uma situação real futura, se uma falha de percepção levar a máquina a confundir o vermelho com o roxo – devido a um reflexo, por exemplo –, o equívoco vai causar um acidente.

Esse conteúdo foi útil para você?
SimNão

Publicações relacionadas