Ter informações para tomar decisões é tão estratégico que muito se diz por aí que “dados são o novo petróleo”. Nas empresas, essas informações costumam ser usadas no aprendizado de máquinas, e uma nova tática tem acelerado o aprimoramento dessa inteligência artificial: o uso de dados sintéticos.
Não estamos falando de “fake news”: os dados sintéticos são gerados artificialmente, mas de uma maneira muito responsável e científica. Eles partem de uma pequena amostra de dados reais, que é “ampliada” por meio de simulações de computador, métodos estatísticos, algoritmos e outras técnicas para compor universos maiores de dados, mas sempre refletindo o comportamento dos dados originais.
São muitas as utilidades dos dados sintéticos, como explica Thoran Rodrigues, fundador e CEO da BigDataCorp, em um artigo do Projeto Draft. “Eles são usados geralmente para a validação de novos produtos e ferramentas, para pesquisas ou para o treinamento de Inteligência Artificial, quando não há uma base de dados sobre o assunto ou a que existe não tem variedade, qualidade ou o volume necessários”, diz o executivo.
Entre os tipos de dados sintéticos estão números (como os de transações financeiras), imagens (como as de rostos, usadas para reconhecimento facial) e vídeos com simulações em 3D.
Como empresas usam dados sintéticos
A MIT Technology Review elegeu os dados sintéticos como uma das tecnologias mais inovadoras de 2022 e lista alguns exemplos de como já estão sendo usados nas empresas. A multinacional de IA Nvidia, por exemplo, obtém resultados de dez anos de treinamento virtual em apenas dez dias de tempo real graças aos dados sintéticos.
Com eles, a empresa criou um modelo para treinar avatares lutadores de videogame que adquiriram habilidades motoras em 0,27% do tempo que levariam com um simulador virtual baseado em dados puramente reais.
Com os dados sintéticos, os avatares receberam diretamente exemplos de movimentos que a Nvidia gostaria que eles executassem. Tradicionalmente, o aprendizado desses agentes se daria a partir da construção de um repertório por meio de suas interações no ambiente virtual e da realização de tarefas específicas.
Para atingir os resultados pretendidos, a Nvidia contou com um simulador GPU, usado pela NASA, e que é capaz de processar quantidades gigantes de dados.
Treinamento da Alexa
Quando citamos referências como a NASA, dá a impressão de que os dados sintéticos são coisa de outro mundo. Longe disso: eles já estão bem próximos de tecnologias que fazem parte do nosso cotidiano.
A Amazon, por exemplo, usa dados sintéticos para treinar a assistente de voz Alexa. Os sistemas de reconhecimento de visão dos mercados inteligentes da Amazon Go também se valem do recurso.
O Google, por sua vez, utiliza essa inovação para simulações na empresa de veículos autônomos Waymo. Lá, os dados sintéticos ajudam a configurar situações que envolvem, entre outros fatores, o comportamento de motoristas agressivos.
A vantagem, nesse caso, é testar circunstâncias que não requerem riscos reais. O carro autônomo não precisa passar por acidentes nas ruas para que sua Inteligência Artificial o torne um veículo seguro.
Sinal roxo
Apesar de todo o potencial de inovação que apresentam, os dados sintéticos também têm limitações. Segundo Rodrigues, da BigDataCorp, existe o risco de mapearem situações irreais e, dessa forma, gerarem distorções no modelo de aprendizagem.
O executivo exemplifica esse ponto fraco com uma eventual ocorrência no treinamento de um carro autônomo. Suponha que, durante o aprendizado da identificação do que fazer se o sinal está verde, amarelo ou vermelho, o veículo receba o estímulo de um sinal roxo e interprete que deva continuar se locomovendo com essa cor. Em uma situação real futura, se uma falha de percepção levar a máquina a confundir o vermelho com o roxo – devido a um reflexo, por exemplo –, o equívoco vai causar um acidente.