O que são dados sintéticos —e como fazem a  IA evoluir

Tecnologia é considerada uma das mais inovadoras de 2022 pela MIT Technology Review e é utilizada até para o treinamento da Alexa, da Amazon

Ter informações para tomar decisões é tão estratégico que muito se diz por aí que “dados são o novo petróleo”. Nas empresas, essas informações costumam ser usadas no aprendizado de máquinas, e uma nova tática tem acelerado o aprimoramento dessa inteligência artificial: o uso de dados sintéticos.

Não estamos falando de “fake news”: os dados sintéticos são gerados artificialmente, mas de uma maneira muito responsável e científica. Eles partem de uma pequena amostra de dados reais, que é “ampliada” por meio de simulações de computador, métodos estatísticos, algoritmos e outras técnicas para compor universos maiores de dados, mas sempre refletindo o comportamento dos dados originais.

São muitas as utilidades dos dados sintéticos, como explica Thoran Rodrigues, fundador e CEO da BigDataCorp, em um artigo do Projeto Draft. “Eles são usados geralmente para a validação de novos produtos e ferramentas, para pesquisas ou para o treinamento de Inteligência Artificial, quando não há uma base de dados sobre o assunto ou a que existe não tem variedade, qualidade ou o volume necessários”, diz o executivo.

Entre os tipos de dados sintéticos estão números (como os de transações financeiras), imagens (como as de rostos, usadas para reconhecimento facial) e vídeos com simulações em 3D.

Como empresas usam dados sintéticos

A MIT Technology Review elegeu os dados sintéticos como uma das tecnologias mais inovadoras de 2022 e lista alguns exemplos de como já estão sendo usados nas empresas. A multinacional de IA Nvidia, por exemplo, obtém resultados de dez anos de treinamento virtual em apenas dez dias de tempo real graças aos dados sintéticos.

Com eles, a empresa criou um modelo para treinar avatares lutadores de videogame que adquiriram habilidades motoras em 0,27% do tempo que levariam com um simulador virtual baseado em dados puramente reais.

Com os dados sintéticos, os avatares receberam diretamente exemplos de movimentos que a Nvidia gostaria que eles executassem. Tradicionalmente, o aprendizado desses agentes se daria a partir da construção de um repertório por meio de suas interações no ambiente virtual e da realização de tarefas específicas. 

Para atingir os resultados pretendidos, a Nvidia contou com um simulador GPU, usado pela NASA, e que é capaz de processar quantidades gigantes de dados.

Treinamento da Alexa

Quando citamos referências como a NASA, dá a impressão de que os dados sintéticos são coisa de outro mundo. Longe disso: eles já estão bem próximos de tecnologias que fazem parte do nosso cotidiano.

A Amazon, por exemplo, usa dados sintéticos para treinar a assistente de voz Alexa. Os sistemas de reconhecimento de visão dos mercados inteligentes da Amazon Go também se valem do recurso.

O Google, por sua vez, utiliza essa inovação para simulações na empresa de veículos autônomos Waymo. Lá, os dados sintéticos ajudam a configurar situações que envolvem, entre outros fatores, o comportamento de motoristas agressivos.

A vantagem, nesse caso, é testar circunstâncias que não requerem riscos reais. O carro autônomo não precisa passar por acidentes nas ruas para que sua Inteligência Artificial o torne um veículo seguro.

Sinal roxo

Apesar de todo o potencial de inovação que apresentam, os dados sintéticos também têm limitações. Segundo Rodrigues, da BigDataCorp, existe o risco de mapearem situações irreais e, dessa forma, gerarem distorções no modelo de aprendizagem.

O executivo exemplifica esse ponto fraco com uma eventual ocorrência no treinamento de um carro autônomo. Suponha que, durante o aprendizado da identificação do que fazer se o sinal está verde, amarelo ou vermelho, o veículo receba o estímulo de um sinal roxo e interprete que deva continuar se locomovendo com essa cor. Em uma situação real futura, se uma falha de percepção levar a máquina a confundir o vermelho com o roxo – devido a um reflexo, por exemplo –, o equívoco vai causar um acidente.

Esse conteúdo foi útil para você?
SimNão

Índice

No iFood tem uma lembrança para cada uma – da namorada que rouba lanche até quem prefere comprar as suas próprias flores
Plataforma aponta que restaurantes que investiram no ingrediente da receita viral cresceram mais de três vezes na última semana
Saiba quais são os times, as partidas, as regras e onde assistir ao torneio – no estádio e na internet
Saiba quando rola a bola na competição de fut7 e quais são as datas dos jogos