Conceitos importantes dos fundamentos da ciência de dados

Artigo desmistifica alguns conceitos dos fundamentos da ciência de dados e mostra como eles se relacionam entre si

Karina Kato

💻 Cientista de Dados Especialista no iFood

No artigo anterior fiz uma introdução que resumia como você pode se organizar antes de tentar processos seletivos para vagas na área de dados. Neste artigo, iremos ver sobre conceitos relacionados à ciência de dados. A ideia aqui é desmistificar alguns conceitos e mostrar como eles se relacionam entre si.

Áreas Relacionadas a Data Science

Esse diagrama a seguir é bem famoso para representar áreas de conhecimento relacionadas à ciência de dados. Embora, eu ache que ele explica bem a relação entre as diferentes áreas. Caso, não for bem analisado, pode passar a mensagem de um profissional unicórnio. É verdade que em Ciência de Dados é necessário saber de computação, matemática, estatística e ter conhecimentos em relação ao problema/negócio, mas precisamos de menos conhecimento em cada uma dessas áreas que um especialista focado em apenas uma delas.

fundamentos da ciência de dados
Diagrama 1 — Adaptado do Diagrama do Drew Conway

Recentemente, surgiu graduação em Ciência de Dados, mas como é muito nova, a maioria dos profissionais que estão no mercado são formados em áreas correlatas como Computação, Estatística, Matemática, Engenharias, outras formações de exatas ou de negócios.

Ter graduação em Ciência da Computação, por exemplo, pode facilitar o seu cotidiano como Cientista de Dados, pois aprimora a lógica de programação, ajuda na realização de atividades que exijam mais desenvolvimento de código e simplifica a interface com os desenvolvedores ou engenheiros de aprendizado de máquina. Nesta graduação, há várias matérias relacionadas ao desenvolvimento de software nas quais você aprende a lógica de programação, estrutura de dados, engenharia de software e paradigmas de linguagens de programação. De forma geral, esse conjunto de disciplinas podem te ajudar a ter facilidade na parte prática. Há também disciplinas de Inteligência Artificial, Cálculo, Álgebra, Estatística e Física.

Estatística e Matemática também são excelentes graduações para quem visa ser um Cientista de Dados. Na graduação de estatística, por exemplo, há muitas matérias de Probabilidade, Estatística, Álgebra e Cálculo. Também há algumas disciplinas básicas de programação. Essas formações podem te ajudar a ter um grande embasamento teórico e a facilidade em entender conceitos relacionados aos fundamentos de aprendizado de máquina, facilitar a criação de experimentos, testar hipóteses e também se comunicar com analista de dados. Se comparado com computação, há mais matérias de matemática e menos de programação.

Já um domínio maior de negócios pode te ajudar a direcionar o projeto de forma mais estratégica para a empresa e promover uma facilidade na comunicação com os stakeholders.

Sendo assim, não acho que exista apenas uma formação para ser um Cientista de Dados. A graduação que você escolher te dará uma base maior em determinada área de conhecimento, mas conforme você for ganhando senioridade, naturalmente, irá expandindo seus conhecimentos para as outras áreas e adquirirá novas habilidades técnicas e comportamentais.

Também queria ressaltar que você não necessariamente precisa ter uma graduação para ser um Cientista de dados. Hoje em dia, isso é requisito de várias vagas, porém há algumas empresas que não fazem essa exigência. A graduação pode te dar uma boa base, experiência teórica e prática (principalmente no trabalho de conclusão de curso) e acelerar seus conhecimentos, mas para quem está em transição de carreira proveniente de outras áreas mais distantes, também há cursos, bootcamps, nanodegrees com ótimos conteúdos disponíveis online. Esse será o assunto do nosso último artigo dessa série.

IA vs Machine Learning vs Deep Learning vs Data Science

Hoje em dia, Inteligência Artificial está em quase todos os lugares. Podendo ser aquele sistema de recomendação de filmes na sua plataforma de streaming preferida, o algoritmo de sugestão de conexões na sua rede social, a recomendação de itens similares em uma loja virtual, um chatbot no seu aplicativo de mensagens, o reconhecimento facial da câmera do seu celular ou até mesmo aquele modelo de análise de crédito no seu banco.

Você já deve ter percebido pela imagem anterior que diferente do que muitas pessoas acreditam, Ciência de Dados e Inteligência Artificial não são sinônimos. Na realidade, nenhum dos buzzwords como Ciência de Dados (Data Science), aprendizado de máquina (Machine Learning), aprendizado profundo (Deep Learning), inteligência artificial (artificial intelligence/ AI) significam a mesma coisa.

No diagrama de Venn a seguir ilustrei como essas áreas se relacionam entre si. Inteligência artificial é uma área bem ampla que engloba o aprendizado de máquina. O aprendizado profundo está contido no aprendizado de máquina. Dessa forma, podemos afirmar que aprendizado de máquina é inteligência artificial, mas o contrário não necessariamente é verdade (por exemplo, um chatbot baseado apenas em regras). A Ciência de Dados, por sua vez, não está contida nessas áreas, mas tem uma forte intersecção.

fundamentos da ciência de dados
Diagrama 2 — Adaptado do Diagrama do Ian Goodfellow (Livro Deep Learning)

Inteligência artificial:

O termo foi criado em 1955 pelo professor de Stanford John McCarthy e definido como “a Ciência e a Engenharia de fazer máquinas inteligentes”. Em outras palavras, é uma área bem ampla que visa ensinar as máquinas a imitar alguns comportamentos que requerem um certo nível de inteligência, como por exemplo: tomada de decisões, entender linguagem natural, percepções visuais, reconhecimento de padrões, etc.

Aprendizado de máquina:

O aprendizado de máquina é uma área da inteligência artificial que tem como objetivo a criação de algoritmos que ensinam a máquina a converter a experiência em conhecimento, sem comandos explícitos. Mais especificamente, a experiência refere-se aos dados de treinamento e o conhecimento é gerado através da análise desses dados, conferindo à máquina a capacidade de resolver algum tipo de problema.

Aprendizado profundo:

É uma subárea de aprendizado de máquina focada em algoritmos mais complexos que aprendem de forma hierárquica. Um exemplo comum de algoritmo de aprendizado profundo são as redes neurais. Dessa forma, como são modelos mais robustos e complexos, exigem mais dados para serem treinados e geralmente não são utilizados nas empresas em projetos com maturidade baixa, isto é, que ainda estão em fase de prova de conceito ou MVP (produto viável mínimo).

Atividades de Cientista de Dados

Outro mito comum é acreditar que Cientistas de Dados ficam 100% do tempo apenas focados na criação de modelos de aprendizado de máquina. Há várias outras atividades que fazem parte do seu dia a dia, dentre elas: entendimento do problema, coletar base de dados, processar os dados, fazer análises exploratórias, criar dados de treino/validação, refinar os algoritmos, desenvolver experimentos, criar pipelines, desenvolver pacotes, colocar o modelo em produção, fazer alinhamentos constantes com outras áreas, criar visualizações, escrever documentação, fazer manutenção dos modelos e muitas outras atividades.

A porcentagem de tempo gasto em cada atividade pode variar de empresa para outra, pois depende da maturidade do time de Dados e ainda assim dentro de uma mesma empresa também muda de um projeto para outro por conta do contexto e fase.

fundamentos da ciência de dados
Diagrama 3

Bom, esse artigo já respondeu algumas dúvidas comuns das pessoas “IA, Machine Learning, Deep Learning e Data Science são a mesma coisa?“, “Qual graduação é mais recomendada para ciência de dados?”, “Preciso ter uma graduação para trabalhar como cientista de dados?” ou “Quais são as atividades no dia a dia de um cientista de dados?“. No próximo, iremos ver mais detalhes sobre as habilidades técnicas e comportamentais de cientista de dados. Espero que esse artigo tenha te ajudado. Um grande abraço e até o próximo!

Se inscreva na newsletter para receber notificações dos próximos artigos. O que vem por aí:

Dicas valiosas para aspirantes a cientista de dados — introdução ✔️

Dicas valiosas para aspirantes a cientista de dados — conceitos ✔️

Dicas valiosas para aspirantes a cientista de dados — habilidades

Dicas valiosas para aspirantes a cientista de dados — materiais de estudo

Sinta-se à vontade para deixar seu feedback aqui e compartilhar esse artigo com quem estiver tentando entrar na área.

  • Deixo aqui também o meu muito obrigada ao Thales Craveiro, Jaime Kuei e Jhones Pinto pelas dicas e feedbacks neste artigo.
Esse conteúdo foi útil para você?
SimNão

Publicações relacionadas