Grupo de Estudos Online: Pipeline de Dados – 25/03- Terça-feira

Grupo de Estudos Online: Pipeline de Dados

Objetivo e Estrutura dos Encontros

  • Objetivo: Realizar encontros quinzenais (a cada 15 dias) para explorar e discutir pipelines de dados, focando em ferramentas, técnicas e boas práticas.
  • Duração: Cada encontro terá entre 1 hora e 1 hora e meia.
  • Estrutura do Encontro: 
    • Apresentação inicial dos participantes.
    • Apresentação de um tema ou ferramenta técnica relacionada a pipelines de dados.
    • Demonstração prática do uso da ferramenta ou conceito apresentado.
    • Bate-papo interativo para tirar dúvidas e discutir o tema.
    • Construção coletiva de exercícios práticos sobre pipelines de dados.

Atividades práticas do Grupo de Estudo

Esse documento explica os fluxos que iremos criar nesse grupo de estudo .

FluxoFormulario de Cadastra GU.pdf

Apresentação do Gu Bigdata IA

Temos aqui uma apresentação realizada no grupo de usuário que fala da estruturação de um datalake e como estrutura pipeline de dados num ambiente agnóstico usando hadoop. Assista esse vídeo e venha participar do nosso grupo de estudos 

Clique aqui para abrir a apresentação

 

O que é uma PipeLine de Dados ? 

Uma pipeline de dados de um jeito simples e fácil de entender, imagine que você está preparando uma refeição, como um bolo ou um jantar. Vamos pensar no processo passo a passo:

  1. Coletar os ingredientes: Você vai ao mercado e pega tudo o que precisa, como farinha, ovos e açúcar. Isso é como os dados brutos — as informações que vêm de algum lugar, como números, textos ou registros de um site, por exemplo.
  2. Limpar e preparar: Antes de usar, você lava os vegetais ou separa o que não precisa, como cascas. Nos dados, isso é parecido com limpar e organizar as informações, tirando erros ou coisas que não servem.
  3. Cozinhar ou processar: Você mistura os ingredientes, coloca no forno e transforma tudo em algo gostoso. Na pipeline, os dados são processados — ou seja, calculados, organizados ou transformados para ficarem mais úteis.
  4. Servir a refeição: No final, você coloca o prato na mesa para as pessoas comerem. Nos dados, isso é como apresentar as informações de um jeito claro, como um gráfico ou relatório, para que alguém possa usá-las para tomar decisões.

Então, uma pipeline de dados é como uma linha de produção ou uma receita: ela pega informações bagunçadas e cruas (como os ingredientes no mercado), organiza, limpa e transforma tudo isso passo a passo, até que esteja pronto para ser usado de um jeito prático e compreensível.

Por exemplo, pense em um site que quer saber quantas pessoas o visitam por dia. A pipeline coleta os dados de quem entrou, limpa qualquer erro, calcula o total de visitas e, no final, mostra esses números em uma tabela simples. É esse processo completo que chamamos de pipeline de dados.

Camadas de uma Pipeline de Dados

Abaixo, explicamos resumidamente cada camada de uma pipeline de dados e listamos ferramentas open-source e comerciais associadas a elas.

 

Agenda de Encontros  – Terça-feira – 20h

Próximos Encontros:

  • 25/03 – Introdução a Pipelines de Dados: Conceitos básicos e arquiteturas comuns.
  • 08/04 – Ferramentas de Ingestão: Usando Apache NiFi.
  • 22/04 – Armazenamento de Dados: Quando optar por SQL ou NoSQL? 
  • 06/05 – Batch vs. Streaming: Diferenças, casos de uso com SnowFlake.
  • 20/05 – Orquestração com Airflow: Criando e gerenciando workflows
  • 03/06 – Entrega de dado: Conheça o NOSQL ClickHouse.
  • 17/06 – Visualização de Dados: Boas práticas e ferramentas como Power BI 
  • 01/17 – Terça-feira – 20h

 

Faça sua inscrição para o evento Online !!