Objetivo e Estrutura dos Encontros

Objetivo: Realizar encontros quinzenais (a cada 15 dias) para explorar e discutir pipelines de dados, focando em ferramentas, técnicas e boas práticas.
Duração: Cada encontro terá entre 1 hora e 1 hora e meia.
Estrutura do Encontro: Apresentação inicial dos participantes.
Apresentação de um tema ou ferramenta técnica relacionada a pipelines de dados.
Demonstração prática do uso da ferramenta ou conceito apresentado.
Bate-papo interativo para tirar dúvidas e discutir o tema.
Construção coletiva de exercícios práticos sobre pipelines de dados. Atividades práticas do Grupo de Estudo

Esse documento explica os fluxos que iremos criar nesse grupo de estudo .

Apresentação do Gu Bigdata IA

Temos aqui uma apresentação realizada no grupo de usuário que fala da estruturação de um datalake e como estrutura pipeline de dados num ambiente agnóstico usando hadoop. Assista esse vídeo e venha participar do nosso grupo de estudos

Clique aqui para abrir a apresentação

O que é uma PipeLine de Dados ?

Uma pipeline de dados de um jeito simples e fácil de entender, imagine que você está preparando uma refeição, como um bolo ou um jantar. Vamos pensar no processo passo a passo:

Coletar os ingredientes: Você vai ao mercado e pega tudo o que precisa, como farinha, ovos e açúcar. Isso é como os dados brutos — as informações que vêm de algum lugar, como números, textos ou registros de um site, por exemplo.
Limpar e preparar: Antes de usar, você lava os vegetais ou separa o que não precisa, como cascas. Nos dados, isso é parecido com limpar e organizar as informações, tirando erros ou coisas que não servem.
Cozinhar ou processar: Você mistura os ingredientes, coloca no forno e transforma tudo em algo gostoso. Na pipeline, os dados são processados — ou seja, calculados, organizados ou transformados para ficarem mais úteis.
Servir a refeição: No final, você coloca o prato na mesa para as pessoas comerem. Nos dados, isso é como apresentar as informações de um jeito claro, como um gráfico ou relatório, para que alguém possa usá-las para tomar decisões. Então, uma pipeline de dados é como uma linha de produção ou uma receita: ela pega informações bagunçadas e cruas (como os ingredientes no mercado), organiza, limpa e transforma tudo isso passo a passo, até que esteja pronto para ser usado de um jeito prático e compreensível.

Por exemplo, pense em um site que quer saber quantas pessoas o visitam por dia. A pipeline coleta os dados de quem entrou, limpa qualquer erro, calcula o total de visitas e, no final, mostra esses números em uma tabela simples. É esse processo completo que chamamos de pipeline de dados.

Camadas de uma Pipeline de Dados

Abaixo, explicamos resumidamente cada camada de uma pipeline de dados e listamos ferramentas open-source e comerciais associadas a elas.

Agenda de Encontros – Terça-feira – 20h

Próximos Encontros:

25/03**– Introdução a Pipelines de Dados:** Conceitos básicos e arquiteturas comuns.
08/04 – Ferramentas de Ingestão: Usando Apache NiFi.
22/04 – Armazenamento de Dados: Quando optar por SQL ou NoSQL?
06/05 – Orquestração com Airflow: Criando e gerenciando workflows
20/05 – Batch vs. Streaming: Conheça o NOSQL ClickHouse.
**03/06 – Entrega de dado:**Boas práticas e ferramentas como Power BI
17/06 – Visualização de Dados:
01/07 – Terça-feira – 20h

01-Grupo de Estudos Online: Pipeline de Dados

Outros eventos

Pronto para impulsionar sua jornada
em Big Data e IA?

01-Grupo de Estudos Online: Pipeline de Dados

Encontro Presencial – 20 de agosto: Revolucionando a Saúde com Mineração de Processos

Café da Manhã do DSSBR de Networking no IEP em 15 de julho e reunirá profissionais, empresas e lideranças

Grupo de Estudo - Databricks imersão online para a comunidade - 2 encontros online

Pronto para impulsionar sua jornadaem Big Data e IA?

Pronto para impulsionar sua jornada
em Big Data e IA?