Evolução do armazenamento e arquitetura de Big Data

Evolução do armazenamento e arquitetura de Big Data

Como saímos do “armazenar a qualquer custo” até chegar no Lakehouse (sem pular etapas)

Durante anos, muita gente conta a história do Big Data como se o mundo tivesse ido de “banco de dados tradicional” direto para “Lakehouse”. Mas não foi assim.

A progressão de GFS → HDFS → Data Lake → Delta Lake → Lakehouse se assemelha a uma curva de maturidade:

primeiro, armazenamento distribuído confiável,
depois, escalabilidade de código aberto, em seguida, armazenamento barato e flexível,
depois, transações e confiança, e, finalmente, uma única camada de armazenamento atendendo BI, streaming e ML.

Um pequeno detalhe que eu acrescentaria (apenas para reforçar a ideia): “Lakehouse” é um padrão arquitetural, não um produto específico — Delta Lake é uma forma popular de implementá-lo, mas o conceito é maior do que qualquer fornecedor.

A evolução foi gradual — cada etapa nasceu para resolver um problema específico: escala, custo, flexibilidade, confiabilidade, governança e, por fim, a unificação de workloads (BI, streaming e ML) no mesmo dado.

A seguir, uma cronologia prática (com conceitos e exemplos reais) que explica por que chegamos onde chegamos.

1) Google File System (GFS) – O início da escala

Quando o Google começou a lidar com volumes gigantes de dados (indexação da web, logs de cliques, rastreamento de páginas “crawler”), o problema não era só “guardar muito”. Era guardar muito em hardware barato que quebrava — e continuar funcionando mesmo assim.

O que o GFS trouxe de novo

Armazenamento distribuído: arquivos grandes quebrados em blocos e espalhados em várias máquinas.
Tolerância a falhas: se um nó morre, o sistema se recupera.
Replicação: múltiplas cópias dos dados para alta disponibilidade.

Exemplo de uso

Armazenar trilhões de eventos de navegação para alimentar ranking e relevância de busca.
Logs de sistemas distribuídos para auditoria e melhoria contínua.

✅ Legado: o GFS estabeleceu a “ideia base” para sistemas de arquivos distribuídos modernos.

2) HDFS – O GFS vira open source e nasce o ecossistema Hadoop

O HDFS (Hadoop Distributed File System) pegou o aprendizado do GFS e o levou para o mundo open source. Ele virou o “HD gigante” de clusters Hadoop.

Por que o HDFS foi tão importante

Tornou o armazenamento distribuído acessível para empresas fora do Google.
Trabalhou muito bem com processamento batch (MapReduce e, depois, Spark).
Foi desenhado para arquivos grandes e leitura sequencial, o que combina com ETLs e processamento em lote.

Exemplo de uso

Telecom: armazenar CDRs (Call Detail Records) e gerar relatórios diários de consumo.
E-commerce: processar logs do site durante a madrugada para atualizar dashboards e relatórios operacionais.

Limitações que apareceram

Forte acoplamento com cluster (infra mais “pesada”).
Governança e consumo por BI ainda eram difíceis.
Mudanças e updates (tipo “atualizar registros”) não eram naturais.

✅ Legado: HDFS “popularizou” Big Data e virou o backbone do Hadoop.

3) Data Lake – Tudo no mesmo lugar, barato e flexível… até virar pântano

Com a popularização de storage mais barato (incluindo object storage), as empresas começaram a pensar:

“Por que não guardar tudo — estruturado, semi-estruturado e não estruturado — num repositório único?”

Nasce o Data Lake, com a promessa de custo baixo e flexibilidade.

Conceitos-chave

Schema-on-read: o dado é guardado “como veio” e o esquema é aplicado na leitura.
Suporta múltiplos formatos: CSV, JSON, Parquet, ORC, Avro…
Ideal para armazenar dados de diferentes sistemas sem “forçar” modelagem na ingestão.

Exemplo de uso

Centralizar:
- eventos de clickstream (JSON),
- logs de aplicação,
- exportações de ERP/CRM,
- dados de IoT,
- arquivos de parceiros (CSV/Excel).

Por que muitos Data Lakes viraram “Data Swamps”

O problema não foi guardar tudo. Foi guardar sem disciplina:

Sem catálogo/metadata (ninguém sabe o que existe).
Sem padrões de nomenclatura, particionamento e formatos.
Sem controle de qualidade (duplicidade, dado faltando, etc.).
Sem controle de acesso consistente.
Sem rastreabilidade/auditoria de mudanças.

✅ Legado: o Data Lake abriu o jogo para armazenar tudo e experimentar… mas expôs o preço da falta de governança.

4) Delta Lake – O Data Lake ganha “regras de banco”: transações, confiança e histórico

A evolução natural foi:

“E se eu mantiver a escalabilidade e o custo do Data Lake, mas com confiabilidade de banco de dados?”

Aí entram tecnologias como Delta Lake (e, no mercado, outras alternativas similares como Iceberg/Hudi). A ideia é transformar arquivos em uma camada confiável para analytics.

O que muda na prática

ACID transactions: garante consistência (não “quebra” a tabela no meio de uma escrita).
Schema enforcement & evolution: evita que “qualquer JSON” bagunce o dataset.
Time travel: voltar no tempo para auditar ou reproduzir análises.
Upserts/Merge: atualizar e inserir dados de forma confiável.

Exemplo de uso

Financeiro/ERP: corrigir registros (ex.: estorno) sem reprocessar tudo.
Fraude e risco: manter histórico auditável para investigações.
CDC (Change Data Capture): integrar mudanças de sistemas transacionais mantendo consistência.
Streaming + batch no mesmo dataset, com qualidade.

✅ Legado: Delta Lake “recupera a confiança” no Data Lake e habilita governança técnica real.

5) Lakehouse – Um só dado para BI + Streaming + ML (sem duplicar tudo)

A Lakehouse surge quando a pergunta vira:

“Por que eu preciso de dois mundos separados — Data Lake para ciência/engenharia e Data Warehouse para BI?”

A proposta da Lakehouse Architecture é combinar:

Escala e custo do Data Lake
Confiabilidade e desempenho do Data Warehouse
Unificação de workloads (BI, streaming, IA/ML) em uma única base governada

O que caracteriza uma Lakehouse “de verdade”

Tabelas com camada transacional (ex.: Delta) sobre storage barato.
Separação entre storage e compute (você escala processamento sem duplicar dados).
Catálogo e governança (metadados, linhagem, permissões, masking).
Camadas de curadoria (ex.: Bronze / Silver / Gold):
- Bronze: raw (como veio)
- Silver: limpo e padronizado
- Gold: pronto para consumo e métricas de negócio

Exemplo de uso

BI (Power BI/Tableau) consumindo “Gold” com métricas consistentes.
Streaming atualizando tabelas Silver quase em tempo real.
ML extraindo features no mesmo lugar (sem exportar para outro repositório).
Data Products por domínio (pensando em Data Mesh) usando o mesmo padrão de governança.

Resultado

Menos duplicação (menos cópias e pipelines “espelho”).
Menos retrabalho (uma definição de dado para múltiplos usos).
Mais rastreabilidade e confiança.

✅ Legado: o Lakehouse é a tentativa mais madura de unificar análise, operação e ciência de dados em cima de um único “source of truth” bem governado.

Conclusão: não foi “moda”, foi maturidade

A história não é “Hadoop morreu” ou “Lakehouse substituiu tudo”. É mais simples (e mais real):

GFS ensinou escala com falhas
HDFS democratizou Big Data
Data Lake trouxe flexibilidade e custo baixo
Delta Lake trouxe transações e confiança
Lakehouse trouxe unificação e governança para múltiplos workloads

📌 Frase para fechar o post com impacto:
“O Lakehouse não substituiu o Data Lake — ele disciplinou o Data Lake.”

Evolução do armazenamento e arquitetura de Big Data

1) Google File System (GFS) – O início da escala

O que o GFS trouxe de novo

Exemplo de uso

2) HDFS – O GFS vira open source e nasce o ecossistema Hadoop

Por que o HDFS foi tão importante

Exemplo de uso

Limitações que apareceram

3) Data Lake – Tudo no mesmo lugar, barato e flexível… até virar pântano

Conceitos-chave

Exemplo de uso

Por que muitos Data Lakes viraram “Data Swamps”

4) Delta Lake – O Data Lake ganha “regras de banco”: transações, confiança e histórico

O que muda na prática

Exemplo de uso

5) Lakehouse – Um só dado para BI + Streaming + ML (sem duplicar tudo)

O que caracteriza uma Lakehouse “de verdade”

Exemplo de uso

Resultado

Conclusão: não foi “moda”, foi maturidade

Pronto para impulsionar sua jornada em Big Data fale conosco hoje mesmo!

Quick Links

Resources

Participe do Grupo de Usuários BigData e I.A.