Arquitetura Medalhão – O Guia Definitivo Para Organizar o Data Lakehouse – Camada Prata

Na Parte 2 deste guia, exploramos a Camada Bronze, nosso repositório de dados brutos. Agora, é hora de avançar em nossa jornada na Arquitetura Medalhão e entrar na Camada Prata, onde a verdadeira transformação de valor acontece.
Se a Camada Bronze é sobre coletar a matéria-prima, a Camada Prata é sobre refiná-la. É aqui que transformamos dados brutos, muitas vezes inconsistentes, em um ativo de dados confiável e pronto para análise.
O Objetivo da Camada Prata: A Fonte Única da Verdade
O principal objetivo da Camada Prata é servir como a “fonte única da verdade” (Single Source of Truth) para a organização. Os dados aqui são limpos, validados, conformados e enriquecidos, fornecendo uma visão consistente e confiável das entidades de negócio da empresa (clientes, produtos, vendas, etc.).
É a camada que a maioria dos Analistas de Dados e Cientistas de Dados usará para suas análises exploratórias e para treinar modelos de Machine Learning.
Principais Processos na Camada Prata
A transição da Bronze para a Prata envolve uma série de etapas de transformação e qualidade.
Limpeza (Cleansing):
- Tratamento de valores nulos ou ausentes.
- Correção de inconsistências (ex: “São Paulo”, “SP”, “S. Paulo” padronizados para “São Paulo”).
- Remoção de caracteres inválidos.
Validação (Validation):
- Aplicação de regras de negócio para garantir a integridade dos dados (ex: uma venda não pode ter valor negativo).
- Verificação de tipos de dados (ex: garantir que um campo de data contenha apenas datas válidas).
Desduplicação (Deduplication):
- Identificação e remoção de registros duplicados que podem ter vindo da origem.
Enriquecimento (Enrichment):
- Combinação de diferentes fontes de dados para adicionar contexto. Por exemplo, juntar uma tabela de vendas (da Bronze) com uma tabela de clientes (também da Bronze) para criar uma tabela vendas_enriquecidas na Prata.
- Adicionar informações de geolocalização a partir de um CEP.
Exemplo Prático: De Bronze Para Prata
Imagine que na Camada Bronze temos duas tabelas: pedidos_brutos e clientes_brutos.
Para criar a tabela pedidos_consolidados na Camada Prata, poderíamos executar os seguintes passos:
- Filtrar pedidos com status “cancelado”.
- Padronizar o formato das datas do campo data_pedido.
- Juntar (JOIN) com a tabela clientes_brutos para adicionar o nome e o estado do cliente a cada pedido.
- Garantir que não há IDs de pedido duplicados.
O resultado é uma tabela limpa, confiável e muito mais fácil de consultar do que as tabelas brutas originais.
Quem se Beneficia da Camada Prata?
Analistas de Dados: Podem fazer consultas exploratórias sem se preocupar com a qualidade dos dados.
Cientistas de Dados: Usam esta camada como fonte para criar datasets de treinamento para seus modelos.
Engenheiros Analíticos: Usam as tabelas da Prata como base para construir as agregações da camada Ouro.
A Camada Prata é o coração pulsante da Arquitetura Medalhão. É o trabalho feito aqui que garante que as análises e decisões de negócio na camada seguinte sejam baseadas em dados sólidos e confiáveis.
Aqui na DSA a Arquitetura Medalhão é estudada em diversos cursos nas Formações:
Formação Engenheiro de Dados 4.0
Formação Arquiteto de Dados 4.0
Formação Engenheiro DataOps 4.0
Formação Apache Spark e Databricks 4.0
Continuamos este guia definitivo na Parte 4.
Equipe DSA
[…] Continuamos este guia definitivo na Parte 3. […]