Arquitetura Medalhão – O Guia Definitivo Para Organizar o Data Lakehouse – Fundamentos

Neste guia definitivo, dividido em 5 partes, vamos explorar as muitas possibilidades do poderoso padrão de design de dados, a Arquitetura Medalhão. Agora, na Parte 1, começaremos com os fundamentos.
O Que é a Arquitetura Medalhão?
A Arquitetura Medalhão é um padrão de design de dados que organiza de forma lógica os dados em um Data Lakehouse, visando melhorar incrementalmente a qualidade e a estrutura dos dados à medida que eles fluem por diferentes estágios. Popularizada pela Databricks, a arquitetura divide o ambiente em três camadas distintas: Bronze, Prata e Ouro.
A analogia é simples e poderosa: Você começa com a matéria-prima (Bronze), a refina (Prata) e, finalmente, a transforma em um produto de alto valor, pronto para o negócio (Ouro).
O principal objetivo da Arquitetura Medalhão é melhorar de forma lógica e incremental a qualidade, a confiabilidade e o desempenho dos dados à medida que eles fluem através de diferentes camadas de processamento. Cada camada representa um estágio de qualidade e agregação dos dados.
As Três Camadas da Arquitetura
1. Camada Bronze (Dados Brutos)
A primeira camada, Bronze, é o ponto de entrada dos dados no lakehouse. Seu objetivo é ingerir e armazenar os dados em seu formato original, provenientes dos mais diversos sistemas de origem (bancos de dados, APIs, arquivos, streams, etc.).
Características Principais:
- Formato Bruto: Os dados são mantidos “como estão”, sem nenhuma ou com mínima transformação. Isso preserva a fonte original e permite reconstruir as camadas seguintes a qualquer momento.
- Imutabilidade: Geralmente, os dados nesta camada são imutáveis e de anexação (append-only), guardando um histórico completo das mudanças.
- Schema-on-Read: A estrutura (schema) dos dados não é rigidamente aplicada na gravação, mas sim interpretada durante a leitura.
- Custo-Benefício: O armazenamento é otimizado para baixo custo, pois o volume de dados pode ser massivo.
- Caso de uso: Armazenamento de logs de um web server, tabelas replicadas de um banco de dados transacional ou feeds de eventos de um sistema de IoT (Internet das Coisas).
2. Camada Prata (Dados Refinados e Validados)
A camada Prata (Silver) é onde os dados da camada Bronze são limpos, validados e enriquecidos. O objetivo é criar uma “versão única da verdade” (single source of truth) para a organização.
Características Principais:
- Limpeza e Qualidade: Aplica-se a remoção de registros duplicados, tratamento de valores nulos, padronização de campos (ex: datas, endereços) e validação de regras de negócio.
- Enriquecimento: Os dados podem ser combinados com outras fontes para adicionar contexto. Por exemplo, juntar dados de clientes com informações de geolocalização.
- Modelagem: Os dados são organizados em tabelas mais estruturadas e otimizadas para consulta, geralmente com esquemas bem definidos.
- Pronto para Análise: Esta camada serve como fonte confiável para Analistas de Dados, Cientistas de Dados e outros perfis que precisam explorar os dados da empresa.
- Caso de uso: Uma tabela clientes limpa e validada, uma tabela vendas com dados de produtos e lojas já integrados, ou uma tabela de sessoes_usuarios com eventos de cliques filtrados e organizados.
3. Camada Ouro (Dados Agregados e Prontos Para Análise)
A camada Ouro (Gold) é a camada final, focada em atender a necessidades específicas de negócio. Os dados aqui são altamente refinados, agregados e otimizados para relatórios, dashboards e aplicações de Machine Learning.
Características Principais:
- Agregação de Negócio: Os dados são sumarizados para fornecer métricas e KPIs importantes (ex: vendas totais por região, receita mensal por cliente).
- Modelagem Dimensional: É comum o uso de modelos de dados como Star Schema ou Snowflake para otimizar consultas em ferramentas de Business Intelligence (BI).
- Foco no Desempenho: As tabelas são projetadas para alta performance de leitura, atendendo a consultas rápidas de dashboards e relatórios.
- Consumo Final: É a camada diretamente acessada por ferramentas de visualização (como Power BI, Tableau), modelos de Machine Learning e outras aplicações voltadas para o usuário final.
- Caso de uso: Uma tabela agregada de faturamento_mensal_por_produto, um data mart para a equipe de marketing com o perfil de clientes ou um feature store para alimentar modelos de recomendação.
Vantagens da Arquitetura Medalhão
Principais vantagens da arquitetura:
- Qualidade e Confiabilidade: Garante que os dados passem por um processo rigoroso de validação antes de serem usados para tomada de decisão.
- Governança e Rastreabilidade: Facilita o rastreamento da linhagem dos dados (data lineage), permitindo entender como um dado na camada Gold foi originado a partir da camada Bronze.
- Reprodutibilidade: Como a camada Bronze é uma cópia fiel da origem, é possível reconstruir completamente as camadas Prata e Ouro caso uma regra de negócio mude ou um erro seja encontrado.
- Separação de Responsabilidades: Permite que diferentes equipes trabalhem em diferentes camadas. Engenheiros de Dados focam nas camadas Bronze e Prata, enquanto Analistas de Negócio e Cientistas de Dados consomem principalmente a camada Ouro.
- Simplicidade e Intuitividade: O conceito é fácil de entender e comunicar entre equipes técnicas e de negócio.
Conclusão
A Arquitetura Medalhão oferece um framework robusto e escalável para a construção de plataformas de dados modernas. Ao separar os dados em estágios de qualidade (Bruto, Refinado e Agregado), ela permite que as organizações transformem dados brutos em ativos de alto valor, prontos para impulsionar a inteligência de negócio e a inovação.
Aqui na DSA a Arquitetura Medalhão é estudada em diversos cursos nas Formações:
Formação Engenheiro de Dados 4.0
Formação Arquiteto de Dados 4.0
Formação Engenheiro DataOps 4.0
Formação Apache Spark e Databricks 4.0
Continuamos este guia definitivo na Parte 2.
Equipe DSA
Parabéns, excelente guia!