Como Diferenciar Data Hub, Data Lake e Data Warehouse
À medida que o mundo do Big Data se expandiu, um número crescente de opções de armazenamento surgiu na mesma proporção. Quando comparados, Da Lakes, Data Hubs e Data Warehouses têm funções principais semelhantes que são frequentemente confundidas com termos intercambiáveis. Embora as três estruturas sejam usadas para hospedar dados para análise e relatórios de negócios, elas geralmente armazenam diferentes tipos de dados e funcionam com diferentes sistemas de geração de dados e padrões de acesso.
A diferença entre Data Lake x Data Warehouse nem sempre é bem clara, com o termo “Data Lake” frequentemente usado quando algo não se encaixa na arquitetura tradicional do Data Warehouse. É importante entender as diferenças entre as opções de armazenamento de dados para encontrar uma solução que funcione para as necessidades de cada empresa.
Segundo o Gartner, “as consultas de clientes referentes a Data Hubs aumentaram 20% nos últimos 2 anos”. Curiosamente, o Gartner observou que “mais de 25% dessas pesquisas eram realmente sobre conceitos de Data Lake”.
Ainda há muita confusão quando se trata de diferenciar esses três conceitos, pois eles parecem semelhantes. Na realidade, eles têm diferenças importantes das quais todos devem estar cientes. Embora estejam na moda agora, aqui na DSA já ensinamos sobre os conceitos e suas diferenças desde 2016, tendo capacitando milhares de alunos desde então.
Para esclarecer a confusão em torno desses conceitos, aqui estão algumas definições e propósitos de cada um. Boa leitura.
Data Warehouse
O Data Warehouse é um repositório central de dados integrados e estruturados de duas ou mais fontes diferentes. Esse sistema é usado principalmente para relatórios e análise de dados e é considerado um componente principal da inteligência de negócios (Business Intelligence). Os Data Warehouses implementam padrões analíticos predefinidos e distribuídos para um grande número de usuários na empresa.
Uma característica do Data Warehouse é que ele possui schema bem definido. Isso significa que os dados devem ser limpos, tratados e organizados antes de efetuar a carga no Data Warehouse, o que é normalmente feito durante o processo ETL (Extração, Transformação e Carga).
Data Lake
O Data Lake é um repositório único de todos os dados corporativos estruturados e não estruturados. Ele hospeda dados não refinados com garantia de qualidade limitada e exige que o consumidor (analista) processe e adicione manualmente valor aos dados. Os Data Lakes são, em geral, uma boa base para a preparação de dados, geração de relatórios, visualização, análise avançada, Data Science e Machine Learning.
O Data Lake tem um conceito inverso do DW, ou seja, não possui schema definido. Isso significa que os dados podem ser armazenados sem limpeza, tratamento ou organização, em seu estado bruto. O processo de limpeza e tratamento dos dados será feito mais tarde pelo Cientista de Dados quando for usar os dados para suas análises e construção de modelos de Machine Learning.
Data Hub
O Data Hub centraliza os dados da empresa que são críticos entre aplicativos e permite o compartilhamento contínuo de dados entre diversos setores, enquanto é a principal fonte de dados confiáveis para a iniciativa de governança de dados. Os Data Hubs fornecem dados mestre para aplicativos e processos corporativos. Eles também são usados para conectar aplicativos de negócios a estruturas de análise, como Data Warehouses e Data Lakes.
Um Data Hub é uma coleção simples de objetos de dados organizados de várias fontes, sendo útil quando as empresas desejam compartilhar e distribuir dados eficientemente em um ou mais formatos desejados. Embora um Data Hub compartilhe muitas semelhanças com um Data Warehouse, ele não se limita aos dados operacionais e permite navegar por diferentes níveis de granularidade dos dados.
Todos Eles Parecem Semelhantes, Mas São Diferentes
Em suma, os Data Warehouses e os Data Lakes são pontos finais para a coleta de dados que existem para dar suporte às análises de uma empresa, enquanto os Data Hubs servem como pontos de mediação e compartilhamento de dados. Eles não estão focados apenas no uso analítico de dados.
A figura abaixo resume bem a comparação entre os 3 termos:
Em alguns casos, os Data Warehouses e os Data Lakes oferecem controles de governança, mas apenas de maneira reativa, enquanto os Data Hubs aplicam proativamente a governança aos dados que fluem pela infraestrutura.
Data Lakes, Data Warehouses e Data Hubs não são alternativas intercambiáveis. No entanto, são complementares e, juntos, podem apoiar iniciativas baseadas em dados e transformação digital.
Quem São os Profissionais Que Trabalham com Essas Estruturas de Armazenamento?
Em geral, o Cientista de Dados não é o responsável por construir Data Warehouses ou Data Lakes, sendo na verdade um dos possíveis consumidores dos dados armazenados. Engenheiros de Dados são os profissionais que normalmente criam e integram essas estruturas, em especial os Data Lakes. E o Arquiteto de Dados é o responsável pela definição, design e integração dessas estruturas de armazenamento.
No dia a dia, Administradores de Bancos de Dados ou Administradores de Sistemas podem ser os responsáveis pela administração e manutenção. Empresa que estão mais maduras na gestão de dados empregam equipes de Data Ops para a gestão completa de suas soluções de armazenamento e análise de dados, sendo o Engenheiro DataOps o responsável pelo trabalho.
Equipe DSA
Referências:
Data Lake vs. Data Warehouse vs. Data Hub – What’s the Difference?
Data lakes, hubs and warehouses — when to use what
How to differentiate a Data Hub, a Data Lake and a Data Warehouse
A Customer 360° Data Hub — What it is and Why You Need it