O Que é Um Data Lakehouse?

Primeiro, havia um Data Warehouse, uma arquitetura de armazenamento de informações que permitia o arquivamento de dados estruturados para fins específicos de inteligência de negócios e relatórios. O conceito de Data Warehouse remonta à década de 1980 e serviu bem às empresas por várias décadas, até o início da era do Big Data. Mas o Data Warehouse ainda é o repositório predominante na grande maioria das empresas.

Com o surgimento do Big Data, as empresas começaram a descobrir o valor de trabalhar com dados não estruturados – informações confusas e brutas que podem vir na forma de texto, fotos, vídeos ou arquivos de áudio. Esse tipo de dados normalmente representa de 80 a 90% das informações disponíveis para as organizações e geralmente possui uma quantidade fenomenal de valor – pense nos insights contidos em anos de comunicações por e-mail de clientes ou horas de filmagem da linha de produção de uma fabrica. Infelizmente, não se encaixa bem com a forma estruturada e ordenada como as informações são armazenadas no modelo de Data Warehouse.

Isso levou ao desenvolvimento de um tipo diferente de arquitetura conhecido como Data Lake – onde informações não estruturadas são armazenadas em seu formato bruto, prontas para qualquer uso que possamos encontrar para elas, agora ou no futuro.

O Data Lake é, sem dúvida, uma arquitetura extremamente poderosa e flexível. No entanto, ele tem alguns problemas. Para começar, como você pode imaginar, pode ficar muito confuso – na verdade, se os Engenheiros de Dados não forem cuidadosos, as empresas podem acabar com algo que se assemelha mais a um pântano de dados!

Isso pode criar problemas de governança e privacidade, bem como complexidades técnicas envolvidas na criação de sistemas capazes de ingerir dados em uma infinidade de esquemas e formatos.

O que nos leva a…continue lendo…

Portanto, hoje, empresas e outras organizações que trabalham com conjuntos de dados que podem ser considerados Big Data têm mais uma opção quando se trata de arquitetura de armazenamento. Assim como temos as plataformas em nuvem em geral, com o armazenamento de dados, cada vez mais vemos a evolução de uma arquitetura híbrida que está sendo chamada de “Data Lakehouse”.

Não há prêmios para adivinhar que a ideia fundamental por trás dessa abordagem é pegar os melhores conceitos dos modelos de Data Warehouse e Data Lake e juntá-los enquanto tenta eliminar os piores conceitos de ambos os modelos!

Assim como um Data Lake, um Data Lakehouse é construído para abrigar dados estruturados e não estruturados. Isso significa que as empresas que podem se beneficiar do trabalho com dados não estruturados (que é praticamente qualquer empresa) precisam apenas de um repositório de dados, em vez de exigir infraestrutura de warehouse e lake.

Onde as organizações usam os dois, geralmente os dados no warehouse alimentam a análise de BI, enquanto os dados no lake são usados para Ciência de Dados, que pode incluir Inteligência Artificial (IA), como aprendizado de máquina, e armazenamento para uso futuro.

Os Data Lakehouses permitem que estruturas e esquemas como os usados em um Data Warehouse sejam aplicados aos dados não estruturados do tipo que normalmente seria armazenado em um Data Lake. Isso significa que os usuários de dados podem acessar as informações mais rapidamente e começar a colocá-las em prática. E esses usuários de dados podem ser Analistas de Dados ou Cientistas de Dados ou, cada vez mais, trabalhadores em várias outras funções que estão cada vez mais vendo os benefícios de se aprimorar com recursos de análise.

Esses Data Lakehouses podem fazer uso de camadas de metadados inteligentes – que atuam como uma espécie de “intermediário” entre os dados não estruturados e o usuário dos dados para categorizar e classificar os dados. Ao identificar e extrair recursos dos dados, eles podem ser efetivamente estruturados, permitindo que sejam catalogados e indexados como se fossem dados estruturados e organizados.

Por exemplo, parte dessa extração de metadados pode incluir o uso de algoritmos de Processamento de Linguagem Natural ou Visão Computacional para entender o conteúdo de arquivos de imagem, texto ou voz que são despejados como dados brutos e não rotulados no Data Lakehouse.

Lakehouse Permite Análises Inteligentes

Então, para quem é a arquitetura de Data Lakehouse?

É muito provável que um grupo-chave de usuários sejam organizações que desejam dar o próximo passo em sua jornada de análise, passando de BI para IA. Cada vez mais, as empresas estão procurando dados não estruturados para informar suas operações e tomadas de decisão orientadas por dados simplesmente devido à riqueza dos insights que podem ser extraídos deles.

data-lakehouse

Aqui está um exemplo muito simples – se você contar o número de clientes que entram em sua loja todos os dias e armazenar esses dados como um número simples, esses pontos de dados só lhe dirão uma coisa.

Se você gravar a entrada dos clientes na loja através de vídeo, no entanto, assim como o número de clientes que chegam, você pode descobrir todos os tipos de outras informações – seus clientes são homens ou mulheres? Qual é a faixa etária deles, como eles gostam de se vestir? No futuro, você poderá até mesmo encaixar a tecnologia de análise facial e dizer em que humor eles estão quando entrarem pela sua porta!

Sim, você pode despejar todas essas informações em um Data Lake. No entanto, haveria questões importantes de governança de dados a serem abordadas – como o fato de você estar lidando com informações pessoais. Uma arquitetura lakehouse resolveria isso automatizando os procedimentos de conformidade – talvez até anonimizando dados onde fosse necessário.

Ao contrário dos Data Warehouses, os Data Lakehouses são baratos de escalar porque a integração de novas fontes de dados é automatizada – eles não precisam ser ajustados manualmente aos formatos e esquemas de dados da organização. Eles também são “abertos”, o que significa que os dados podem ser consultados de qualquer lugar usando qualquer ferramenta, em vez de limitados a serem acessados por meio de aplicativos que só podem manipular dados estruturados (como SQL).

A abordagem do Data Lakehouse provavelmente se tornará cada vez mais popular à medida que mais organizações começarem a entender o valor de usar dados não estruturados junto com IA e aprendizado de máquina.

Na jornada de análise, é um avanço na maturidade do modelo combinado de Data Lake e Data Warehouse que até recentemente era visto como a única opção para organizações que desejam continuar com fluxos de trabalho de análise e BI legados, ao mesmo tempo em que migram para iniciativas de dados inteligentes e automatizadas . Com fornecedores de infraestrutura de dados mais tradicionais (por exemplo, AWS e Databricks) oferecendo essa arquitetura e ferramentas de código aberto como o Delta Lake crescendo em popularidade, é um termo que ouviremos cada vez mais nos próximos anos.

Isso significa que Data Warehouses e Data Lakes deixarão de existir. Claro que não. Muito pelo contrário de fato. O que veremos é a integração desses repositórios de dados ao mesmo tempo que testemunhamos a evolução natural da tecnologia. Data Lakehouse é uma tecnologia de armazenamento muito promissora, mas seu valor será extraído somente se a empresa já tiver uma forte cultura data-driven. O Data Lakehouse será a evolução natural no amadurecimento da infraestrutura de dados de uma empresa.

E caso queira aprender a implementar um Data Lakehouse, temos um projeto completo em um dos cursos da Formação Engenheiro de Dados. Clique aqui para conferir.

Equipe DSA

Referências:

Armazenamento e Gestão de Dados com Data Lake e Data Lakehouse

What Is A Data Lakehouse? A Super-Simple Explanation For Anyone