Muitas grandes empresas de tecnologia tomam decisões importantes sobre como podem atender melhor seus clientes por meio de dados. À medida que essas empresas aumentam de tamanho, a complexidade de seus cenários de dados também aumenta, tornando-as cada vez mais difíceis de navegar.

A descoberta de dados é o processo de localização de dados relevantes e de alta qualidade nesses cenários.

Neste artigo, veremos como o Facebook, o Airbnb e o Uber definem o problema da descoberta de dados em seus contextos de negócios e como eles os abordaram de forma exclusiva com suas próprias plataformas internas. Conheça Nemo, Dataportal e Databook, soluções do Facebook, Airbnb e Uber para descoberta de dados.

Cada uma dessas empresas publicou um artigo sobre suas plataformas (links ao final deste artigo). Se você achar uma abordagem específica interessante, sugerimos que leia o artigo completo, pois eles têm muito mais detalhes sobre sua implementação.

Facebook

O Facebook atende bilhões de pessoas que dependem de serviços de alta qualidade. Para garantir uma experiência significativa, as equipes precisam encontrar informações relevantes e precisas com eficiência. Exemplos de problemas de descoberta:

A tabela relevante pode ter um nome obscuro ou não descritivo.

Equipes diferentes têm conjuntos de dados sobrepostos.

Equipes diferentes sabem o que querem mostrar com os dados e que os dados estão disponíveis em algum lugar.

As plataformas de descoberta de dados ajudam essas equipes a encontrar os dados corretos o mais rápido possível.

Solução do Facebook: Nemo

Para resolver esses problemas de forma simples e rápida, o Facebook desenvolveu uma plataforma chamada Nemo.

“Canalizar tudo por meio de especialistas em dados para localizar os dados necessários sempre que precisarmos tomar uma decisão não era escalonável. Então, criamos o Nemo, um mecanismo interno de descoberta de dados. O Nemo permite que os engenheiros descubram rapidamente as informações de que precisam, com grande confiança na precisão dos resultados.”

Com mais de 12 tipos diferentes de artefatos de dados, o Nemo reduziu muito a dor do Engenheiro de Dados do Facebook em encontrar dados de qualidade e melhorou sua taxa de sucesso na pesquisa de dados em mais de 50%. Esse sistema foi capaz de ser escalado conforme a diversidade de tipos de dados quase triplicou e o número de consultas dobrou.

O novo sistema aproveita o Unicorn, o sistema do Facebook para pesquisar o grafo social de forma eficiente para ajudar com a escalabilidade da plataforma. O Nemo também permite pesquisas significativamente mais refinadas ao filtrar o uso de uma tabela, restrições de privacidade e tempo para retorno dos dados. Além disso, o mecanismo pode analisar e responder a perguntas, fornecendo tabelas de dados relevantes para o engenheiro. Por fim, o sistema classifica as tabelas com base na qualidade dos dados, uso e linhagem.

Airbnb

Semelhante ao Facebook, o Airbnb tem visto um grande crescimento na quantidade de dados e diversidade de formatos de dados nos últimos anos.

“Vimos um crescimento explosivo tanto na quantidade de dados quanto no número de recursos de dados internos: tabelas de dados, painéis, relatórios, definições de métricas, etc.”

Eles observam que, embora isso seja um sinal de crescimento e demonstre seu grande investimento em decisões baseadas em dados, também apresenta novos desafios. Especificamente, as fontes de dados variam em qualidade, complexidade, relevância e confiabilidade. É difícil encontrar dados que otimizam todos esses parâmetros.

O Airbnb classificou dois temas que estavam causando grandes problemas em seu cenário de dados:

1- O cenário de dados era muito difícil de navegar e muitas vezes exigia que os usuários perguntassem a outros onde encontrar os recursos apropriados.

2- Era difícil confiar nos dados devido à falta de contexto e metadados.

Esses problemas estavam fazendo com que os usuários evitassem recursos e criassem seus próprios recursos adicionais, levando a um cenário de dados ainda mais confuso.

Outro problema para o Airbnb era que os dados estavam sendo localizados para equipes específicas. Isso deu às equipes uma visão míope dos dados sem um contexto global, o que levou a visualizações piores sem contexto. O problema foi agravado por regras de permissão que dificultaram o compartilhamento e compreensão dos dados.

“A compreensão de todo o ecossistema de dados, desde a produção de um log de eventos até seu consumo em uma visualização, oferece mais valor do que a soma de suas partes.”

Solução do Airbnb: Dataportal

“O objetivo geral do Dataportal é democratizar os dados e capacitar os funcionários do Airbnb para que os dados sejam informados, ajudando na exploração, descoberta e confiança de dados.”

O objetivo do Dataprotal é fornecer uma estrutura a todos os funcionários para permitir que eles encontrem dados facilmente e se sintam confortáveis de que são confiáveis ​​e relevantes para suas perguntas.

O Dataportal tem 4 componentes:

1- Busca
2- Contexto e Metadados
3- Dados centrados no funcionário
4- Dados centrados na equipe

O recurso de busca permite que os funcionários pesquisem esquemas de registro, tabelas de dados, gráficos, painéis, funcionários e equipes. A plataforma aproveita todos os metadados disponíveis para construir contexto e confiança. A plataforma também usa o PageRank com uma representação de rede do ecossistema de dados para fornecer resultados de pesquisa altamente relevantes.

Conforme mencionado na formulação do problema, o Airbnb acredita que o contexto é extremamente importante para o fornecimento de uma plataforma de descoberta de dados de alta qualidade. O Dataportal permite que os usuários vejam quem criou um recurso, quem o usou e quando foi criado e / ou atualizado.

Esta plataforma também inclui perfis de usuário para todos os funcionários. Qualquer funcionário pode pesquisar as tabelas que foram criadas, usadas ou preferidas por qualquer outro funcionário.

As equipes têm suas próprias páginas, semelhantes às dos funcionários, para mostrar com quais dados estão interagindo e criando.

Toda essa abordagem é interessante e trata a plataforma de descoberta de dados como uma rede social. Essa plataforma era necessária para o Airbnb conforme eles aumentavam e tornava o cenário de dados significativamente menos confuso.

Uber

Semelhante ao Airbnb, a Uber coloca uma grande ênfase no contexto dos dados para tomar melhores decisões baseadas em dados.

“Big Data por si só não é suficiente para alavancar insights; para serem usados de forma eficiente e eficaz, os dados em escala da Uber requerem contexto para tomada de decisões de negócios e obter insights. ”

Como a Uber cresceu para 15 milhões de viagens por dia com 75 milhões de passageiros ativos por mês e 18.000 funcionários em todo o mundo, seus dados também aumentaram em complexidade. A Uber começou a construir uma plataforma de descoberta de dados em 2015 com tabelas HTML estáticas que eram mantidas manualmente. Obviamente, isso não era escalonável.

“Nessa escala e ritmo de crescimento, um sistema robusto para descobrir todos os conjuntos de dados e seus metadados relevantes não é apenas bom ter: é absolutamente essencial para tornar os dados úteis na Uber.”

Solução da Uber: Databook

O Databook gera automaticamente metadados sobre tabelas para fornecer contexto sobre a qualidade dos dados e o que os dados significam. A plataforma enfatiza quatro componentes:

1- Extensibilidade: fácil de adicionar novos metadados, armazenamento e entidades às tabelas.

2- Acessibilidade: todos os metadados podem ser acessados ​​de maneira programática.

3- Escalabilidade: suporta muitas solicitações de leitura simultâneas.

4- Potência: Suporta solicitações de leitura e gravação em vários data centers.

O Databook começa ingerindo várias fontes como entradas (incluindo Cassandra, Hive, Vertica, etc.), armazena os metadados e envia as informações por meio de APIs RESTful que podem ser acessadas por meio da UI (User Interface) do Databook.

O Databook aproveita o fato de que os usuários não precisam ver mudanças nos metadados em tempo real e armazena os metadados na própria arquitetura do Databook. Isso permite uma taxa de transferência de leitura mais rápida para os usuários (um dos principais objetivos da plataforma).

Eles também projetaram o sistema de forma modular, separando a camada de atendimento de solicitações da camada de coleta de dados para que pudessem ser calculadas separadamente.

Existem duas maneiras de acessar metadados através do Databook, uma API RESTful e uma interface visual. A Uber decidiu usar o Elasticsearch para o recurso de pesquisa do Databook. Eles permitem que os usuários pesquisem em muitas dimensões diferentes, como nome, proprietário, coluna, etc.

Conclusão

Como muitas das principais empresas de tecnologia continuam a colocar grande ênfase na tomada de decisões baseadas em dados e continuam a crescer em tamanho, as plataformas de descoberta de dados estão se tornando cada vez mais necessárias. Não é possível inserir informações manualmente na escala dessas empresas.

Embora o Facebook, o Airbnb e o Uber tenham uma abordagem ligeiramente diferente para o problema, todos eles colocam uma ênfase comum em alguns componentes:

O contexto dos dados é muito importante para todo o processo.

As plataformas de descoberta de dados são necessárias para tomar decisões baseadas em dados em escala.

Confiabilidade, relevância e atualidade dos dados são fatores importantes que devem ser considerados nas classificações de pesquisa de dados.

É muito interessante ver como as empresas de alto desempenho estão lidando com problemas de dados em escala tão grande. Se você achou essas informações interessantes ou úteis, existem cerca de 13 outros artigos que descrevem como grandes empresas de tecnologia estão lidando com problemas de descoberta de dados aqui (além de outros tópicos de aprendizado de máquina e ciência de dados).

Referências:

Formação Engenheiro de Dados

Formação Arquiteto de Dados

How Facebook, Airbnb, and Uber Make Data-Driven Decisions from Complex Data Landscapes

Nemo: Data discovery at Facebook

Democratizing Data at Airbnb

Databook: Turning Big Data into Knowledge with Metadata at Uber