A probabilidade de falhas em um projeto é muito maior quando não há preparação. Neste artigo trazemos para você dicas preciosas de Como Se Preparar Para Projetos de Data Science, com 6 elementos-chave de uma estratégia bem-sucedida.

Aproveite a leitura.


Se você não preparar os dados com antecedência para obter o desempenho ideal, eles não agradarão quem os consome. De fato, a má preparação de dados é uma das principais causas de falhas nos projetos de Data Science – e aqueles que estão gerenciando esses projetos são os responsáveis diretos por isso.

Por esse motivo, é essencial que as organizações tenham uma estratégia e metodologia de preparação de grandes volumes de dados e a executem fielmente.

Uma estratégia de preparação de dados deve conter os seguintes elementos:

1. Um entendimento completo das questões de negócios presentes e futuras para as quais os dados devem fornecer respostas.

O conhecimento das áreas de negócios em que a análise de Big Data deve ser aplicada estabelece um contexto de negócios para os dados e ajuda a moldar a estratégia de coleta e execução de dados.

O objetivo nesta fase é identificar quais dados em sua empresa são relevantes para as principais questões comerciais e quais não são. Você também pode expandir as perguntas de negócios e os dados que procura conforme as necessidades dos negócios mudam.

2. Centralização ou distribuição de dados.

Os dados devem ser normalizados para que sejam consistentes. Isso torna essencial hospedar todos os dados para análise em um repositório centralizado mantido pela TI, mesmo que você opte por preencher diferentes subconjuntos desses dados mestre para áreas de negócios específicas. Data Lakes estão sendo usados para esse fim. Essa é uma abordagem de centralização de dados.

Outra abordagem que vem sendo discutida no mercado é o contrário, a distribuição dos dados. Ou seja, os dados residem onde são gerados e mantidos por quem gera os dados. Esse é o conceito por trás da arquitetura do Data Mesh. O Data Mesh requer um amadurecimento da empresa em uso dos dados.

Uma das duas estratégias, centralização ou distribuição de dados, deve ser adotada.

3. Identificação de fontes de dados que devem alimentar os repositórios de dados.

Depois que casos e perguntas de negócios são definidos, devem ser identificados conjuntos de dados e fontes que podem ser usados ​​para responder às perguntas mais comuns dos negócios. Essas fontes de dados podem vir de dentro ou fora da empresa e podem ser coletados e usados em tempo real, o que requer uma infraestrutura apropriada para isso, trabalho de um Engenheiro de Dados.

4. Identificação de fontes de dados futuras que provavelmente se tornarão relevantes.

Ao mesmo tempo, não é muito cedo para começar a identificar conjuntos de dados ou fontes adicionais que possam ser necessários para os negócios no futuro. Essas fontes de dados não terão inicialmente dados preparados, mas sua identificação fornecerá um roteiro para a preparação futura de dados.

5. Metodologia definida de preparação de dados.

Existem três etapas fundamentais para mover dados limpos para um repositório de dados central. Primeiro, os dados são extraídos de sua fonte. Em seguida, são transformados em um formato compatível com o destino de dados para o qual está indo. Por fim, são carregados no repositório de destino.

A parte importante é a transformação. Se o mesmo campo de dados estiver fluindo para um novo destino, mas esse destino tiver um formato diferente do original, os dados deverão ser transformados no novo formato para que os dados funcionem e sejam consistentes em seu destino. Este é um passo tedioso, se feito manualmente, portanto, são necessárias ferramentas de automação.

Nada impede que os dados sejam primeiro coletados e armazenados em seu formato bruto e um processo posterior de limpeza seja realizado de acordo com cada projeto de análise de dados.

6. Ferramentas eficazes de preparação de dados selecionadas.

Existem inúmeras ferramentas de preparação de dados no mercado, portanto, as empresas são aconselhadas a testá-las e trabalhar com fornecedores que oferecem suporte.

Os objetivos devem ser preparar seus dados para que sejam da mais alta qualidade e escolher ferramentas fáceis de usar e que forneçam um meio para automatizar as etapas de preparação de dados. Os Cientistas de Dados, Engenheiros de Dados e Arquitetos de Dados são peças fundamentais desse processo.

E tudo isso é apenas o ponto de partida!

Equipe DSA

Referências:

Formação Cientista de Dados

Formação Engenheiro de Dados

Formação Arquiteto de Dados

How to prepare for big data projects: 6 key elements of a successful strategy