A escassez de Cientistas de Dados já não é novidade para ninguém. A cada ano o mercado gera muito mais vagas do que o número de profissionais capacitados para preenchê-las. Formar um Cientista de Dados leva tempo e as empresas que buscam profissionais habilitados em Data Science, Machine Learning e Inteligência Artificial, se deparam com a dura realidade de falta de pessoas com a qualificação ideal. Esse é um fenômeno mundial e ainda mais crítico no Brasil. Mas agora, as empresas começam a enfrentar a falta de outro indivíduo chave na equipe de Big Data, que também é fundamental para o sucesso de projetos de dados – o Engenheiro de Dados. Por que 2018 Será o Ano do Engenheiro de Dados? Fomos investigar e trazemos as razões agora para você.

Os Engenheiros de Dados são especialistas em projetar, construir e manter os sistemas baseados em dados em apoio às operações analíticas e transacionais de uma organização. Os Engenheiros de Dados fazem o trabalho necessário para que as aplicações analíticas de Data Science possam ser executadas com sucesso. Entre as suas principais atribuições estão:

  • – Construir pipelines de dados para coletar dados e movê-los para armazenamento;
  • – Preparar os dados como parte de um processo ETL ou ELT;
  • – Integrar diferentes fontes de dados, assegurar a segurança e garantir alta disponibilidade;
  • – Projetar, construir e manter os repositórios de dados;
  • – Garantir que os dados estejam prontos para uso;
  • – Usar frameworks e microservices para servir os dados.

 

Em suma, o trabalho do Engenheiro de Dados é fornecer dados limpos e confiáveis para o processo de análise. O Engenheiro de Dados está mais relacionado com a infraestrutura, em comparação com a capacidade de análise do Cientista de Dados. Se o Cientista de Dados é o responsável por planejar e monetizar novas fontes de dados, é o Engenheiro de Dados que descobre como construir os pipelines para mover os dados, realizar transformações e limpeza e implementar serviços para garantir que os dados estejam disponíveis para o Cientista de Dados, de forma confiável e no momento certo.

Não há Engenheiros em Número Suficiente

Os Engenheiros de Dados são profissionais críticos quando uma empresa procura mover seu projeto de Data Science para a produção. Para executar um projeto de Data Science bem sucedido, geralmente há uma proporção de um Engenheiro de Dados para cada dois Cientistas de Dados. Mas mesmo as mais modernas e avançadas empresas do Vale do Silício não conseguem atingir uma proporção de um para dois. Há uma grande escassez de profissionais capacitados em Big Data e isso piora a cada ano. Atualmente, as ofertas de trabalho em Engenharia de Dados vem crescendo exponencialmente à medida que as empresas iniciam seus projetos de Big Data Analytics ou migram do BI Tradicional para Data Science.

A natureza técnica complexa dos repositórios distribuídos de dados, como Hadoop, Amazon S3 e Azure BLOB, aumentou a demanda por Engenheiros de Dados porque, de modo geral, os Engenheiros de Dados ajudam a extrair valor do sistema de dados. E isso é crucial para qualquer empresa.

A escassez está empurrando Engenheiros de Dados para alta demanda. Uma busca rápida por vagas de Engenharia de Dados no Glassdoor encontrou 107.730 vagas de Engenharia de Dados nos EUA. A maioria dessas ofertas de emprego tinha um salário inicial superior a US $ 100.000 e algumas superavam os US $ 150.000.

O aumento no número de vagas para profissionais de dados subiu no ano passado cerca de 92%, em especial as vagas para  Engenheiros de Dados qualificados com experiência em especialidades de análise de dados, como Hadoop, Spark, Hive e Java.

Mundos Paralelos do Big Data

Normalmente temos dois mundos paralelos em Big Data Analytics: o lado do gerenciamento de dados e o lado da análise de dados. Esses mundos normalmente não se sobrepõem, sendo necessário profissionais com perfis diferentes para cada um deles. Um excelente Cientista de Dados, especialista em análise de dados, Estatística e Machine Learning, pode não ter as habilidades necessárias em bancos de dados, coleta de Streams, cluster Hadoop ou microservices. Exatamente aí que o papel do Engenheiro de Dados é fundamental, garantindo que os dados estejam disponíveis para análise de dados.

Há ainda outro fator crítico: Cloud Computing. Com o volume de dados cada vez maior, fica muito difícil para uma empresa implementar clusters com dezenas ou mesmo centenas de computadores localmente em seus datacenters. Cloud Computing pode ser a solução para este problema, permitindo a criação de ambientes em nuvem que podem ser executados sob demanda, garantindo que a empresa pague apenas pelas horas de processamento. Ambientes como AWS da Amazon, Azure da Microsoft ou Google Cloud Platform, podem ser alternativas economicamente viáveis para uma infraestrutura de Big Data. Mas quem vai implementar essa infraestrutura em Nuvem? Sim, eles: os Engenheiros de Dados.

As empresas estão ficando cada vez mais atentas sobre os dados que elas coletam e, como resultado, elas estão fazendo o trabalho de integração de dados antecipadamente em vez de despejá-los em um Data Lake. Isso está mudando a forma como a área de TI trabalha atualmente, quebrando paradigmas e exigindo novas abordagens e conhecimentos. Muitas vezes o Cientista de Dados precisa fazer o papel do Engenheiro de Dados, simplesmente porque não há profissionais em número suficiente, mas isso impede que os Cientistas de Dados se concentrem em análise de dados, modelagem preditiva e busca de padrões, que podem ser os diferenciais de sucesso em qualquer projeto de dados.

Sucesso da Engenharia

A falta de profissionais qualificados em Engenharia de Dados pode comprometer qualquer projeto de Data Science. Se os dados são o novo petróleo, seu tratamento requer equipe especializada!

Construir um pipeline é como montar uma linha de produção. Você deve definir as fontes de dados, como eles serão coletados, como serão armazenados, como vai ocorrer a integração, qual o ciclo de vida dos dados, como ocorrerá o processo de limpeza, onde e como os dados serão armazenados depois desse processo, como será a segurança de acesso aos dados (lembre-se, dados são o novo petróleo), além de alta disponibilidade de acesso. Na sequência, devemos definir como executar com sucesso os modelos de Machine Learning e IA em ambientes distribuídos, fazendo com que esses modelos possam ser escaláveis e se beneficiar dos grandes volumes de dados. E tudo isso ainda levando em consideração se os dados serão ou não coletados e analisados em tempo real. Real-time Analytics é uma demanda cada vez maior nas empresas orientadas a dados. Dentro de todo este processo, o Engenheiro de Dados é um profissional chave.

Há ainda outro fator. Uma vez que os dados sejam analisados, é preciso criar produtos de dados. Visualizações, dashboards, aplicações, APIs. A execução de modelos de Machine Learning em larga escala através de processamento distribuído em cluster de computadores com Apache Spark é um requerimento indispensável em muitos projetos de dados e aprender a trabalhar com Microserviços para integrar sua infraestrutura de dados com as aplicações analíticas da sua empresa, criando uma Deep Learning REST API para os modelos criados pelos Cientistas de Dados usando TensorFlow e Keras, fazem parte do trabalho de um Engenheiro de Dados.

Por que 2018 Será o Ano do Engenheiro de Dados? Porque as empresas já perceberam que não dá mais para ignorar o Big Data. Analisar esses dados de forma eficiente e profissional não é mais um modismo, mas sim uma necessidade de negócio. Isso já é realidade. À medida que o Big Data Analytics evolui, novos perfis de profissionais se fazem necessários, como Cientistas de Dados e Engenheiro de Dados, aptos a extrair dos dados o valor que eles oferecem!

E você profissional, o que deve fazer? Você pode ficar parado esperando para ver o que acontece e correr o risco de ficar obsoleto sendo arrastado pelo Tsunami da inovação ou então buscar sua capacitação desde já e estar preparado quando as oportunidades surgirem. A escolha é sua!

 

Equipe DSA

 

Referências:

Formação Engenheiro de Dados

Rise of the Big Data Engineer

The Evolution of the Data Scientist

Wanted: Big Data Engineers

Why 2018 Will Be The Year Of The Data Engineer

Data Engineers in Hot Demand