Nos últimos anos houve uma explosão na busca por Cientistas de Dados, os profissionais que detêm o conhecimento necessário para desvendar o valor escondido no Big Data. O número de vagas para Cientistas de Dados continua crescendo a cada ano, enquanto que o número de profissionais capacitados não acompanha o mesmo ritmo, gerando um gap que, embora traga muitas oportunidades para os profissionais que já possuem conhecimento em Data Science, faz com que as empresas tenham grande dificuldade para contratar este perfil de profissional do século XXI.

Por outro lado, muitas empresas já implementaram ou estão implementando seus projetos de Data Science e começam agora uma nova saga: buscar os profissionais habilitados para criar o pipeline de dados e cuidar da infraestrutura de análise de dados. As empresas buscam agora mais um perfil profissional para compor suas equipes de Data Science e trabalhar junto com o Cientista de Dados: o Engenheiro de Dados. Mas aí temos a pergunta: Qual deve ser a proporção? Precisamos de 2 Engenheiros de Dados para Cada Cientista de Dados? Vamos analisar essa questão sob a ótica de uma empresa que tem os dois perfis profissionais, a Two Sigma.

A ciência de dados desempenha um papel importante na Two Sigma, o fundo de hedge de 17 anos da cidade de Nova York, com US $ 56 bilhões sob administração. Mesmo antes do “Big Data” se tornar um padrão, a Two Sigma estava adotando estatísticas e aprendizado de máquina em escala, como formas de ajudar a encontrar boas oportunidades de investimento mais rapidamente do que seus concorrentes.

Cientistas de Dados desempenham um grande papel nas operações da Two Sigma. Mas ultimamente a empresa tem contratado Engenheiros de Dados para construir e manter os sistemas distribuídos que permitem os Cientistas de Dados realizar seu trabalho.

“O que eu vi nos últimos dois anos é que o tipo de pessoa e o perfil que estamos trazendo e contratando têm um sólido histórico na aplicação da ciência de dados”, diz o gerente de engenharia da Two Sigma, David Palaitis. “Essa é a verdadeira mudança que vimos na indústria e estamos muito interessados ​​em desenvolver mais esse perfil, porque é raro encontrar pessoas com esse talento.”

Os Engenheiros de Dados da Two Sigma têm habilidades e requisitos de trabalho diferentes dos Cientistas de Dados que ele emprega. Palaitis explica:

“O Cientista de Dados é realmente aquele que trabalha com o conjunto de dados, fazendo análise exploratória, a seleção de recursos, procurando construir novos recursos e organizando os dados para as etapas seguintes do processo. Eles vão construir um modelo preditivo e, em seguida, apresentar os resultados e aplicá-los ”, diz ele. “O Engenheiro de Dados da Two Sigma é quem trabalha na construção do sistema para o qual o Cientista de Dados pode fazer seu trabalho de forma escalável, fácil de usar e fornece uma boa experiência à ciência de dados para que todos da equipe de Data Science possam ser mais produtivos.”

Nos primeiros dias da empresa, a Two Sigma contava com engenheiros de software que tinham formação em informática para construir os sistemas. No entanto, conforme as cargas de trabalho analíticas evoluíram com o tempo, tornou-se mais importante para a Two Sigma ter pessoas na equipe que entendam como o aprendizado de máquina funciona e possam minimizar o tempo de treinamento do modelo alterando algoritmos ou fazendo outras alterações. A Two Sigma refere-se a essas pessoas como Engenheiros de Dados.

“Recentemente, tivemos um Cientista de Dados que reclamou que levava quatro dias para treinar seu modelo”, disse Palaitis. “Um Engenheiro de Dados pode ajudar a melhorar este tempo de treinamento, ajustando as configurações de armazenamento e processamento de dados, utilizando os frameworks de forma mais otimizada e melhorando a velocidade e a convergência do modelo, para que possamos reduzir o tempo de treinamento de alguns dias para algumas horas.”

De acordo com Palaitis, os Engenheiros de Dados são aqueles que se destacam em coletar, manipular, transformar e limpar dados brutos, de modo que o Cientista de Dados possa usá-los para construir e treinar os modelos de aprendizado de máquina (Machine Learning). Um Engenheiro de Dados, por outro lado, está mais focado nos sistemas, modelos e algoritmos distribuídos que processam os dados.

Tobi Knaup, CTO e co-fundador da Mesosphere, vê paralelos entre os Engenheiros de DevOps de hoje, que se destacam em levar aplicações do desenvolvimento à produção, e os Engenheiros de Dados que levam cargas de trabalho de grande volume de dados, desde o desenvolvimento até a produção.

“O DevOps é um papel que combina conhecimento de operações e conhecimento de engenharia de software, e que precisa dessas duas coisas para ser eficaz em seu trabalho”, diz Knaup da Mesopshere. “É a mesma coisa aqui. Os Engenheiros de Dados precisam saber sobre infraestrutura de grande escala, como gerenciamento e agendamento de jobs em clusters, mas também precisam conhecer o aprendizado de máquina e a ciência de dados para realizar seu trabalho. Isso é novidade sobre esse papel, a combinação dessas duas habilidades.”

 

Precisamos de 2 Engenheiros de Dados para Cada Cientista de Dados?

De acordo com o relatório de empregos do LinkedIn de agosto de 2018, a demanda por Cientistas de Dados está “fora dos gráficos”, ou seja, muito acima de qualquer expectativa. “A escassez de habilidades em ciência de dados está presente em quase todas as grandes cidades dos EUA.” Em todo o país, há 150 mil Cientistas de Dados a menos do que o necessário para preencher vagas abertas. No Brasil, observamos o mesmo fenômeno.

Segundo algumas estimativas, a demanda por Engenheiros de Dados pode ser ainda maior do que a demanda por Cientistas de Dados. Muitas empresas consideram ideal ter pelo menos dois Engenheiros de Dados trabalhando com cada Cientista de Dados, enquanto alguns acreditam que esta proporção deva ser ainda maior. Isso levanta a perspectiva de um “buraco” ainda maior para preencher nos próximos anos, se não houver engenheiros suficientes para satisfazer a demanda.

“Se você não tiver esse papel de Engenheiro de Dados e tiver apenas um Cientista de Dados, terá um cenário muito fragmentado de ferramentas”, diz Knaup, da Mesopshere. “Você vai ter um problema clássico que eu vejo muito em empresas: um Cientista de Dados pode construir algum algoritmo em um ambiente de desenvolvimento, mas na maioria das vezes não terá habilidade para executar esse modelo em um cluster e processar grandes volumes de dados.

E se o modelo estiver sendo processado em um Streaming de dados (fluxo contínuo de dados) pode ser necessário implementar um Middleware como o Apache Kafka, conhecimento que não faz parte do arsenal de um Cientista de Dados. Esse seria o papel de um Engenheiro de Dados, construir um pipeline para que o modelo preditivo criado pelo Cientista de Dados possa ser executado e com boa performance. É por isso que esse papel é realmente essencial.”

Enquanto os Cientistas de Dados trabalham com o Jupyter Notebook ou RStudio e são fluentes em linguagens como Python ou R, os Engenheiros de Dados estão mais aptos a conhecer linguagens como Scala e Java.

“O que procuramos é alguém que tenha experiência em Python, mas também Java e até mesmo Scala, porque muito do processo é feito no Apache Spark, e para otimizar o Apache Spark, você realmente precisa chegar ao nível da linguagem Scala (linguagem de desenvolvimento do Spark),” diz Palaitis da Two Sigma. 

A empresa deve colocar o Engenheiro de Dados na lista de contratações possíveis, se quiser realmente trabalhar com Big Data. “Quando vejo alguém ter esse título ou quando vejo uma organização contratando essas pessoas”, diz Palaitis, “eu digo, esses caras provavelmente estão à frente do jogo“.

E você, o que ainda está esperando para estar à frente do jogo? Busque sua capacitação 100% online e 100% em português. A Data Science Academy oferece programas de excelência completos. Clique nos links abaixo, confira os programas e comece agora mesmo:

 

Formação Cientista de Dados

Formação Engenheiro de Dados

Formação Inteligência Artificial

Formação Análise Estatística Para Cientistas de Dados

Formação Engenheiro Blockchain

Formação Desenvolvedor Microsoft Para Data Science e IA

Formação Analista de Inteligência de Mercado

Formação Desenvolvedor RPA

Formação IA Para Medicina

Formação Desenvolvedor Web Para Data Science

Formação Arquiteto de Dados

Formação Engenheiro de Machine Learning

 

Referências:

O Que Faz o Engenheiro de Dados?

Engineers Vs. Scientists: Who to Hire in Data Now?

A Diferença Entre Cientistas de Dados, Engenheiros de Dados, Estatísticos e Engenheiros de Software

Cientista de Dados – Por Onde Começar em 8 Passos