Quase todo mundo concorda que os Cientistas de Dados e Engenheiros de Dados são as novas estrelas da indústria de tecnologia. Mas peça a um grupo de CIOs para definir a área de especialização para cargos relacionados à Ciência de Dados, e a discórdia se tornará a palavra do dia.

À medida que as empresas buscam insights acionáveis por meio da contratação de equipes que incluem Analistas de Dados, Engenheiros de Dados, Cientistas de Dados, Engenheiros de Machine Learning, Engenheiros de Inteligência Artificial, Arquitetos de Dados e Engenheiros DataOps, a chave do sucesso é entender o que cada função pode – e não pode – fazer pela empresa.

Continue lendo este guia para saber com que os especialistas em Ciência de Dados e IA podem contribuir à medida que as empresas lidam com quantidades cada vez maiores de dados que devem ser explorados para criar novos caminhos para a inovação e, claro, resolver problemas de negócio para empresa.

Confira as referências ao final do artigo. Boa leitura.

O Ideal Versus o Mundo Real

Em um mundo perfeito, cada funcionário e executivo da empresa trabalha sob um conjunto bem definido de deveres e responsabilidades.

Ciência de Dados não é esse mundo. As empresas geralmente estruturam sua organização de Data Science com base na necessidade de cada projeto. O principal problema é manter uma boa higiene de dados? Ou há necessidade de trabalhar com dados em um modelo relacional? Talvez a equipe exija que alguém seja um especialista em aprendizado profundo e que também entenda de infraestrutura de dados?

Dependendo do tamanho e do orçamento de uma empresa, qualquer cargo pode ter uma ou mais dessas habilidades de resolução de problemas. Claro, funções e responsabilidades mudarão com o tempo, assim como tem mudado à medida que a era do Big Data evolui para a era da Inteligência Artificial.

Dito isso, é bom para um CIO – e para a equipe de Ciência de Dados que ele gerencia – remover o máximo possível da ambiguidade em relação às funções e responsabilidades de algumas das funções mais comuns – as de Analista de Dados, Engenheiro de Dados, Cientista de Dados, Engenheiro de Machine Learning, Engenheiro de IA, Arquiteto de Dados e Engenheiro DataOps,.

As equipes que têm o melhor entendimento de como cada um se encaixa nos objetivos da empresa estão mais bem posicionadas para entregar um resultado de sucesso. Não importa a função, a infraestrutura de computação acelerada também é fundamental para impulsionar o sucesso em todo o pipeline, conforme os dados passam da análise para a IA avançada.

Vale ainda ressaltar que Analista de Dados, Engenheiro de Dados, Cientista de Dados, Engenheiro de Machine Learning, Engenheiro de IA, Arquiteto de Dados e Engenheiro DataOps, são funções e não profissões regulamentadas, o que significa que não há curso de graduação específico para exercer essas funções e o que conta mesmo é o conhecimento prático do profissional.

Analista de Dados

É importante reconhecer o trabalho de um Analista de Dados, pois esses especialistas têm ajudado as empresas a extrair informações de seus dados muito antes do surgimento da Ciência de Dados moderna e do pipeline de IA.

Os Analistas de Dados usam ferramentas de Business Intelligence padrão, como Microsoft Power BI, Tableau, Qlik, SQL e outros aplicativos de análise de dados, incluindo linguagens como R e Python. A análise de dados em larga escala pode envolver a integração de muitas fontes de dados diferentes, o que aumenta a complexidade do trabalho de Engenheiros e Cientistas de Dados – outro exemplo de como o trabalho desses vários especialistas tende a se sobrepor e se complementar.

Os Analistas de Dados ainda desempenham um papel importante no negócio, pois seu trabalho ajuda a empresa a avaliar seu sucesso. Um Engenheiro de Dados também pode oferecer suporte a um Analista de Dados que precisa avaliar dados de diferentes fontes.

Os Cientistas de Dados dão um passo adiante para que as empresas possam começar a capitalizar em novas oportunidades com sistemas de recomendação, IA conversacional e visão computacional, para citar alguns exemplos.

Engenheiro de Dados

Um Engenheiro de Dados dá sentido a dados confusos – e geralmente há muitos deles. Pessoas nesta função tornam os dados organizados (o máximo possível) para os Cientistas de Dados usarem. Essa função envolve muito trabalho de preparação e higiene de dados, incluindo muito ETL (extrair, transformar, carregar) para ingerir e limpar dados.

O Engenheiro de Dados deve ser bom com quebra-cabeças de dados. Os formatos mudam, os padrões mudam, até mesmo os campos que uma equipe está usando em uma página da web podem mudar com frequência. Os conjuntos de dados podem ter erros de transmissão, como quando os dados de um campo são inseridos incorretamente em outro.

Quando os conjuntos de dados precisam ser unidos, os Engenheiros de Dados precisam corrigir os problemas de higiene dos dados que ocorrem quando a rotulagem é inconsistente. Por exemplo, se o dia da semana estiver incluído nos dados de origem, o Engenheiro de Dados precisa se certificar de que o mesmo formato seja usado para indicar o dia, já que “segunda-feira” também pode ser escrita como apenas “segunda”, ou mesmo representada por um número que pode ser um ou zero, dependendo de como os dias da semana são contados.

Espere que Engenheiros de Dados possam trabalhar livremente com linguagens de script como Python e SQL e frameworks como Apache Spark. Eles precisarão de habilidades em linguagem de programação para encontrar problemas e resolvê-los. Visto que eles trabalharão com dados brutos, o trabalho deles é importante para garantir que o pipeline seja robusto.

Se as empresas estiverem extraindo dados de um Data Lake para treinamento de um modelo de IA, esse trabalho baseado em regras pode ser feito por um Engenheiro de Dados. A engenharia de recursos mais abrangente é o trabalho de um Cientista de Dados. Dependendo de sua experiência e do projeto, alguns Engenheiros de Dados podem apoiar Cientistas de Dados com gráficos e tabelas de visualização de dados iniciais.

Dependendo de quão rigorosa a empresa tem sido com o gerenciamento de dados, ou se trabalha com dados de vários parceiros, pode ser necessário um número de Engenheiros de Dados na equipe. Em muitas empresas, o trabalho de um Engenheiro de Dados geralmente acaba sendo feito por um Cientista de Dados, que prepara seus próprios dados antes de colocá-los para funcionar.

Cientista de Dados

Os Cientistas de Dados fazem experimentos com dados para encontrar os segredos escondidos dentro deles. É um amplo campo de especialização que pode incluir o trabalho de análise de dados e processamento de dados, mas o trabalho principal de um Cientista de Dados é feito aplicando técnicas preditivas aos dados usando modelagem estatística e modelagem preditiva com Machine Learning.

Cientistas de Dados são pessoas que transformam oceanos de dados brutos em informações. Esses especialistas usam uma ampla gama de ferramentas para conduzir análises, experimentar, construir e testar modelos para encontrar padrões. Para serem ótimos em seu trabalho, os Cientistas de Dados também precisam entender as necessidades da empresa que estão apoiando.

Esses especialistas usam muitos aplicativos, incluindo NumPy, SciKit-Learn, RAPIDS, CUDA, SciPy, Matplotlib, Pandas, Plotly, NetworkX, XGBoost, TensorFlow, PyTorch, bibliotecas específicas de domínio e muitos mais. Eles precisam ter experiência em aprendizado de máquina, técnicas de aprendizado como descida do gradiente, engenharia de recursos, treinamento, avaliação e refinamento de modelo, normalização de dados e validação cruzada. A profundidade e a amplitude dessas habilidades tornam prontamente aparente por que esses especialistas são tão valorizados nas empresas baseadas em dados de hoje.

Os Cientistas de Dados costumam resolver mistérios para chegar à verdade mais profunda. Seu trabalho envolve encontrar as explicações mais simples para fenômenos complexos e construir modelos que sejam simples o suficiente para serem flexíveis, mas fiéis o suficiente para fornecer uma visão útil. Eles também devem evitar alguns perigos de treinamento de modelo, incluindo overfitting de seus conjuntos de dados (ou seja, a produção de modelos que não generalizam efetivamente a partir de dados de exemplo) e codificação acidental de tendências ocultas em seus modelos.

Engenheiro de Machine Learning

Engenheiro de Machine Learning é o especialista arquiteta todo o processo de aprendizado de máquina. Esse profissional recebe modelos de IA desenvolvidos por Cientistas de Dados e Engenheiros de IA e os colocam em produção.

Esses unicórnios estão entre os mais procurados e bem pagos do setor – e as empresas trabalham muito para garantir que não sejam caçados. Uma maneira de mantê-los felizes é fornecer os recursos de computação acelerada corretos para ajudar a impulsionar seu melhor trabalho. Um Engenheiro de Machine Learning precisa entender o pipeline de ponta a ponta e deseja garantir que o pipeline seja otimizado para oferecer ótimos resultados com rapidez.

Nem sempre é facilmente intuitivo, já que os Engenheiros de Machine Learning devem conhecer os aplicativos, entender a arquitetura de dados e identificar os problemas do sistema que podem surgir à medida que os projetos são dimensionados. Uma pessoa nesta função deve compreender todos os aplicativos usados ​​no pipeline de IA e geralmente precisa ter habilidade em otimização de infraestrutura, computação em nuvem, contêineres, bancos de dados e muito mais.

Para se manterem atualizados, os modelos de IA precisam ser reavaliados para evitar o que é chamado de desvio do modelo, pois novos dados afetam a precisão das previsões. Por esse motivo, os Engenheiros de Machine Learning precisam trabalhar em estreita colaboração com seus colegas de Ciência de Dados, que precisarão reavaliar os modelos para manter sua precisão.

Engenheiro de Inteligência Artificial

O Engenheiro de IA é um Cientista de Dados especialista em técnicas de aprendizado profundo (Deep Learning). No aprendizado profundo, os modelos de IA são capazes de aprender e melhorar seus próprios resultados por meio de redes neurais que imitam a forma como os seres humanos pensam e aprendem.

Esses cientistas da computação se especializam em cargas de trabalho avançadas de IA. Seu trabalho é parte ciência e parte arte para desenvolver o que acontece nos modelos de aprendizagem profunda. Eles fazem menos engenharia de recursos e muito mais matemática e experimentação. O impulso para a interpretabilidade e explicabilidade do modelo AI explicável (XAI) pode ser especialmente desafiador neste domínio.

Engenheiros de IA precisarão processar grandes conjuntos de dados para treinar seus modelos antes que eles possam ser usados ​​para inferência, onde eles aplicam o que aprenderam para avaliar novas informações. Eles usam bibliotecas como PyTorch, TensorFlow e MXNet e precisam ser capazes de construir redes neurais e ter fortes habilidades em estatística, cálculo e álgebra linear.

Arquiteto de Dados

As funções descritas acima já estão muito bem consolidadas no mercado e a busca por profissionais qualificados é cada vez maior, mas um novo perfil vem surgindo para ajudar a construir o design e arquitetura de soluções de dados: o Arquiteto de Dados.

Seguir diretamente para a carreira como Arquiteto de Dados sem passar pela engenharia é perfeitamente possível, porém exigirá bastante disciplina e dedicação nos estudos, projetos e se manter muito atualizado com as tendências do mercado. Esse profissional tem enfoque muito maior em Governança, ele será muito bem visto principalmente no setor público, de saúde e educação ou qualquer setor que tenha uma preocupação muito forte com a legislação. É claro que todos temos que nos preocupar com legislação, mas algumas áreas são muito fortemente auditadas e será nessas áreas que um arquiteto com pegada forte em governança irá se destacar.

Um arquiteto com pegada em governança terá que se destacar em conhecer fortemente as leis (GDPR, LGDP, Marco Civil da Internet e a Lei de Acesso a Informação, ISOs, etc.), mas também será imprescindível ter um forte domínio em ferramentas como Dremio, Atlas, Airflow, etc, para o design do pipeline de dados.

Já o arquiteto com pegada técnica irá se destacar em setor com forte viés em inovação, irá se destacar em setores como logística, finanças, marketing, RH, TI propriamente dito, enfim setores onde a tecnologia já faz parte do business.

Um Arquiteto de Dados mais técnico será muito valioso se ele se desenvolver e souber discutir “de igual para igual” com o Engenheiro de Dados: ou seja, ele terá que entender muito de ETL, DW, Data Lake, etc…

Engenheiro DataOps

Este é um perfil novo que começa a ganhar destaque na equipe de Ciência de Dados. Esse é um profissional com uma visão holística de todo o processo de Data Science, mas com forte base em infraestrutura, operacionalização, bancos de dados e ambiente em nuvem. Também deve dominar microsserviços, Deployment de aplicações e ETL. O Engenheiro DataOps é responsável por criar a infraestrutura de dados como serviço e garantir que o trabalho de todos os profissionais mencionados anteriormente possa ser convertido em produtos ou serviços que resolvam problemas de negócio.

Conclusão

Dada toda a ampla experiência nessas funções, está claro que as empresas precisam de uma estratégia para ajudá-las a aumentar o sucesso de sua equipe em Ciência de Dados e IA. Muitos novos aplicativos precisam ser suportados, com os recursos certos disponíveis para ajudar esse trabalho a ser feito o mais rápido possível para resolver os desafios de negócios.

Os novos em Ciência de Dados e IA geralmente optam por começar com a computação acelerada na nuvem e, em seguida, migram para uma solução híbrida para equilibrar a necessidade de velocidade com os custos operacionais. As equipes internas tendem a parecer uma pirâmide invertida, com mais Analistas e Engenheiros de Dados canalizando dados em tarefas acionáveis ​​para Cientistas de Dados, até os Engenheiros de Machine Learning e IA.

Com um melhor entendimento das funções de uma equipe de dados moderna e dos recursos de que precisam para ter sucesso, o CIO estará no caminho certo para construir uma organização que pode transformar dados em valor comercial.

Equipe DSA

Referências:

Formação Cientista de Dados

Formação Engenheiro de Dados

Formação Engenheiro de Machine Learning

Formação Inteligência Artificial

Formação Arquiteto de Dados

The CIO’s Guide to Building a Rockstar Data Science and AI Team