É difícil prever exatamente qual caminho a engenharia de dados vai seguir em 2023, pois o campo está em constante evolução e novas tecnologias, técnicas e ferramentas estão sendo desenvolvidas o tempo todo.

Mas com base na experiência prática em projetos, conversas com gestores de médias e grandes empresas e extensa pesquisa, podemos traçar um cenário de tendências, as principais plataformas e as habilidades necessárias na engenharia de dados em 2023.

Boa leitura.

Tendências

Aqui estão 10 tendências que provavelmente serão fortes na engenharia de dados em 2023. Confira.

1- O uso de tecnologias de Big Data, como Hadoop e Spark, continuará a crescer à medida que mais e mais organizações buscam analisar e obter insights de grandes conjuntos de dados.

2- A adoção de tecnologias de computação em nuvem, como Amazon Web Services (AWS) e Microsoft Azure, provavelmente também aumentará à medida que as organizações buscarem reduzir custos e aumentar a flexibilidade.

3- Haverá maior foco na segurança e privacidade dos dados, pois a importância de proteger dados pessoais e sensíveis fica cada vez mais evidente.

4- O aprendizado de máquina e a Inteligência Artificial continuarão a ser áreas de foco importantes, pois os Engenheiros de Dados trabalham para criar sistemas que possam processar e analisar dados em escala.

5- Pode haver uma demanda crescente por Engenheiros de Dados com fortes habilidades de visualização de dados, pois a capacidade de comunicar insights de dados de forma eficaz se torna mais importante.

6- Haverá um foco maior no processamento e análise de dados em tempo real, pois as organizações buscam tomar decisões mais oportunas com base em dados gerados em tempo real.

7- Os Engenheiros de Dados precisarão de uma gama mais ampla de habilidades, pois as linhas entre engenharia de dados, ciência de dados e engenharia de software continuam a se cada vez mais tênues, criando assim o perfil chamado Analytics Engineer.

8- O uso de Data Lakes, que são repositórios centralizados que permitem que as organizações armazenem todos os seus dados estruturados e não estruturados em qualquer escala, vai se tornar ainda mais difundido. O Data Lakehouse (junção de Data Warehouse e Data Lake) seguirá crescendo em 2023. E, embora a arquitetura Data Mesh esteja distante de se tornar realidade, em especial no Brasil, veremos avanços em 2023.

9- Ferramentas do Modern Data Stack se destacam em empresas Startups, mas ainda estão distantes de média e grandes empresas. Esperamos ver uma evolução maior em 2023.

10- Infraestrutura Como Código seguirá crescendo em 2023 com adoção cada vez maior das empresas para automatizar tarefas de engenharia de dados e facilitar o deploy de infraestrutura.

Plataformas

Separamos em 3 grupos as ferramentas e plataformas que vão ganhar destaque na engenharia de dados em 2023.

Grupo 1 – Catálogo de Dados, Observabilidade e Qualidade

O objetivo da engenharia de dados é criar, manter e otimizar pipelines de dados que movem os dados de sua origem para o usuário final. Mesmo que o fluxo de trabalho nesses pipelines de dados seja agora padronizado, consistindo em etapas bem conhecidas para realizar a extração, transformação e carregamento de dados, esse processo ainda é muito sensível a mudanças nos dados, seja em sua estrutura ou valores.

E essas mudanças podem afetar diretamente a disponibilidade do pipeline levando a falhas e tornando-os indisponíveis. Assim, é aqui que a catalogação, a observabilidade e a qualidade dos dados são relevantes.

Um catálogo de dados é uma ferramenta útil para organizações que buscam gerenciar e organizar melhor seus dados, e também pode ser usado para facilitar a descoberta e o acesso de dados por usuários internos — e até mesmo externos.

Observabilidade é a capacidade de monitorar e diagnosticar o desempenho e o comportamento de um sistema ou aplicativo. No contexto dos dados, a observabilidade refere-se à capacidade de monitorar e entender os fluxos e processos de dados em sua organização e de identificar e diagnosticar quaisquer questões ou problemas que possam surgir.

A qualidade dos dados refere-se à precisão, integridade e consistência dos dados em uma empresa. Garantir a qualidade dos dados é importante porque pode afetar a confiabilidade e a eficácia das decisões e ações baseadas em dados. A qualidade dos dados pode ser melhorada por meio do uso de ferramentas de validação e limpeza de dados, bem como pelo estabelecimento e aplicação de políticas e padrões de governança de dados.

Neste grupo, aqui estão 5 plataformas para ficar de olho em 2023: OpenMetadata, Monte Carlo, Castor, Atlan e Immuta.

Grupo 2 – Bancos de dados Unistore e Multi-Model

Os dados necessários para análise costumavam ser movidos de bancos de dados transacionais para bancos de dados específicos de análise.

Mas, então, entra em cena a Snowflake com seu novo conceito de Unistore, que permite realizar qualquer tarefa diretamente e preencher a lacuna entre os sistemas OLTP e OLAP. Essa tecnologia ajudará a reduzir o número de sistemas que você precisa para manter e eliminar a necessidade de copiar e mover dados entre sistemas.

Com o impacto que o Unistore provavelmente terá na engenharia de dados, esperamos que não demore muito para que a concorrência comece a apresentar soluções alternativas para preencher a lacuna OLTP-OLAP.

Ao mesmo tempo, a linha entre bancos de dados relacionais, baseados em grafos e de armazenamento de documentos também está se tornando tênue. “Multimodelo” (Multi-Model) é um tipo mais recente de sistema de gerenciamento de banco de dados (DBMS) projetado para suportar vários modelos de dados e paradigmas de manipulação de dados.

Isso significa que o DBMS é capaz de suportar diferentes tipos de estruturas de dados e formas de interagir com os dados, como modelos de dados orientados a objetos, relacionais e baseados em grafos. Isso permite que os usuários escolham o modelo de dados e o paradigma mais apropriados para suas necessidades e aplicações específicas.

Bancos de dados multimodelos são especialmente úteis em ambientes complexos e de grande escala, onde diferentes modelos e paradigmas de dados são necessários para dar suporte a diferentes tipos de dados e aplicativos. Em vez de ter diferentes ferramentas e tecnologias para resolver diferentes necessidades de dados, um banco de dados multimodelo garantirá uma redução no custo total de propriedade de qualquer plataforma.

Aqui estão 3 plataformas emergentes a serem observadas em 2023: CockroachDB, Fauna e Firebolt.

E, é claro, sempre vale a pena dar uma olhada nesses 4 gigantes da indústria como Snowflake, Databricks, Redshift e Synapse.

Grupo 3 – Democratização de Dados

A tendência de democratização de dados continuará a promover o empoderamento de toda a força de trabalho, incluindo Engenheiros de Dados e Cientistas de Dados. A democratização de dados é o processo de tornar os dados prontamente disponíveis e acessíveis a todos que precisam deles em uma empresa — e até mesmo em um mercado de dados aberto.

Isso pode levar a uma melhor tomada de decisões, melhor colaboração e inovação, bem como maior produtividade.

Uma característica da democratização de dados que podemos esperar ser especialmente valiosa em 2023 é que ela ajuda a economizar custos de várias maneiras.

Primeiro, garantir que os dados e as ferramentas para trabalhar com eles estejam ao alcance de todos os funcionários torna os processos e operações mais eficientes e eficazes. Isso promove economia de custos, reduzindo a necessidade de esforços duplicados e processos manuais e permitindo que os funcionários tomem melhores decisões com base em dados de maior qualidade – reduzindo a frequência e os recursos necessários para as correções de curso necessárias.

Em segundo lugar, a democratização de dados pode ajudar uma empresa a otimizar os gastos, reduzindo a dependência de conhecimento especializado e suporte de TI para tarefas relacionadas a dados.

Quando você reduz o nível de conhecimento técnico necessário para se envolver de forma mais ampla e profunda com os dados, também reduz a dependência de sua organização em TI ou especialistas em dados – que, por sua vez, podem aproveitar seu conhecimento avançado para executar tarefas de maior valor agregado.

Em terceiro lugar, a democratização de dados promove economia de custos, permitindo que você faça melhor uso de seus ativos de dados. Quanto maior a variedade de dados que os usuários podem acessar, maiores são as chances de eles identificarem novas oportunidades para usar esses dados para gerar valor e inovação nos negócios. Seja permitindo que sua organização gere novos fluxos de receita ou desenvolva processos, produtos e serviços mais eficientes e eficazes.

Em quarto lugar, as organizações que têm a oportunidade de configurar um mercado de dados podem gerar receita extra, permitindo que terceiros assinem seus dados e cobrando por isso. Além disso, isso incentivará os Engenheiros de Dados a manter e publicar dados mais limpos e estruturados no mercado, levando a uma maior confiança em seus dados de usuários internos e externos.

As 4 plataformas de mercado de dados públicos mais proeminentes com as quais você deve estar familiarizado incluem AWS Data Exchange, Snowflake Marketplace e Dawex.

Habilidades

Aqui estão 5 habilidades necessárias para trabalhar como Engenheiro de Dados.

Habilidade #1: Linguagem SQL

SQL (Structured Query Language) é uma linguagem usada para manipular e gerenciar dados armazenados em sistemas de gerenciamento de banco de dados relacional (RDBMS). Como Engenheiro de Dados, você frequentemente trabalhará com dados armazenados em bancos de dados e saber como usar o SQL será uma habilidade importante. De fato, é fundamental.

Existem algumas razões pelas quais aprender SQL é importante para Engenheiros de Dados:

  • SQL é a linguagem padrão para interagir com RDBMS e é usada por uma ampla variedade de sistemas de banco de dados, incluindo MySQL, PostgreSQL, Oracle e muitos outros. Como Engenheiro de Dados, você pode precisar trabalhar com qualquer um desses sistemas, e conhecer SQL permitirá que você faça isso com eficiência.
  • SQL é usada para executar uma ampla variedade de tarefas, como criar tabelas e índices, inserir e atualizar dados, consultar dados e excluir dados. Como Engenheiro de Dados, muitas vezes você precisará executar essas tarefas como parte de seu trabalho, e conhecer  SQL facilitará isso.
  • SQL é uma linguagem poderosa e flexível e é adequada para trabalhar com grandes conjuntos de dados. Como Engenheiro de Dados, você pode precisar trabalhar com conjuntos de dados muito grandes, e saber como usar o SQL permitirá que você faça isso com eficiência.
  • Muitas ferramentas e tecnologias usadas no campo de engenharia de dados, como Apache Spark e Databricks, usam SQL como linguagem de programação principal. Conhecer SQL permitirá que você use essas ferramentas de maneira eficaz e facilitará o aprendizado de outras tecnologias relacionadas.

No geral, aprender SQL é uma habilidade importante para os Engenheiros de Dados e facilitará o trabalho com dados armazenados em bancos de dados e o uso de uma ampla variedade de ferramentas e tecnologias.

Habilidade #2: Tecnologias de Computação em Nuvem

Existem algumas razões pelas quais os Engenheiros de Dados podem precisar conhecer a tecnologia de nuvem:

  • A computação em nuvem permite que os Engenheiros de Dados dimensionem sua infraestrutura para cima ou para baixo conforme necessário, o que pode ser útil ao trabalhar com grandes conjuntos de dados ou lidar com grandes volumes de dados.
  • A computação em nuvem pode ser mais econômica do que executar a infraestrutura local, pois você paga apenas pelos recursos que usa. Isso pode ser particularmente importante para projetos de engenharia de dados, que podem consumir muitos recursos.
  • Muitas tecnologias populares de Big Data, como Hadoop e Spark, são projetadas para serem executadas na nuvem e geralmente são usadas em conjunto com soluções de armazenamento em nuvem, como Azure Storage, Amazon S3 ou Google Cloud Storage. Saber como usar as tecnologias de nuvem permitirá que os Engenheiros de Dados aproveitem essas ferramentas e trabalhem com grandes conjuntos de dados de maneira eficiente.
  • Muitas organizações estão movendo seus dados e infraestrutura para a nuvem como parte de seus esforços de transformação digital. Como Engenheiro de Dados, você pode ser solicitado a trabalhar em projetos relacionados à migração ou integração em nuvem, e saber como usar tecnologias de nuvem será importante nesses cenários.

Uma das melhores práticas para aprender nuvem e computação em nuvem é fazer exames de certificação de provedores de nuvem (Amazon, Google, Microsoft). Após a aprovação, você também recebe distintivos para provar sua competência e especialidade em determinada faixa.

No geral, conhecer a tecnologia de nuvem pode ser útil para Engenheiros de Dados, pois permite que eles aproveitem a escalabilidade, a economia e a flexibilidade da nuvem, além de permitir que trabalhem com uma ampla variedade de ferramentas e tecnologias.

Habilidade #3: Práticas de CI/CD

A integração contínua (CI) e a entrega contínua (CD) são práticas de desenvolvimento de software que envolvem a criação, teste e implantação automática de alterações de código. Como Engenheiro de Dados, talvez você precise conhecer as práticas de CI/CD por alguns motivos:

  • As práticas de CI/CD podem ajudar a garantir que os pipelines de dados e outros sistemas sejam confiáveis e atualizados, pois as alterações de código são criadas, testadas e implantadas automaticamente. Isso pode ser particularmente importante no campo da engenharia de dados, onde a integridade e a confiabilidade dos sistemas são críticas.
  • As práticas de CI/CD podem ajudar a reduzir o tempo e o esforço necessários para implantar alterações de código, pois o processo é automatizado. Isso pode ser especialmente útil no campo da engenharia de dados, onde as alterações de código podem ser frequentes e complexas.
  • As práticas de CI/CD podem ajudar a melhorar a colaboração e a comunicação dentro de uma equipe, pois as alterações de código são criadas, testadas e implantadas automaticamente, e o status do processo fica visível para todos os membros da equipe.
  • As práticas de CI/CD podem ajudar a reduzir o risco de erros e bugs, pois as alterações de código são criadas, testadas e implantadas automaticamente, e quaisquer problemas podem ser identificados e corrigidos rapidamente.

E a melhor prática é aprender git intensivamente. Vale a pena!

No geral, conhecer as práticas de CI/CD pode ser útil para Engenheiros de Dados, pois permite que eles criem, testem e implementem alterações de código de forma eficiente e confiável, além de ajudar a garantir que os pipelines de dados e outros sistemas estejam atualizados e de alta qualidade .

Habilidade #4: Programação em Python, PySpark

Python é uma linguagem de programação popular amplamente usada no campo da engenharia de dados para uma variedade de tarefas. Existem algumas razões pelas quais os Engenheiros de Dados podem precisar conhecer Python:

  • Python é uma linguagem versátil que pode ser usada para uma ampla variedade de tarefas, incluindo manipulação de dados, análise de dados e aprendizado de máquina. Como Engenheiro de Dados, você pode precisar executar essas tarefas como parte de seu trabalho, e conhecer Python facilitará isso.
  • Muitas tecnologias populares de Big Data, como Apache Spark e Hadoop, fornecem APIs Python, que permitem usar Python para interagir com essas tecnologias e trabalhar com grandes conjuntos de dados. Conhecer Python facilitará o uso dessas tecnologias e o trabalho com Big Data.
  • Python tem uma comunidade grande e ativa, e há muitas bibliotecas e estruturas disponíveis para tarefas de engenharia de dados, como Pandas para manipulação de dados, NumPy para computação numérica e scikit-learn para aprendizado de máquina. Conhecer Python permitirá que você aproveite esses recursos e os use para resolver problemas diversos.
  • Python é uma linguagem popular no campo da ciência de dados, e conhecer Python permitirá que você trabalhe mais de perto com Cientistas de Dados e entenda seu trabalho.

PySpark é uma biblioteca Python para interagir com o sistema de computação distribuída Apache Spark. Como Engenheiro de Dados, talvez você precise conhecer o PySpark por alguns motivos:

  • O PySpark permite que você use Python para interagir com o Apache Spark, que é um poderoso mecanismo de processamento de Big Data. Isso pode ser útil para Engenheiros de Dados, pois permite que eles usem Python, uma linguagem com a qual muitos estão familiarizados, para trabalhar com grandes conjuntos de dados e realizar transformações de dados em escala.
  • O PySpark fornece uma ampla gama de funcionalidades para trabalhar com dados, incluindo suporte para carregamento, transformação e análise de dados. Isso pode ser útil para Engenheiros de Dados, pois permite que eles executem uma ampla gama de tarefas usando uma única biblioteca.
  • O PySpark se integra a várias outras bibliotecas populares de ciência de dados, como Pandas e Scikit-learn, o que pode facilitar a execução de tarefas de manipulação, análise e aprendizado de máquina.
  • O PySpark é amplamente utilizado na área de engenharia de dados, e saber como utilizá-lo pode tornar você mais competitivo no mercado de trabalho.

No geral, conhecer Python pode ser útil para Engenheiros de Dados, pois permite que eles executem uma ampla gama de tarefas, usem tecnologias populares de Big Data, aproveitem um grande ecossistema de bibliotecas e estruturas e trabalhem mais de perto com Cientistas de Dados.

Habilidade #5: Habilidade de Comunicação

Como Engenheiro de Dados, ter fortes habilidades de comunicação é importante por alguns motivos:

  • Os projetos de engenharia de dados geralmente envolvem o trabalho com equipes multifuncionais, e uma boa comunicação é fundamental para garantir que todos estejam alinhados e trabalhando para os mesmos objetivos.
  • Os projetos de engenharia de dados geralmente envolvem o trabalho com sistemas e tecnologias complexas, e ser capaz de comunicar conceitos técnicos de maneira clara e compreensível é importante para garantir que todos possam entender e contribuir com o projeto.
  • Os projetos de engenharia de dados geralmente envolvem o trabalho com as partes interessadas do negócio, e ser capaz de comunicar o valor e as implicações do projeto a essas partes interessadas é importante para garantir que o projeto seja bem-sucedido.
  • Os projetos de engenharia de dados geralmente envolvem o trabalho com grandes quantidades de dados, e ser capaz de comunicar insights e descobertas desses dados de forma eficaz é importante para garantir que o projeto seja significativo e impactante.

No geral, ter fortes habilidades de comunicação é importante para os Engenheiros de Dados, pois permite que eles colaborem efetivamente com os membros da equipe, expliquem conceitos técnicos, comuniquem-se com as partes interessadas nos negócios e apresentem insights de dados.

Equipe DSA

Referências:

Formação Engenheiro de Dados

Trend of data engineering in 2023 and important skills to become better a data engineer in 2023

Look Out for These Data Engineering Trends in 2023

What’s Next for Data Engineering in 2023? 10 Predictions