Curso Gratuito – Sistema Operacional Linux, Docker e Kubernetes
Seja bem-vindo(a) a mais um curso bônus, gratuito e exclusivo, para os alunos das Formações da DSA: Sistema Operacional Linux, Docker e Kubernetes.
Seja bem-vindo(a) a mais um curso bônus, gratuito e exclusivo, para os alunos das Formações da DSA: Sistema Operacional Linux, Docker e Kubernetes.
Empresas e outras organizações que trabalham com conjuntos de dados que podem ser considerados Big Data têm mais uma opção quando se trata de arquitetura de armazenamento. Cada vez mais vemos a evolução de uma arquitetura híbrida que está sendo chamada de “Data Lakehouse”.
O Engenheiro de Dados é o responsável pela criação do pipeline que transforma os dados brutos que estão nos mais variados formatos, desde bancos de dados transacionais até arquivos de texto, em um formato que permita ao Cientista de Dados começar seu trabalho.
O senso comum nos diz que não é possível usar dados, a menos que sua qualidade seja compreendida. As verificações da qualidade dos dados são críticas para o Data Lake, mas não é incomum as empresas inicialmente negligenciarem esse processo na pressa de mover dados para um armazenamento menos dispendioso e mais escalável – especialmente durante a adoção inicial.
A decisão sobre como entregar o resultado de um projeto de Machine Learning ao cliente passa pelo que foi acordado com o cliente no começo do projeto. 10 Cenários de Como Entregar Um Projeto de Machine Learning.
As decisões em tempo real já fazem parte do cenário e novas ferramentas e arquiteturas são necessárias para lidar com esses desafios de forma eficiente. Ou seja, estamos indo da era Do Big Data Para o Fast Data e estamos indo cada vez mais rápido!
As empresas buscam agora mais um perfil profissional para compor suas equipes de Data Science e trabalhar junto com o Cientista de Dados: o Engenheiro de Dados. Mas aí temos a pergunta: Precisamos de 2 Engenheiros de Dados para Cada Cientista de Dados? Qual deve ser a proporção?
Este é o quinto de uma série de artigos aqui no Blog da DSA sobre um dos melhores frameworks para processamento de dados de forma distribuída, o Apache Spark e sua utilização na nuvem com Databricks.
Este é o segundo de uma série de artigos no Blog da DSA sobre um dos melhores frameworks para processamento de dados de forma distribuída, o Apache Spark e sua utilização na nuvem com Databricks.
Este é o primeiro de uma série de artigos aqui no Blog da DSA sobre um dos melhores frameworks para processamento de dados de forma distribuída, o Apache Spark e sua utilização na nuvem com Databricks
O Apache NiFi é um sistema fácil de usar, poderoso e confiável para processar e distribuir dados, pois além da ingestão de dados, é capaz de transferir e gerenciar a transferência de dados entre fontes e sistemas heterogêneos.