Apache Airflow é uma plataforma de gerenciamento de fluxo de trabalho (workflow management plataform) de código aberto (open-source), que começou na Airbnb como uma solução para gerenciar os fluxos de trabalho cada vez mais complexos da empresa.

Mas o Que São “Fluxos de Trabalho”?

Fluxos de trabalho, ou workflows, são a forma como as pessoas realizam o trabalho e podem ser ilustradas como uma série de etapas que precisam ser concluídas sequencialmente (por exemplo na publicação de um post, você ou as pessoas envolvidas precisam escrever, editar, revisar e por fim publicar – de uma forma bem simples).

Contudo, o fluxo de trabalho não pode ser confundido com uma tarefa ou com várias tarefas juntas, pois isso seria um processo. Podemos dizer então, que o fluxo de trabalho é uma cadeia de tarefas que acontecem em uma sequência, além de ser algo que você faz regularmente.

Mas Qual a Diferença Entre Fluxo de Trabalho e Processos?

Os processos em suma são uma sequência de atividades, que são subdivididas em tarefas organizadas de maneira lógica com o objetivo de entregar um produto, serviço, decisão, informação ou outra saída.

A cadeia de processos visa agregar valor à entrega final. Se a diferença positiva entre valor e os custos de produção/execução for grande, maior será o lucro/valor para a empresa, e quanto mais otimizado e melhorado o processo, melhor.

É nesse momento que o fluxo de trabalho e os processos se relacionam, uma vez que esse primeiro é uma ferramenta que melhora os processos da organização.

Podemos dizer que o fluxo de trabalho tem um conjunto de tecnologias e ferramentas que fazem com que os dados, informações e atividades sigam adequadamente pela organização para que os colaboradores sigam sua sequência e realizem procedimentos e atividades que facilitem o alcance de seus objetivos.

Quais as Principais Vantagens do Fluxo do Trabalho?

Existem várias vantagens, podemos citar algumas:

– Redução de custos e diminuição de desperdícios;
– Aumento da eficiência e eficácia dos processos;
– Maior transparência no uso e processamento de informações;
– Aumento da colaboração entre os membros do seu time e da equipe;
– Melhoria contínua dos processos.

E Como o Apache Airflow Ajuda em Tudo Isso?

Como foi dito lá em cima, ele é uma plataforma de gerenciamento de Fluxo de Trabalho, que vem permitir programar, agendar e monitorar esses fluxos. Em seu site, são apresentados seus princípios:

– Escalável (arquitetura modular, está preparado para escalar fluxos até o infinito);

– Dinâmico (Os pipelines são configurando usando Python permitindo geração dinâmica de pipelines – Não deixe de ler o post da Tabata sobre Pipelines);

– Extensível (Define seus operados, executores);

– Elegante (Seus pipelines são enxutos e explícitos);

– Cheio de recursos (muitos deles estudamos aqui na DSA): Você pode usar Python, possui uma interface amigável, permite uma enorme variedade de integrações (apenas para citar algumas: AWS DynamoDB, Apache Hive, AWS S3, Apache Sqoop, Machine Learning Engine, Hadoop HDFS, Cassandra, AutoML, Redshift, Azure, Apache Spark, Apache Pig, Amazon EC2, Google Spreadsheet, MongoDB, MySQL, Docker, Microsoft SQL Server, HTTP, Databrinks, PostgreSQL, Google Drive, JDBC, Oracle, SQLite, Kubernetes, SMTP, entre outros);

E Porque o Apache Airflow Está Vinculado com a FAD?

Como já foi anunciado, no curso 4 – Design e Automação de Pipelines de Dados uma das ferramentas usadas será o Airflow, onde o aluno irá implementar estratégias de Enterprise Data Operations para um novo paradigma de gestão de dados, construindo fluxos de automação de coleta e consumos de dados em lote, em tempo real. Isso será feito no Projeto 4 – Pipeline de Automação com SageMaker e Airflow. 

É isso… e que venha a FAD (Formação Arquiteto de Dados)!

Referências:

Apache Airflow

O Que é Workflow?

Seus Dados em um Único Lugar com AirFlow


Este artigo foi produzido por um dos alunos da DSA, o Daniel Duarte, e compartilhado na timeline da Comunidade DSA em nosso portal. O Daniel e outros alunos tiveram a iniciativa de produzir alguns resumos para ajudar aqueles que estão começando agora sua jornada e assim compartilhar conhecimento. Isso não é maravilhoso? Sim, nós da DSA também achamos. E por isso decidimos compartilhar em nosso Blog para ajudar também outras pessoas.

Parabéns Daniel.

Daniel chegou à DSA em Julho de 2019. Logo adquiriu a Formação Cientista de Dados e começou os estudos. Com o tempo foi evoluindo no aprendizado e participando da Comunidade DSA. Mantemos em nosso portal uma Comunidade que visa ser diferente da maioria. Criamos um ambiente não-tóxico, no qual o objetivo não é ficar brigando, criticando, xingando ou discutindo temas que não fazem as pessoas crescer e muito menos difundir fake news. Nossa Comunidade é saudável, preza pelo compartilhamento de conhecimento e onde os alunos podem participar sem medo de serem massacrados pelos que se consideram “donos da verdade e do conhecimento”. Aqui na DSA estamos todos aprendendo e isso cria um ambiente muito amigável principalmente para quem está começando.

E então o Daniel adquiriu a Formação IA Aplicada à Medicina, começou a estudar RPA (Automação Robótica de Processos) e agora se matriculou na Formação Arquiteto de Dados. Daniel também participou do Programa de Mentoria em Data Science Entre os Alunos DSA.