O Microsoft Team Data Science Process (TDSP) é uma metodologia de Ciência de Dados ágil e iterativa para fornecer soluções de análise preditiva e aplicativos inteligentes de maneira eficiente. O TDSP ajuda a melhorar a colaboração e o aprendizado da equipe de Data Science. Ele contém uma destilação das melhores práticas e estruturas da Microsoft e de outras empresas do setor que facilitam a implementação bem-sucedida de iniciativas de Ciência de Dados. O objetivo é ajudar as empresas a perceber plenamente os benefícios de seu programa de análise. O TDSP vai estar presente em nosso mais novo programa de capacitação profissional, a Formação Desenvolvedor Microsoft Para Data Science e IA. Vejamos então o que é o TDSP.

O Team Data Science Process (TDSP) fornece um ciclo de vida para estruturar o desenvolvimento de projetos de Ciência de Dados. O ciclo de vida descreve os passos, do início ao fim, que os projetos geralmente seguem quando são executados.

Se você estiver usando outro ciclo de vida para projetos de Data Science, como o CRISP-DM, o KDD ou um processo personalizado da sua própria empresa, ainda poderá usar o TDSP baseado em tarefa no contexto desses ciclos de vida de desenvolvimento. Em alto nível, essas diferentes metodologias têm muito em comum.

O TDSP foi projetado para projetos de Ciência de Dados fornecidos como parte de aplicativos inteligentes. Esses aplicativos implantam modelos de aprendizado de máquina ou inteligência artificial para análise preditiva. Projetos exploratórios de dados ou projetos de análise ad-hoc também podem se beneficiar do uso desse processo. Mas nesses casos, algumas das etapas descritas podem não ser necessárias.

O ciclo de vida do TDSP descreve os principais estágios que os projetos de Data Science normalmente executam, geralmente de maneira iterativa:

– Compreensão do Problema de Negócio
– Aquisição e Compreensão de Dados
– Modelagem
– Deployment (Implantação)
– Aceitação do cliente

Esses estágios são descritos na imagem abaixo (clique na imagem para visualizar em tamanho maior):

Microsoft Team Data Science Process

Fonte: Microsoft

Descrito no site da Microsoft, como “uma metodologia de Ciência de Dados ágil e iterativa para fornecer soluções de análise preditiva e aplicativos inteligentes de forma eficiente”, o ciclo de vida do TDSP é semelhante ao CRISP-DM e sua coordenação de processos usa vários elementos do Scrum Agile, incluindo artefatos, backlog, sprints e papéis de equipe claramente definidos. Pontos de verificação são incorporados ao longo dos cinco processos iterativos:

Compreensão do Problema de Negócio: consiste em definir objetivos e identificar fontes de dados. A definição de objetivos é uma série de processos voltados ao negócio para identificar as principais variáveis ​​de negócios que precisam ser previstas e definir questões não ambíguas. Ele também configura o projeto definindo a equipe do projeto, estabelecendo métricas de sucesso e redigindo um termo de abertura do projeto. Os dados são identificados com base nas necessidades da definição do problema.

Aquisição e Compreensão de Dados: O objetivo é produzir um “conjunto de dados limpo e de alta qualidade” e desenvolver uma arquitetura de solução através de três tarefas: ingestão de dados, exploração de dados e configuração de um pipeline de dados.

Modelagem: O resultado desse processo é identificar recursos ideais de dados e criar um modelo de aprendizado de máquina que seja preciso e adequado para a produção. Esta fase consiste em três tarefas: engenharia de recursos, treinamento de modelo e avaliação de modelo.

Deployment (Implantação): o objetivo único da Implantação é “implantar modelos em um ambiente de produção para a aceitação final do usuário”, expondo modelos a uma interface de API aberta.

Aceitação do Cliente: A fase final verifica se as necessidades das partes interessadas estão satisfeitas. As duas tarefas principais incluem a validação do sistema e a transferência do projeto. Um relatório de saída documenta o encerramento do projeto.

Definição de Equipe

O TDSP aborda a fragilidade da falta de definição da equipe no CRISP-DM definindo quatro funções (não necessariamente mutuamente exclusivas), suas responsabilidades e coordenação durante cada fase do ciclo de vida do projeto:

– Gerente de grupo: supervisiona toda a unidade de ciência de dados
– Líder de equipe: gerencia a equipe de ciência de dados
– Líder do projeto: gerencia atividades diárias no projeto especificado
– Colaborador individual do projeto: “membro da equipe de desenvolvimento” do Scrum; inclui cientista de dados, analista de negócios, engenheiro de dados, etc.

O diagrama a seguir fornece uma visualização das tarefas (em azul) e artefatos (em verde) associados a cada estágio do ciclo de vida (no eixo horizontal) para essas funções (no eixo vertical). Clique na imagem para visualizar em tamanho maior.

Team Data Science Process

Fonte: Microsoft

Estrutura de Projeto Padrão, Infraestrutura, Ferramentas e Utilitários

A Microsoft também fornece documentos de projeto padronizados, como cartas de projetos e relatórios de dados, infraestrutura e recursos para projetos de Ciência de Dados e ferramentas e utilitários para execução de projetos. O uso de alguns desses artefatos também é mapeado para as cinco fases. As recomendações para alguns desses utilitários e a infraestrutura analítica compartilhada e distribuída são uma promoção para os recursos da Microsoft, mas, em última análise, o TDSP geral pode ser aplicado a outros ambientes.

Avaliação

Se você combinar Agile com o CRISP-DM e incluir algumas práticas modernas de engenharia de software, obterá algo parecido com o TDSP. O ciclo de vida espelha o CRISP-DM e seu processo incorpora conceitos ágeis, como planejamento de sprint, recursos, histórias de usuários e processos projetados para trabalhar com ferramentas de rastreamento ágeis populares, como Jira ou Rally. Devido ao seu foco em alavancar o aprendizado de máquina, Big Data, tecnologias baseadas em nuvem e práticas de engenharia de software, como controle de versão e pipelines contínuos de CI / CD, o TDSP poderia ser considerado uma versão “modernizada” do CRISP-DM. Além disso, devido ao foco em sua equipe, o TDSP é uma abordagem de gerenciamento de projetos mais abrangente.

Em suma, se você está procurando uma metodologia ágil baseada em equipe para Data Science que incorpore ferramentas modernas, mantendo-se fiel ao conceito geral CRISP-DM, recomendamos o site da Microsoft para explorar o TDSP e ver se faz sentido para sua equipe.


O TDSP vai estar presente no próximo lançamento da Data Science Academy, uma Formação focada em soluções Microsoft para Ciência de Dados:

Formação Desenvolvedor Microsoft Para Data Science e IA

Uma Formação 100% Microsoft. A Formação começa com algo inédito em língua portuguesa: Machine Learning com linguagem C# e ML.NET para aplicações desktop, tudo desde o básico em programação até a construção de modelos de Machine Learning. Na sequência, ele, o desejado, cobiçado, amado: Power BI avançado para aprender a extrair análises customizadas e profissionais.

Depois um mergulho no ambiente em nuvem da Microsoft, o Azure, com 2 cursos completos ensinando em detalhes: Bancos de dados SQL Server, NoSQL, Data Lake, IoT, Cognitive Services, Visão Computacional, Processamento de Linguagem Natural, Chatbots, Sistemas de Recomendação e muito mais. Serão 4 cursos e um projeto final:

Curso 1 – Programação e Machine Learning com C#
Curso 2 – Power BI Avançado Para Análise de Dados
Curso 3 – Armazenamento e Processamento em Nuvem com Microsoft Azure
Curso 4 – Cloud Computing para Data Science e Inteligência Artificial
Projeto Final

Faça seu cadastro gratuito em nosso portal e fique atento ao seu e-mail para ser avisado sobre o lançamento em primeira mão:

www.datascienceacademy.com.br

Referências:

Team Data Science Process Documentation

The Team Data Science Process lifecycle

What is the Team Data Science Process?