7 Bibliotecas de Ciência de Dados Para Construir Seu Portfólio de Projetos

Já não é novidade para ninguém que o portfólio de projetos é requisito básico para quem deseja uma vaga em Ciência de Dados.

Cada vez mais empresas estão usando o portfólio de projetos para seleção de candidatos. A questão é até simples: “se o candidato não tem disciplina para trabalhar em seus próprios projetos, como pretende ter disciplina para trabalhar nos projetos da empresa?”.

Não há desculpa para não ter um portfólio de projetos. Por isso que em todas as nossas Formações aqui na DSA já são mais de 300 projetos práticos.

Neste post listamos para você 7 Bibliotecas de Ciência de Dados Para Construir Seu Portfólio de Projetos. São bibliotecas que ajudarão você a construir um portfólio de alto nível e profissional.

Aproveite a leitura e experimente as bibliotecas.

1- Plotly

O Plotly cresceu muito nos últimos anos e em alguns casos pode ser mais fácil do que a dupla dinâmica de visualização em Python (Matplotlib e Seaborn). E o Plotly também está disponível para Linguagem R. Confira aqui a galeria impressionante de gráficos.

Hoje o Plotly está integrado a muitas bibliotecas de código aberto populares como PyCaret e Optuna como uma biblioteca de visualização.

Com o Plotly você consegue criar visualizações de alto nível, deixando seu portfólio ainda mais profissional.

2- Streamlit

O Streamlit torna incrivelmente fácil criar aplicativos web de dados em código Python, geralmente em algumas linhas de código.

Ele se integra muito bem com a pilha de Ciência de Dados moderna. Por exemplo, possui comandos de linha única para exibir visuais interativos do Plotly (ou Bokeh), Pandas DataFrames e muitos outros tipos de mídia.

O Streamlit também é apoiado por uma enorme comunidade de código aberto, onde as pessoas contribuem constantemente com componentes personalizados para a biblioteca usando JavaScript. O Streamlit está presente em vários cursos aqui na DSA, sendo usado principalmente para entrega de projetos de Ciência de Dados.

Você pode incluir no seu portfólio uma Data App com funcionalidades de Machine Learning criada com o Streamlit.

3- SHAP

A IA explicável (XAI – EXplainable Artificial Intelligence) está na moda. Não importa quão bons sejam os resultados, as empresas e departamentos de negócios estão se tornando rigorosos sobre as soluções de Machine Learning (ML) e querem entender o que faz o modelo de ML funcionar.

Em outras palavras, eles querem modelos de caixa branca onde tudo seja claro como a luz do dia.

Uma das bibliotecas que tentam resolver esse problema é o SHapely Additive exPlanations (SHAP). As ideias por trás do SHAP são baseadas em matemática sólida da teoria dos jogos. Usando os valores de Shapley, a biblioteca pode explicar as previsões gerais e individuais de muitos modelos, incluindo redes neurais.

Inclua no seu portfólio não apenas um modelo de Machine Learning criado em Python. Explique também como o modelo chegou às previsões, exatamente como mostramos nos cursos da Formação Cientista de Dados.

4- UMAP

O UMAP foi introduzido em 2018 como um terreno comum entre dois algoritmos dominantes de redução de dimensionalidade e visualização. Com o algoritmo Uniform Manifold Approximation and Projection (UMAP), você obtém todos os benefícios de velocidade do PCA (Principal Componente Analysis) e ainda preserva o máximo possível de informações sobre os dados, muitas vezes resultando em belas visualizações.

A documentação do UMAP sugere algumas aplicações fascinantes além da redução de dimensionalidade, como detecção de valores discrepantes muito mais rápida e precisa em conjuntos de dados de alta dimensão.

Em termos de escala, conforme o tamanho do conjunto de dados aumenta, a velocidade do UMAP se aproxima cada vez mais da velocidade do PCA (principal técnica de redução de dimensionalidade).

5- Catboost

Quando falamos sobre gradiente boosting, o XGBoost quase sempre vem à mente, como um dos mais poderosos algoritmos de Machine Learning. Mas o Catboost vem conquistando cada vez mais adeptos.

Uma das principais razões para essa tendência é que o Catboost pode superar o XGBoost em termos de velocidade e consumo de memória em muitos benchmarks.

O XGBoost está mais popular do que nunca e ainda pode bater facilmente o Catboost em termos de desempenho, se for bem ajustado. Mas o fato de que essa biblioteca muitas vezes pode obter resultados melhores com parâmetros e configuração padrão e é apoiada por empresas de vários bilhões (Microsoft e Yandex) a torna uma escolha muito atraente como seu framework de Machine Learning principal.

6- PyCaret

PyCaret é uma das bibliotecas de AutoML com uma abordagem Low-Code (pouca ou nenhuma programação requerida) para a maioria das tarefas de Machine Learning que executamos manualmente. Ele tem recursos dedicados para análise, deploy e combinação de modelos não vistos em muitos outros frameworks de ML.

Com o recente lançamento de seu novo módulo de série temporal, o PyCaret atraiu ainda mais atenção para si mesmo e deve obter um avanço considerável com foco em Low-Code Machine Learning, ideal para Engenheiros de Machine Learning.

7- Optuna

Esta biblioteca é um framework de ajuste de hiperparâmetros usando métodos bayesianos de última geração. E vem ganhando cada vez mais popularidade.

E isso não é à toa.

Ele preenche todas as lacunas em termos da estrutura de ajuste perfeita: pesquisa inteligente usando estatísticas bayesianas, capacidade de pausar, continuar ou adicionar mais testes de pesquisa em um único experimento, visuais para analisar os parâmetros mais críticos e as conexões entre eles, ajuste de qualquer modelo – redes neurais, modelos baseados em árvore em todas as bibliotecas de ML populares e qualquer outro modelo que você veja no Scikit-Learn.

Criar um portfólio de projetos não significa colocar arquivos em um repositório. Significa criar projetos que agreguem valor para as empresas ao mesmo tempo que você demonstra seu conhecimento.

Equipe DSA

Referências:

Todas as Formações da DSA

8 Booming Data Science Libraries You Must Watch Out For in 2022