Já não é novidade para ninguém que o portfólio de projetos é requisito básico para quem deseja uma vaga em Ciência de Dados.

Cada vez mais empresas estão usando o portfólio de projetos para seleção de candidatos. A questão é até simples: “se o candidato não tem disciplina para trabalhar em seus próprios projetos, como pretende ter disciplina para trabalhar nos projetos da empresa?”.  

Não há desculpa para não ter um portfólio de projetos. Por isso que em todas as nossas Formações aqui na DSA já são quase 300 projetos práticos.

Neste post listamos para você 7 Bibliotecas de Ciência de Dados Para Construir Seu Portfólio de Projetos em 2022. São bibliotecas que o ajudarão a construir um portfólio de projetos profissional e que serão usadas nos projetos nos quais você trabalhar em sua empresa ou no seu cliente.

Aproveite a leitura e experimente as bibliotecas.

1- Plotly

O Plotly cresceu muito nos últimos anos e em alguns casos pode ser mais fácil do que a dupla dinâmica de visualização em Python (Matplotlib e Seaborn).

Hoje o Plotly está integrado a muitas bibliotecas de código aberto populares como PyCaret e Optuna como uma biblioteca de visualização. Você pode esperar que cresça bastante em 2022.

2- Streamlit

O Streamlit torna incrivelmente fácil criar aplicativos web de dados em código Python puro, geralmente em algumas linhas de código. 

Ele se integra muito bem com a pilha de Ciência de Dados moderna. Por exemplo, possui comandos de linha única para exibir visuais interativos do Plotly (ou Bokeh e Altair), Pandas DataFrames e muitos outros tipos de mídia. Ele também é apoiado por uma enorme comunidade de código aberto, onde as pessoas contribuem constantemente com componentes personalizados para a biblioteca usando JavaScript. O Streamlit está presente em vários cursos aqui na DSA, sendo usado principalmente para entrega de um projeto de análise de dados.

3- SHAP

A IA explicável (XAI) está na moda. Não importa o quão bons sejam os resultados, as empresas e departamentos de negócios estão se tornando rigorosos sobre as soluções de Machine Learning (ML) e querem entender o que faz o modelo de ML funcionar. Em outras palavras, eles querem modelos de caixa branca onde tudo seja claro como a luz do dia.

Uma das bibliotecas que tentam resolver esse problema é o SHapely Additive exPlanations (SHAP). As ideias por trás do SHAP são baseadas em matemática sólida da teoria dos jogos. Usando os valores de Shapley, a biblioteca pode explicar as previsões gerais e individuais de muitos modelos, incluindo redes neurais. Usamos o SHAP intensamente no curso Machine Learning Para Medicina.

4- UMAP

O UMAP foi introduzido em 2018 como um terreno comum entre esses dois algoritmos dominantes de redução de dimensionalidade e visualização. Com o algoritmo Uniform Manifold Approximation and Projection (UMAP), você obtém todos os benefícios de velocidade do PCA (Principal Componente Analysis) e ainda preserva o máximo possível de informações sobre os dados, muitas vezes resultando em belas visualizações.

A documentação do UMAP sugere algumas aplicações fascinantes além da redução de dimensionalidade, como detecção de valores discrepantes muito mais rápida e precisa em conjuntos de dados de alta dimensão.

Em termos de escala, conforme o tamanho do conjunto de dados aumenta, a velocidade do UMAP se aproxima cada vez mais da velocidade do PCA. 

5- Catboost

Quando falamos sobre gradiente boosting, o XGBoost quase sempre vem à mente, como um dos mais poderosos algoritmos de Machine Learning. Mas o Catboost vem conquistando cada vez mais adeptos.

Uma das principais razões para essa tendência é que o Catboost pode superar o XGBoost em termos de velocidade e consumo de memória em muitos benchmarks. 

O XGBoost está mais popular do que nunca e ainda pode bater facilmente o Catboost em termos de desempenho, se for bem ajustado. Mas o fato de que essa biblioteca muitas vezes pode obter resultados melhores com parâmetros padrão e são apoiadas por empresas de vários bilhões (Microsoft e Yandex) a torna uma escolha muito atraente em 2022 como seu framework de ML principal.

6- PyCaret

Você sabe por que as bibliotecas AutoML estão se tornando populares? Isso se deve à nossa inclinação profundamente enraizada para a preguiça. Aparentemente, muitos Engenheiros de Machine Learning agora estão muito ansiosos para abandonar etapas intermediárias do fluxo de trabalho de ML e permitir que o software o automatize.

PyCaret é uma daquelas bibliotecas AutoML com uma abordagem de baixo código para a maioria das tarefas de ML que executamos manualmente. Ele tem recursos dedicados para análise, deploy e combinação de modelos não vistos em muitos outros frameworks de ML.

Com o recente lançamento de seu novo módulo de série temporal, a PyCaret atraiu ainda mais atenção para si mesma, e deve obter um avanço considerável em 2022.

7- Optuna

Esta biblioteca é um framework de ajuste de hiperparâmetros usando métodos bayesianos de próxima geração. E vem ganhando cada vez mais popularidade.

E isso não é à toa.

Ele preenche todas as caixas em termos da estrutura de ajuste perfeita: pesquisa inteligente usando estatísticas bayesianas, capacidade de pausar, continuar ou adicionar mais testes de pesquisa em um único experimento, visuais para analisar os parâmetros mais críticos e as conexões entre eles, ajuste de qualquer modelo – redes neurais, modelos baseados em árvore em todas as bibliotecas de ML populares e qualquer outro modelo que você veja no Sklearn.

Equipe DSA

Referências:

Todas as Formações da DSA

8 Booming Data Science Libraries You Must Watch Out For in 2022