Como um praticante de Ciência de Dados, você pode ter tropeçado em questões relacionadas ao alto uso de Memória RAM / CPU, problemas ao carregar grandes conjuntos de dados, rastrear o progresso de certas funções, formatar código e atualizar pacotes Python.

Neste artigo, você encontrará 5 Pacotes Python Que Todo Cientista de Dados Deve Conhecer para resolver os problemas acima mencionados. Conheça e experimente os pacotes!

1. Joblib

Joblib fornece utilitários para pipelining de jobs Python. Ele também fornece utilitários para salvar e carregar (joblib.dump & joblib.load) objetos Python com mais eficiência (salvar e carregar modelos de Machine Learning, por exemplo). Como alternativa para salvar e carregar objetos Python, você também pode usar o pacote pickle. Mas, por que você deve usar joblib? Porque vai ajudá-lo a acelerar qualquer função usando o método Parallel e é muito mais eficiente do que trabalhar em objetos Python contendo grandes volumes de dados.

Confira exemplos na documentação oficial.

2. Datatable

O Datatable foi iniciado como um kit de ferramentas para executar operações de Big Data (até 100 GB) em uma máquina de nó único, na velocidade máxima possível. Ele está intimamente relacionado ao pacote data.table da linguagem R e tenta imitar seu algoritmo principal e APIs. Atualmente, está no estágio Beta, mas pode ler grandes conjuntos de dados rapidamente e geralmente é mais rápido do que o Pandas. Embora não tenha a flexibilidade que o Pandas oferece, você tem a opção de converter dataframe de tabela de dados em dataframe de pandas em segundos.

Você pode ler mais aqui.

3. Tqdm

Você já desejou ter uma barra de progresso durante a iteração para ter uma estimativa geral do tempo necessário para executar seu loop? Faça instantaneamente seus loops mostrarem um medidor de progresso inteligente – basta envolver qualquer iterável com tqdm e pronto!

Exemplos e documentação aqui.

4. Black

Você às vezes fica com preguiça de escrever código Python bem formatado usando as diretrizes PEP8, mas deseja fazê-lo? Não se preocupe, Black vem em seu socorro. Black é o formatador de código Python. O Black oferece velocidade, determinismo e liberdade que ajusta a formatação. Você economizará tempo e energia mental em assuntos mais importantes.

Exemplos aqui.

5. Pip-Review

Ao manter um ambiente de projeto, torna-se complicado ver quais pacotes têm uma atualização ou se queremos atualizar o ambiente de projeto completo. Pip-review é um novo wrapper do pip que permite gerenciar sem problemas todas as atualizações do PyPI disponíveis.

Documentação aqui.

 

Todos esses pacotes fazem parte das Formações da DSA. Conheça as Formações aqui:

 

quero

 

Referências:

Formação Cientista de Dados

Formação Engenheiro de Machine Learning

5 Python Packages Every Data Scientist Must Know

PyPi – Repositório de Pacotes Python