Datasets Públicos Para Portfólio de Projetos em Data Science

Aprender Data Science não é fácil. Se alguém disser que é, corra para o mais longe que você puder dessa pessoa, pois ela não faz ideia do que está falando.

Aprender Data Science leva tempo, requer dedicação e o aprendizado deve ocorrer com a utilização de material organizado e estruturado, com suporte para as dúvidas comuns no começo da jornada. Mas pode ser muito recompensador trabalhar com Data Science, pois os salários são acima da média, a empregabilidade é alta e há chance de trabalhar em empresas de qualquer setor.

E como você consegue sua tão sonhada vaga no mercado? Como você demonstra aos recrutadores o conhecimento que vem adquirindo? Montar um portfólio de projetos pode ser um excelente caminho.

Mas qualquer projeto de Data Science tem como matéria-prima, dados. Ok, temos então mais um desafio a ser superado: como obter dados para montar um portfólio de projetos? Aqui está a resposta, neste artigo.

Vamos listar 5 fontes de dados que permitem você fazer o download e usar gratuitamente diversos datasets públicos, que podem ser usados como ponto de partida em seus projetos de Data Science.

A propósito: lembre-se sempre de referenciar suas fontes de dados. Não use dados privados e nem use dados sem a devida autorização. Estamos na era da LGPD (Lei Geral de Proteção de Dados) além de outras leis que regem o uso de dados ao redor do mundo.

Os datasets disponíveis aqui são públicos e podem ser usados livremente, mas certifique-se de checar os termos de uso.

1- Scikit-Learn

O Scikit-Learn é o principal framework Python para construção de modelos de aprendizado de máquina e contém várias APIs para diversos conjuntos de dados, desde dados simples, passando por dados reais, até a geração de dados para um propósito específico. Aqui estão os links para você:

2- NLTK

NLTK é um pacote Python específico para o trabalho de Processamento de Linguagem Natural. O NLTK também fornece conjuntos de dados de texto que você pode usar para seus projetos.

Existem dezenas de conjuntos de dados de texto do NLTK disponíveis para uso. Consulte a lista completa aqui: NLTK Corpora

3- Statsmodels

Statsmodels é um pacote Python para modelagem estatística, mas o pacote também fornece vários conjuntos de dados que podem ser usados em seus projetos. Aqui a lista completa: Statsmodels Datasets

4- Pydataset

Pydataset é um pacote Python que fornece vários conjuntos de dados de código aberto. Os datasets são básicos, mas podem ser um bom ponto de partida para um projeto ou para um experimento com uma nova biblioteca de Machine Learning. Confira o pacote aqui: Pydataset

5- Datasets

Datasets é um pacote Python da HuggingFace criado especificamente para acessar e compartilhar conjuntos de dados.

O que é ótimo no pacote datasets é que, não importa o tamanho do conjunto de dados, você pode processar o conjunto de dados com leituras de cópia zero sem nenhuma restrição de memória, pois o pacote datasets usa o Apache Arrow em segundo plano.

Você pode examinar o hub HuggingFace do pacote datasets para obter a lista completa com milhares de conjuntos de dados: Datasets

E se quiser conhecer muitas outras fontes de dados disponíveis publicamente para projetos em Linguagem Python, confira aqui:

Fundamentos de Linguagem Python – Do Básico a Aplicações de IA

Equipe DSA

Relacionado

Inscrever-se

35 Comentários

mais recentes

mais antigos Mais votado

Luiza Mendonça Cardoso

5 meses atrás

Excelente

Responder

Luciana

6 meses atrás

Excelente material.

Aline Baptista

7 meses atrás

ótimo.

Zaqueu Neto

Estou gostando bastente a formação ,obrigado pela oportunidade…

ERICK

Está sendo uma ótima experiência e aprendizado nessas áreas que tenho redirecionado minha transição profissional, e estar sendo muito boa, parabéns DSA!!!

Fernanda Kalonjinji

8 meses atrás

em termos de conhecimentos, vocês são impecáveis, obrigada DSA

Drailton Augusto Ferreira da Costa

9 meses atrás

Muito bom!

Jadson

MARINA

1 ano atrás

Curso incrível. Vou concluir Power BI e o de Python, em sequencia farei a formação de engenheiro de dados.

Lucas Vitor

Top demais! Acabei achando a DSA por acaso na internet e está me clareando muito sobre como funciona a área de Dados! Tenho 30 anos e é muita informação, porém quero me tornar um bom profissional, mesmo já estando um pouco ultrapassado no quesito idade. Abraço e sucesso a todos!

Bruno Gabrielsen

Completando mais um módulo e cada vez mais surpreso com a didática da DSA. obrigado pela oportunidade de conhecer e me fazer demonstrar um interesse pela profissão.

LEDILSON

olha estou muito satisfeito com a qualidade do curso! Estão de parabéns

Marcelo

Python e Databricks são ferramentas muito importantes na revolução dos dados. São ferramentas que trazem muito valor agregado na manipulação dos dados.

FRANK

Muito bom o trabalho de vocês, estão de parabéns ao nos parebenizar com essa possibilidade.

Rachel Sá

Curso sensacional, conteúdo completíssimo.
Não vejo a hora de seguir para o curso de Python.
Obrigada DSA por entregar muito além.

Eder

Mesmo sendo cursos gratuitos são de grande qualidade.

KLeber

Elaine Dias de Brito

Um curso maravilhoso, com uma excelente didática. Um tesouro de conhecimento, parabéns equipe DSA!

CÍNTIA

Adorando o curso e aprendendo muito <3

7 Projetos Python Para Impulsionar Seu Portfólio de Ciência de Dados - Data Science Academy

[…] Datasets Públicos Para Portfólio de Projetos em Data Science […]

Luiz

Conteúdo de grande qualidade, parabéns pela qualidade, tanto dos materiais como dos cursos!

Célio França

Conteúdo muito bom.

KArina BAss

Esse curso é fantástico! Muito esclarecedor e completo.

Raphael

Surpreendente! Supera todas as expectativas.

Martins Jacinto

Ciência de Dados, espetacular me vou dedicar em aprofundar estes conhecimentos, em adquirir capacitação e ser um analista de dados de referência em Angola.

Welber

2 anos atrás

Realmente, são fontes de informação para guardar nos Favoritos e lembrar sempre. Obrigado DSA por compartilhar

Wirley Moraes

Excelente material como fonte de estudos, parabéns.

Cleber William de Jesus Saure

Estou fascinado com o curso e principalmente com a didática do professor Daniel. Quanto conteúdo, quanto aprendizado. Obrigado DAS por nos proporcionar essa oportunidade de forma gratuita.

Com certeza farei outros cursos pagos.