Datasets Públicos Para Portfólio de Projetos em Data Science
Aprender Data Science não é fácil. Se alguém disser que é, corra para o mais longe que você puder dessa pessoa, pois ela não faz ideia do que está falando.
Aprender Data Science leva tempo, requer dedicação e o aprendizado deve ocorrer com a utilização de material organizado e estruturado, com suporte para as dúvidas comuns no começo da jornada. Mas pode ser muito recompensador trabalhar com Data Science, pois os salários são acima da média, a empregabilidade é alta e há chance de trabalhar em empresas de qualquer setor.
E como você consegue sua tão sonhada vaga no mercado? Como você demonstra aos recrutadores o conhecimento que vem adquirindo? Montar um portfólio de projetos pode ser um excelente caminho.
Mas qualquer projeto de Data Science tem como matéria-prima, dados. Ok, temos então mais um desafio a ser superado: como obter dados para montar um portfólio de projetos? Aqui está a resposta, neste artigo.
Vamos listar 5 fontes de dados que permitem você fazer o download e usar gratuitamente diversos datasets públicos, que podem ser usados como ponto de partida em seus projetos de Data Science.
A propósito: lembre-se sempre de referenciar suas fontes de dados. Não use dados privados e nem use dados sem a devida autorização. Estamos na era da LGPD (Lei Geral de Proteção de Dados) além de outras leis que regem o uso de dados ao redor do mundo.
Os datasets disponíveis aqui são públicos e podem ser usados livremente, mas certifique-se de checar os termos de uso.
1- Scikit-Learn
O Scikit-Learn é o principal framework Python para construção de modelos de aprendizado de máquina e contém várias APIs para diversos conjuntos de dados, desde dados simples, passando por dados reais, até a geração de dados para um propósito específico. Aqui estão os links para você:
2- NLTK
NLTK é um pacote Python específico para o trabalho de Processamento de Linguagem Natural. O NLTK também fornece conjuntos de dados de texto que você pode usar para seus projetos.
Existem dezenas de conjuntos de dados de texto do NLTK disponíveis para uso. Consulte a lista completa aqui: NLTK Corpora
3- Statsmodels
Statsmodels é um pacote Python para modelagem estatística, mas o pacote também fornece vários conjuntos de dados que podem ser usados em seus projetos. Aqui a lista completa: Statsmodels Datasets
4- Pydataset
Pydataset é um pacote Python que fornece vários conjuntos de dados de código aberto. Os datasets são básicos, mas podem ser um bom ponto de partida para um projeto ou para um experimento com uma nova biblioteca de Machine Learning. Confira o pacote aqui: Pydataset
5- Datasets
Datasets é um pacote Python da HuggingFace criado especificamente para acessar e compartilhar conjuntos de dados.
O que é ótimo no pacote datasets é que, não importa o tamanho do conjunto de dados, você pode processar o conjunto de dados com leituras de cópia zero sem nenhuma restrição de memória, pois o pacote datasets usa o Apache Arrow em segundo plano.
Você pode examinar o hub HuggingFace do pacote datasets para obter a lista completa com milhares de conjuntos de dados: Datasets
E se quiser conhecer muitas outras fontes de dados disponíveis publicamente para projetos em Linguagem Python, confira aqui:
Formação Linguagem Python Para Data Science
Equipe DSA
Estou a amar o curso, muito obrigado DSA por essa oportunidade.
Obrigado
Surpreendente! Supera quaisquer expectativas. Super recomendo. Didática perfeita!
o Kaggle tbm possui uma vasta lista de datasets
https://www.kaggle.com/datasets
10! O material disponível pela DSA é de alto nível! Como diz a chamada “é outro nível!”. Amando estudar com a DSA. =)
Um dos módulos mais interessantes do curso de Fundamentos de Linguagem Python p/ Análise de Dados/Data Science.
Esse curso é muito mais do que eu esperava… superou todas as minhas expectativas….e quanto aprendizado!!!!
Estou fascinado com o curso e principalmente com a didática do professor Daniel. Quanto conteúdo, quanto aprendizado. Obrigado DAS por nos proporcionar essa oportunidade de forma gratuita.
Com certeza farei outros cursos pagos.
Excelente material como fonte de estudos, parabéns.
Realmente, são fontes de informação para guardar nos Favoritos e lembrar sempre. Obrigado DSA por compartilhar
Ciência de Dados, espetacular me vou dedicar em aprofundar estes conhecimentos, em adquirir capacitação e ser um analista de dados de referência em Angola.
Surpreendente! Supera todas as expectativas.