Data Science é uma área multidisciplinar com três pilares principais: Matemática e Estatística, Ciência da Computação e Conhecimento de Negócio.

A Estatística é uma habilidade fundamental que os Cientistas de Dados usam todos os dias. É o ramo da Matemática que nos permite coletar, descrever, interpretar, visualizar e fazer inferências sobre os dados. Cientistas de Dados usam Estatística para análise de dados, projeto de experimentos e modelagem estatística.

A Estatística também é essencial para o aprendizado de máquina (Machine Learning). Usamos Estatística para entender os dados antes de treinar um modelo. Quando coletamos amostras de dados para treinar e testar nossos modelos, precisamos empregar técnicas estatísticas para garantir a divisão correta. Ao avaliar o desempenho de um modelo, precisamos da Estatística para avaliar a variabilidade das previsões e avaliar a precisão.

Essas são apenas algumas das maneiras como a Estatística é empregada pelos Cientistas de Dados. Se você está estudando Data Science é essencial desenvolver um bom entendimento sobre essas técnicas estatísticas.

Esta é uma área onde os livros podem ser uma ferramenta de estudo particularmente útil, pois explicações detalhadas dos conceitos estatísticos são essenciais para a sua compreensão. E também temos a Formação Análise Estatística Para Cientistas de Dados aqui na DSA com exemplos práticos e muitos projetos.

Mas aqui estão 5 Livros Para Aprender Estatística Para Data Science.

1- Think Stats

Autor: Allen B. Downey

book2

Adequado para: Iniciantes.

A introdução deste livro afirma que “este livro é sobre como transformar dados em conhecimento” e faz um ótimo trabalho ao introduzir conceitos estatísticos por meio de exemplos práticos de análise de dados.

É um livro que cobre apenas os conceitos diretamente relacionados à Ciência de Dados e também contém muitos exemplos de código escritos em Python. Ele é voltado principalmente para programadores e depende do uso dessa habilidade para compreender os principais conceitos estatísticos introduzidos. Este livro é, portanto, ideal para aqueles que já têm pelo menos um domínio básico de Linguagem Python. Confira aqui o curso gratuito Python Fundamentos Para Análise de Dados.

2- Practical Statistics for Data Scientists

Autores: Peter Bruce e Andrew Bruce

book1

Adequado para: Iniciantes.

A Estatística é um campo muito amplo e apenas parte dela é relevante para a Ciência de Dados. Este livro é extremamente bom em cobrir apenas as áreas relacionadas à Ciência de Dados. Portanto, se você está procurando por um livro que lhe proporcionará conhecimento o suficiente para praticar Data Science, este livro é definitivamente o que você deve escolher.

Ele traz muitos exemplos práticos (escritos em R), fornece explicações muito claras para quaisquer termos estatísticos usados e também links para outros recursos para leitura posterior.

Em geral, este é um livro excelente para cobrir o básico e é adequado para um iniciante absoluto.

3- Bayesian Methods for Hackers

Autor: Cameron Davidson-Pilon

book3

Adequado para: Não estatísticos com conhecimento prático em Linguagem Python.

A inferência Bayesiana é um ramo da Estatística que trata da compreensão da incerteza. Como um Cientista de Dados, a incerteza é algo que você precisará modelar regularmente. Se você estiver criando um modelo de aprendizado de máquina, por exemplo, precisará ser capaz de entender a incerteza em torno das previsões que seu modelo está entregando.

Os métodos Bayesianos podem ser bastante abstratos e difíceis de entender. Este livro dirigido firmemente a programadores (então conhecimento em Python é um pré-requisito), é o único material que explica esses conceitos de uma maneira simples o suficiente para um não estatístico entender. É, portanto, uma excelente introdução prática a este assunto.

4- Statistics in Plain English

Autor: Timothy C. Urdan

book4

Adequado para: Não estatísticos com qualquer nível de experiência em programação.

Este livro cobre técnicas estatísticas gerais e não apenas aquelas destinadas a Cientistas de Dados ou programadores. No entanto, é escrito em um estilo muito simples e cobre uma ampla gama e profundidade de conceitos estatísticos de uma forma muito simples de entender.

O livro foi originalmente escrito para alunos que estudam um curso não baseado em matemática, em que é necessária uma compreensão de estatística, como as ciências sociais.

Portanto, cobre teoria suficiente para entender as técnicas, mas não assume uma base matemática existente. É, portanto, um livro ideal para ler se você está entrando na Ciência de Dados sem um diploma na área de exatas.

5- Computer Age Statistical Inference

Autores: Bradley Efron e Trevor Hastie

book5

Adequado para: Alguém com um conhecimento básico de Estatística e notação estatística. Nenhuma programação necessária.

Este livro cobre a teoria por trás da maioria dos algoritmos populares de aprendizado de máquina usados por Cientistas de Dados atualmente. Ele também fornece uma introdução completa às metodologias de inferência estatística Bayesiana e Frequentista.

A segunda metade do livro, que aborda algoritmos de aprendizado de máquina, é um dos melhores materiais sobre esse assunto. Cada explicação é detalhada e usa exemplos práticos, como a classificação de dados de spam, o que facilita a digestão de ideias bastante complexas. O livro é mais adequado para aqueles que já cobriram os fundamentos da estatística para análise de dados e estão familiarizados com algumas notações estatísticas.

Boa leitura.

Equipe DSA