Christopher Harms, autor do blog NEUROTROPH, descreveu de forma clara e objetiva como Psicólogos podem se tornar Cientistas de Dados. Ele mesmo fez o caminho. Como é comum a pergunta se profissionais que não tenham background em exatas podem se tornar Cientistas de Dados, consideramos o tema relevante e trazemos para você na íntegra e em português. O link do post original em inglês está ao final do artigo.

Aproveite a leitura.


Muitos blogs e podcasts discutem a questão de como iniciar a carreira em Data Science. Na minha experiência, os Cientistas de Dados vêm principalmente de ciência da computação, física ou estatística. Cientistas Sociais ainda não são comuns entre os Cientistas de Dados – mas acredito que em muitos contextos comerciais, Cientistas Sociais e Psicólogos podem fornecer uma perspectiva muito necessária para a análise de dados.

Embora teorias psicológicas, métodos e estatísticas forneçam um bom ponto de partida para atividades em Ciência de Dados, a maioria dos Cientistas Sociais precisará aprender e adotar habilidades adicionais. Neste post, enfatizo o que acho que eles precisam aprender se pretendem seguir uma carreira orientada por dados, o que as pessoas sofisticadas chamam de “Data Science”.

O termo “Ciência de Dados” ainda é amplamente utilizado e pode significar qualquer coisa, desde “colocar dados no Excel” até “usar testes t” ou “desenvolver uma rede neural profunda para Visão Computacional”. Uso o termo principalmente para designar todo o processo de coleta de dados, preparação e mesclagem de dados usando ferramentas técnicas e estatísticas, analisando dados (por inferência ou previsão) e visualizando os resultados de uma maneira compreensível e acessível. Essa definição ainda é ampla, mas mostra os diferentes conjuntos de habilidades necessárias.

Um único Cientista de Dados pode não ser especialista em todos esses domínios; portanto, uma equipe de Ciência de Dados precisa ter diversas habilidades e conhecimentos. Psicólogos e Cientistas Sociais podem trazer uma compreensão valiosa dos dados, especialmente se os dados a serem analisados ​​vierem de seres humanos (por exemplo, dados comportamentais, respostas de pesquisas, dados de redes sociais).

O conhecimento psicológico pode ajudar a identificar e operacionalizar variáveis ​​relevantes para a questão de negócios. Além disso, seu conhecimento estatístico – especialmente no domínio da psicometria – por exemplo modelos de equações estruturais – ajuda a entender os dados coletados. Fazer previsões usando redes neurais é apenas uma parte de uma solução de Ciência de Dados. Em muitos casos do mundo real, os clientes comerciais também querem entender como precisam se adaptar ao comportamento e às necessidades de seus clientes. Assim, você precisa entender os dados, as inferências e as previsões.

Machine Learning e IA são apenas um conjunto de ferramentas na caixa de ferramentas de um Cientista de Dados. Embora sejam computacionalmente eficientes e, às vezes, superiores em termos de previsão fora da amostra, muitos algoritmos de aprendizado de máquina aplicam técnicas estatísticas e, em muitos casos, as ferramentas estatísticas são mais adequadas para fornecer informações sensíveis. No entanto, a primeira pergunta na etapa de análise é encontrar a ferramenta certa para a pergunta em questão. Às vezes, é uma rede neural para prever segmentos de clientes e, às vezes, é um modelo de equação estrutural para investigar as relações entre as respostas da pesquisa. As abordagens não são mutuamente exclusivas e podem se beneficiar aprendendo umas com as outras.

E o Que Aprender?

Então, se você é um Cientista Social e gosta de analisar dados, o que deve aprender a se tornar um Cientista de Dados? Confira abaixo.

Aprender Linguagem R ou Linguagem Python

R é o software estatístico mais versátil. Há uma tonelada de pacotes diferentes disponíveis gratuitamente para realizar praticamente qualquer análise. Se você é proficiente em R, será bastante fácil aprender Python, se necessário (e vice-versa). Em outras palavras: aprenda pelo menos uma linguagem de programação, de script (Python) ou Estatística (R).

Por que não começar agora mesmo com o curso gratuito Python Fundamentos Para Análise de Dados?

Aprofundar Suas Habilidades Estatísticas

A maioria dos cursos de psicologia exige que você aprenda ferramentas estatísticas básicas. Mas o valor-p pode não significar o que você pensa necessariamente. Portanto, você deve ler sobre fundamentos estatísticos e modelagem estatística. Eu gosto de ver o conhecimento básico de estatística bayesiana, mas também modelagem hierárquica e modelos lineares generalizados em uma estrutura de máxima verossimilhança são conhecimentos relevantes. Isso permitirá que você entenda rapidamente outras abordagens e relacione as técnicas de Aprendizado de Máquina com os fundamentos estatísticos. Para o trabalho aplicado, raramente é necessário voltar à matemática.

Se quiser começar agora mesmo desde o básico e com aplicações em R, SAS e Python, recomendamos: Formação Análise Estatística Para Cientistas de Dados.

Compreender Dados e Aprender Linguagem SQL

Para muitos estudantes, dados significa ter participantes em linhas e variáveis em colunas. Mas esta é apenas uma maneira de representar dados. Mesmo que cada variável tenha sua própria linha, ainda são dados – apenas outra representação. Embora os dados organizados sejam geralmente uma boa regra para armazenar e processar dados, há casos em que outras representações são úteis para executar tarefas com eficiência.

Os bancos de dados SQL e relacionais podem não ser as ferramentas que você realmente usa, mas entender JOIN, UNION e o poder dos bancos de dados relacionais ajuda muito a entender representações de dados e como os dados podem ser acessados com eficiência (a propósito, ter arquivos de dados SPSS não é eficiente).

Aqui na DSA temos cursos de SQL. Acesse o catálogo completo de cursos aqui.

Entender os Desafios dos Negócios

Na Ciência de Dados aplicada, você precisará responder a perguntas de negócios. Essas não são respondidas por um procedimento estatístico, mas pela interpretação dos resultados de sua análise. Você precisa entender o que seu cliente deseja saber e quais dados são relevantes para esta pergunta. Este é o ambiente geral em que você conduzirá sua análise. Você será capaz de aprender isso trabalhando ou realizando estágios, pensando e perguntando continuamente aos colegas sobre o assunto. Se você é um júnior, certifique-se de ter a mente aberta e aprenda com a experiência de seus colegas. Crie um portfólio de projetos para desenvolver suas habilidades.

Este último ponto é especialmente crucial se você não estiver trabalhando em um departamento corporativo. Muitas consultorias de Ciência de Dados oferecem algumas soluções de algoritmo ou aprendizado de máquina, mas não fornecem uma resposta elaborada no idioma de seus clientes. Na minha experiência, isso afastou muitas empresas da implementação efetiva da tomada de decisão baseada em dados. E também ajudará você a entender melhor o desafio e, assim, otimizar sua análise em relação ao objetivo de seu trabalho.

Se você tiver habilidades e recursos relevantes para adicionar, fique à vontade para adicioná-los nos comentários!

Original em inglês: From Psychologist to Data Scientist

Outras Referências:

A Case For Data Science In Psychology

Equipe DSA