O Cientista de Dados Admond Lee publicou um artigo muito interessante. Ele descreveu as 5 Lições Que Aprendeu Em 2 Anos Como Cientista de Dados. Mas o que chamou atenção é que ele descreveu exatamente o que nós ensinamos na DSA há mais de 8 anos. Por conta disso, decidimos traduzir o artigo e trazê-lo na íntegra para você.

O link de referência está ao final do artigo. Aproveite a leitura. Tem insights preciosos aqui!


Já se passaram 2 anos desde que comecei minha jornada em Ciência de Dados. E tem sido uma viagem de montanha-russa!

Houve muitos altos e baixos e, claro, inúmeras xícaras de café e noites sem dormir.

Eu falhei muito, aprendi muito e, claro, cresci muito como Cientista de Dados ao longo da jornada.

Ao longo da minha jornada nesses 2 anos, desde escrever artigos no Medium, falar em encontros e workshops, compartilhar minha experiência no LinkedIn, trabalhar em consultorias a clientes em projetos de Ciência de Dados, até o estágio atual da minha carreira em Ciência de Dados, encontrei alegria e satisfação em compartilhar e ensinar para ajudar outras pessoas e causar um impacto positivo.

No final do dia, tudo se resume a um simples fato – que estou avançando em direção à minha missão – tornar a Ciência de Dados acessível a todos.

Neste artigo, pela primeira vez, consolidarei tudo o que aprendi e condensarei tudo isso em 5 Lições Que Aprendi Em 2 Anos Como Cientista de Dados.

Se você está apenas começando em Data Science e quer saber o que aprender …

Ou você está procurando um emprego em Data Science …

Ou você já está trabalhando em Data Science …

Espero que essas 5 lições sejam úteis para você como Cientista de Dados!

Chega de conversa … Vamos começar!

1. Storytelling SIM, Apresentação NÃO.

Uma das perguntas mais profundas que já ouvi de um dos grandes Cientistas de Dados sênior durante minha carreira em Data Science:

“Admond, qual é a história que vamos contar na reunião mais tarde?”

A primeira vez que ouvi essa pergunta, fiquei chocado por um segundo.

Ele não perguntou quais slides eu preparei.
Ele não perguntou o que eu iria compartilhar.
Ele não perguntou quais resultados eu ia contar.

NADA DISSO.

Para ser honesto com você, eu nem entendia porque ele enfatizava tanto o fato de contar histórias, em vez de contar fatos que já tínhamos.

Antes de começar a apreciar a importância de contar histórias, cometi muitos erros. Nenhuma das partes interessadas entendia o que eu estava dizendo. Ou os insights não conseguiram convencê-los e motivá-los a agir.

Uma vez que decidi melhorar minhas habilidades de contar histórias …

Depois que comecei a me concentrar em contar histórias …

As coisas mudaram de verdade.

Stakeholders ou chefes não técnicos começaram a entender o que eu estava entregando, sem bombardeá-los com jargões técnicos e resultados. Eles entraram em ação.

Os fatos contam, mas as histórias vendem.

Se você deseja ser um bom Cientista de Dados, concentre-se nas habilidades técnicas.
Se você deseja ser um grande Cientista de Dados, concentre-se nas habilidades de narrativa.

E isso é muito importante quando se trata de apresentar ideias ou transmitir a mensagem central ao seu público com ótimas habilidades de narrativa. Aqui tem um exemplo de como essa habilidade é usada com maestria.

2. Os Dados São Complicados, Aceite.

Esqueça os dados do tipo Kaggle em seu ambiente de trabalho real, porque na maioria das vezes você não terá dados limpos. Dados do Kaggle são bons para quem está começando sua caminhada de aprendizado.

Ou pior, às vezes você nem mesmo tem dados para começar, ou talvez você simplesmente não tenha certeza de onde obter ou consultar os dados porque eles estão espalhados por toda parte.

A coleta de dados e a integridade dos dados são uma das etapas mais importantes em qualquer projeto de Ciência de Dados, mas muitos Cientistas de Dados juniores acabam por ignorar isso.

A realidade é que você precisa saber onde obter seus dados com base nos requisitos de negócios e na Arquitetura de Dados existente.

Você pode respirar aliviado depois de obter os dados, mas é aqui que começa a parte difícil – integridade de dados.

Você precisa realizar uma verificação completa dos dados coletados, fazendo perguntas difíceis e entendendo as diferentes partes interessadas para ver se os dados coletados fazem algum sentido.

Sem ter dados corretos e precisos em primeiro lugar, toda a nossa limpeza de dados, EDA, construção de modelos de aprendizado de máquina e implantação são simplesmente um luxo.

3. Soft Skills > Habilidades Técnicas

Uma das perguntas mais comuns para iniciantes em Ciência de Dados é esta:

“Quais são as habilidades que preciso aprender ao começar em Ciência de Dados?”

Na minha opinião, acho que o aprendizado de habilidades técnicas (programação, estatística, etc.) deve ser a prioridade ao começar em Ciência de Dados. Mas assim que tivermos uma base sólida em habilidades técnicas, devemos nos concentrar mais em construir e melhorar nossas habilidades sociais (comunicação, narrativa, etc.).

Embora isso possa parecer um pouco contra-intuitivo para as maneiras normais de aprender habilidades de Ciência de Dados, eu realmente acredito nessa abordagem.

POR QUE?

Cientistas de Dados são solucionadores de problemas.

Nós não apenas escrevemos algum código, construímos alguns modelos sofisticados de aprendizado de máquina e encerramos o dia.

Desde a compreensão de um problema de negócios, coleta e visualização de dados, até o estágio de prototipagem, ajuste fino e implantação de modelos para aplicativos do mundo real, todas essas etapas exigem trabalho em equipe, comunicação e habilidades de narrativa para trabalhar com os membros da equipe, gerenciar as expectativas com as partes interessadas e, finalmente, para orientar as decisões e ações de negócios.

Há uma frase famosa:

“Sem dados, você é apenas mais uma pessoa com uma opinião.”
– W. Edwards Deming

Para mim, obter dados é apenas o primeiro passo. O que é mais importante é como você pode usar os dados para orientar as decisões e ações de negócios para causar um impacto real. Aqui está a citação levemente modificada:

“Sem habilidades para contar histórias, você é apenas mais uma pessoa com dados.”

Você pode realizar a melhor análise de dados do mundo.
Você pode criar o melhor modelo de aprendizado de máquina do mundo.
Você também pode escrever o código mais limpo do mundo.

Mas se você não pode usar seus resultados para conduzir decisões de negócios e ações para convencer as pessoas a usar o que você tem, seus resultados estarão apenas nos slides do PowerPoint, sem nenhum impacto real.

Triste mas verdadeiro.

4. Os Modelos Interpretáveis ​​São Muito Importantes.

Para a maioria das empresas – a menos que você esteja trabalhando em algumas empresas de tecnologia de ponta – modelos sofisticados ou complexos normalmente não são a primeira escolha para análises ou previsões.

Seu chefe e as partes interessadas querem entender o que está acontecendo por trás de seus resultados. Portanto, você precisa ser capaz de explicar o que está acontecendo por trás de seus resultados.

Por exemplo, o que causou a detecção dessa anomalia? E por que isso? Isso faz sentido no contexto de negócios? Por que a previsão é do jeito que está? Quais são os fatores que contribuem para a previsão? Nossas suposições estão corretas?

De todas as perguntas feitas acima, basicamente se resume a uma pergunta simples:

“Qual é o padrão observado por trás disso? ”

Ser capaz de entender o que está acontecendo por trás de nossos modelos e resultados é crucial para conduzir as decisões de negócios, convencendo as partes interessadas a tomar medidas. Grandes empresas simplesmente não podem se dar ao luxo de implantar um modelo de caixa preta no mundo real e deixá-lo correr solto sem entender como funciona ou quando falha.

E é exatamente por isso que ainda estamos vendo modelos simples sendo utilizados no mercado atual, como árvores de decisão e modelos de regressão logística.

5. Sempre Veja a “Big Picture”.

Cometi um grande erro quando estava começando em Ciência de Dados. Eu me concentrei muito no código e nos erros, mas de alguma forma perdi a visão geral que era realmente importante – integração de pipeline de ponta a ponta e como a solução funcionava no mundo real.

Em outras palavras, eu estava muito obcecado com a parte técnica a ponto de otimizar demais meu código e modelos sem ter um impacto real no projeto ou negócio geral.

Infelizmente, aprendi isso da maneira mais difícil.

Felizmente, atualmente estou usando o que aprendi para sempre me lembrar de ver o quadro geral, a “Big Picture”.

Com sorte, você começará a perceber a importância de ver o quadro geral em seu trabalho diário como Cientista de Dados.

E a primeira etapa para fazer isso é primeiro entender o domínio do negócio e os problemas que você está resolvendo.

Seja claro sobre o que você ou sua equipe almejam alcançar em um projeto e entenda como sua função pode ser parte do quadro geral e como diferentes pequenos pedaços podem funcionar juntos como um todo para os objetivos comuns.

Conclusão

Obrigado por ler.

Minha jornada em Ciência de Dados definitivamente tem sido difícil, mas tenho gostado do passeio e aprendi muito ao longo do caminho.

E ainda estou aprendendo a cada dia.

Espero que você tenha achado este artigo útil em alguns aspectos e aplique as lições aqui em seu trabalho como Cientista de Dados.

Lembre-se: continue aprendendo e nunca pare de melhorar.

Traduzido do Original: Here is What I’ve Learned in 2 Years as a Data Scientist