7 Maneiras que os Cientistas de Dados usam Estatística
Um Cientista de Dados representa uma evolução da função de análise de dados. Esse profissional possui uma base sólida tipicamente em Ciência da Computação, Modelagem Preditiva, Estatística, Matemática e Programação.
Mas o que diferencia o Cientista de Dados de outras funções em análise de dados é a forte perspicácia de negócios, associada à capacidade de comunicar as descobertas para os líderes de negócios e de TI de uma maneira que pode influenciar o modo como uma organização aborda um desafio de negócios. Bons Cientistas de Dados não irão apenas abordar problemas de negócios, eles vão escolher os problemas certos que têm mais valor para a empresa. E nesse aspecto, a Estatística oferece muitas das ferramentas que um Cientista de Dados precisa para realizar seu trabalho.
Neste artigo, vamos explorar as principais características de um Cientista de Dados e as 7 Maneiras que os Cientistas de Dados usam Estatística no seu dia a dia. Vamos começar?
O Papel do Cientista de Dados
O papel do Cientista de Dados tem sido descrito como “parte analista, parte artista”. Um Cientista de Dados é alguém que é curioso, que pode analisar dados e identificar tendências.
Mas afinal, que habilidades deve ter o Cientista de Dados? Que conhecimentos o fazem um profissional tão buscado atualmente? Vemos muitas discussões sobre o que é um Cientista de Dados e definições como: “Cientista de Dados é um estatístico que sabe programar” ou “Cientista de Dados é um programador que sabe estatística” não poderiam ser mais equivocadas e demonstram como as habilidades necessárias para se tornar Cientista de Dados ainda não estão claras para muitas pessoas. Aqueles que consideram Data Science, Machine Learning, IA e Estatística “tudo a mesma coisa” também demonstram total de falta de conhecimento em todas essas áreas, que possuem sim características similares, mas que são bem diferentes em suas abordagens, técnicas e métodos.
Considerando que um analista de dados tradicional normalmente olha apenas para dados de uma única fonte – um sistema de CRM, por exemplo – um Cientista de Dados provavelmente irá explorar e examinar dados de várias fontes diferentes. O Cientista de Dados examinará todos os dados recebidos com o objetivo de descobrir um insight anteriormente oculto, que, por sua vez, pode fornecer uma vantagem competitiva ou resolver um problema comercial premente. Um Cientista de Dados não apenas coleta e relata dados, mas também os analisa de vários ângulos, determina seu significado e, em seguida, recomenda maneiras de aplicar os dados na tomada de decisões.
Os Cientista de Dados são inquisitivos: explorando, fazendo perguntas e análises “e se”, questionando pressupostos e processos existentes.
Os dados estão dobrando a cada dois anos (você já deve ter ouvido falar em Big Data) e vão continuar sendo gerados em volume, variedade e velocidade cada vez maiores. Contra esse pano de fundo, o resultado inevitável é o surgimento do Cientista de Dados. Um Cientista de Dados precisa analisar grandes quantidades de dados e usar o mapa de tecnologia para possibilitar a transição de dados para insights ou ajudar na construção de aplicações analíticas. O escopo do trabalho de um Cientista de Dados inclui a identificação de fontes de dados, a qualidade dos dados, as correlações entre os pontos de dados, a modelagem preditiva e a disseminação para os usuários da informação.
E a Qualificação?
As discussões sobre quem é qualificado para trabalhar como Cientista de Dados não variam muito do debate se um Cientista de Dados deve ter um mestrado em matemática ou estatística. Enquanto isso, o CTO do grupo Shoppers Stop, afirma (de forma muito lúcida): “Há uma escassez de profissionais que podem ser chamados de Cientista de Dados. No momento, quem tem paixão por trabalhar com dados e está buscando capacitação, está preenchendo o vazio”.
Um Cientista de Dados trabalhará no desenvolvimento de novos algoritmos e gerará novos padrões e insights sobre os dados que, de outra forma, permaneceriam ocultos. Um Cientista de Dados normalmente tem formação na área de exatas e ciências, como Ciência da Computação, Matemática, Estatística, Física e Engenharia, mas profissionais de diversas outras áreas, principalmente de áreas de negócio, começam a ocupar seu lugar nesse mercado, com formações em Administração, Contabilidade, Economia e Marketing. Até mesmo Advogados e Médicos começam a demonstrar interesse pela Ciência de Dados por conta da automação dessas áreas, trazida pela Inteligência Artificial.
Com o advento das mídias sociais impactando a maioria das facetas dos negócios, as organizações esperam integrar tecnologia para criar um ambiente de tomada de decisão agradável e preciso. O Cientista de Dados será responsável por fornecer um contexto social à informação, adotando novas abordagens de armazenamento e processamento de dados, como o Apache Hadoop. Eles não esperam por dados estruturados, limpos e puros, mas trabalham com uma mescla de dados para fornecer análises em tempo real ou quase em tempo real. Análises descritivas, análises diagnósticas, análises preditivas e análises prescritivas fazem parte do novo paradigma, com o Cientista de Dados no centro.
No entanto, não é como se houvesse Cientistas de Dados em abundância, todos clamando por empregos. Pelo contrário, como o CIO da EMC diz: “Há uma falta de talentos. Para cada Cientista de Dados, há trinta empregos esperando”. “Sorte” de quem está buscando capacitação.
Mas o que realmente é Estatística e qual sua importância no trabalho de um Cientista de Dados?
A Estatística é um ramo da Matemática. Este ramo lida com a coleta e classificação de dados com a intenção de deduzir proporções em um todo a partir de uma determinada amostra representativa. E por que este ramo é essencial na Ciência de Dados? Em termos genéricos, os Cientistas de Dados confiam e usam estatísticas para resumir os dados para chegar a uma solução ideal para decisões de negócios.
A Estatística é usada por Cientista de Dados de várias maneiras, tais como:
Métodos estatísticos como testes de hipóteses e intervalos de confiança são frequentemente usados para projetar experimentos para medir diferentes métricas. Por exemplo, um varejista quer testar a eficácia de suas novas campanhas de marketing. Os Cientistas de Dados realizam experimentos adequados, decidem grupos de controle e interpretam os resultados com a ajuda desses métodos estatísticos.
Suponha que as vendas de uma empresa aumentaram durante o último mês. Estatísticas como regressão, análise de séries temporais, classificação e análise casual são usadas pelos Cientista de Dados para analisar esse aumento nas vendas, prever o cenário de vendas para o próximo mês e as tendências potenciais a serem observadas.
Os Cientistas de Dados podem agrupar clientes que tenham hábitos de compra semelhantes. Isso permite que as empresas entendam como os desenvolvimentos afetarão diferentes grupos de clientes e, portanto, poderão segmentar melhor os clientes. As estatísticas usadas para segmentação de clientes incluem agrupamento, análise de variáveis latentes e redução de dimensionalidade.
Além destes, os métodos estatísticos também ajudam os Cientistas de Dados a encontrar a resposta para importantes questões de negócios como por exemplo:
- – Como manter os clientes existentes?
- – O que pode aumentar o envolvimento do usuário?
- – Como aumentar as conversões?
Mas lembre-se: esta é apenas uma parte do trabalho do Cientista de Dados, que envolve ainda programação, uso de bancos de dados relacionais e NoSQL, processamento de dados em tempo real, apresentação do resultado e muito mais!
7 Maneiras que os Cientistas de Dados usam Estatística
Vejamos agora 7 maneiras que os Cientistas de Dados usam Estatística em seu trabalho, com alguns exemplos de aplicações e ferramentas mais utilizadas.
1. Projetar e interpretar experimentos para suportar a tomada de decisões.
Observação: a variante A de um anúncio tem uma taxa de cliques 5% maior do que a variante B.
Os Cientista de Dados podem ajudar a determinar se essa diferença é ou não significativa o suficiente para garantir maior atenção, foco e investimento.
Eles podem ajudar um gestor a entender os resultados experimentais, o que é especialmente útil quando estamos medindo muitas métricas, realizando experimentos que afetam uns aos outros ou fazendo com que o Paradoxo de Simpson aconteça nos resultados.
Digamos que você seja um varejista e esteja tentando testar o efeito de novas campanhas de marketing. O Cientista de Dados podem ajudá-lo a decidir quais lojas você deve atribuir ao grupo experimental para obter um bom equilíbrio entre os grupos experimental e de controle, que tamanho de amostra você deve atribuir ao grupo experimental para obter resultados claros e como executar o estudo com o menor custo possível.
Estatística Utilizada: Desenho Experimental, Estatísticas Frequentistas, Testes de Hipóteses e Intervalos de Confiança.
2. Construir modelos que possam prever sinal, não ruído.
Observação: As vendas em dezembro aumentaram 5%.
Os Cientista de Dados podem dizer quais são as possíveis razões pelas quais as vendas aumentaram 5%. Os Cientista de Dados podem ajudar a empresa a entender o que impulsiona as vendas, como as vendas estarão no próximo mês e as possíveis tendências a serem observadas.
Estatística Utilizada: Regressão, Classificação, Análise de Séries Temporais, Análise Causal.
3. Transformar “Big Data” em “Big Picture”.
Observação: Alguns clientes compram apenas alimentos saudáveis, enquanto outros sempre compram fraldas e cervejas*.
Os Cientistas de Dados podem ajudar a rotular cada cliente, agrupá-los com clientes semelhantes e entender seus hábitos de compra. Isso permite que os gestores vejam como os desenvolvimentos de negócios podem afetar certos grupos da população, em vez de olhar para todos como um bloco único, permitindo assim uma personalização do processo de vendas.
*Com relação ao exemplo de comprar fraldas e cervejas, uma grande rede de supermercados descobriu, depois de começar a usar Data Science, que era comum no período da noite que a venda de fraldas e cervejas ocorressem de forma simultânea. Depois de um extensivo processo de análise e busca de padrões, os Cientistas de Dados descobriram que os pais que iam ao supermercado comprar fraldas para seus bebês, aproveitavam para comprar cervejas. Com esse insight, a rede de supermercados passou a fazer promoções e claro, colocar as cervejas mais próximas do caixa, para que os papais não esquecessem de comprá-las, sempre que fossem buscar fraldas.
Estatísticas Utilizadas: Clustering, Redução de Dimensionalidade, Análise Variável Latente.
4. Entender o engajamento, a retenção, a conversão e os leads dos usuários.
Observação: Muitas pessoas se inscreveram em nosso site e nunca mais voltaram.
Por que seus clientes compram itens de seu site? Como você mantém seus clientes voltando? Por que os usuários estão saindo do seu funil de vendas? Quando eles sairão? Quais tipos de e-mails da sua empresa envolvem usuários com mais sucesso? Quais são alguns dos principais indicadores de engajamento, atividade ou sucesso? Quais são alguns bons leads de vendas?
Estatística Utilizada: Regressão, Análise de Efeitos Causais, Análise de Variáveis Latentes, Projeto de Pesquisa.
5. Dar aos seus usuários o que eles querem.
Considerando uma matriz de usuários e suas interações (cliques, compras, avaliações) com os itens de sua empresa (anúncios, produtos, filmes), você pode sugerir quais itens seus usuários desejarão em seguida? Que tal construir um Sistema de Recomendação? Essa é uma atividade básica para um Cientista de Dados.
Estatísticas Utilizadas: Modelagem Preditiva, Análise de Variáveis Latentes, Redução de Dimensionalidade, Filtragem Colaborativa, Clusterização.
6. Estimar inteligentemente.
Observação: temos um banner com 100 impressões e 2 cliques.
2% é uma boa estimativa da taxa de cliques?
Os Cientistas de Dados podem incorporar dados e conhecimento prévio para obter uma estimativa desejável, informar as propriedades dessa estimativa e resumir o que a estimativa significa.
Se você estiver interessado em uma abordagem melhor para estimar a taxa de cliques, verifique quais são as vantagens dos métodos bayesianos sobre os métodos frequentistas.
Estatística Utilizada: Análise Bayesiana de Dados.
7. Contar a história com os dados.
O papel do Cientista de Dados na empresa é servir como o embaixador entre os dados e a empresa. A comunicação é fundamental e o Cientista de Dados deve ser capaz de explicar seus insights de uma maneira que a empresa possa embarcar, sem sacrificar a fidelidade dos dados.
O Cientista de Dados não resume simplesmente os números, mas explica porque os números são importantes e quais percepções acionáveis podemos obter deles. O Cientista de Dados é o contador de histórias da empresa, comunicando o significado dos dados e porque é importante para a empresa.
O sucesso dos seis pontos anteriores pode ser medido e quantificado, mas este não pode. E esse papel é um dos mais importantes.
Estatísticas Utilizadas: Sumarização e Apresentação de Dados, além de habilidades em Comunicação e Visualização de Dados.
E esses são apenas alguns exemplos!
E se fosse possível aprender Estatística para Data Science, de forma online e 100% em português, usando linguagem R e plataforma SAS? E se você pudesse aprender Matemática Para Machine Learning, 100% em português, tudo passo a passo, aliando teoria e prática na medida certa? Saiba que já é possível. Clique no link abaixo e confira o programa completo:
Formação Análise Estatística Para Cientistas de Dados
Referências:
Excelente, estou buscando me especializar na área, indicam algum curso bom de estatística aplicada?
Sim, este aqui: https://www.datascienceacademy.com.br/pages/formacao-analise-estatistica-para-cientistas-de-dados
[…] Cientistas de Dados e as partes interessadas de negócios devem primeiro trabalhar juntos para desenvolver métricas […]