As empresas de hoje estão constantemente gerando enormes quantidades de dados, mas isso nem sempre se traduz em valor. Embora o tesouro esteja bem ali, disponível para ser explorado, a análise desse grande volume de dados ainda não faz parte da estratégia de muitos gestores. Mas o que seria necessário para que as empresas percebessem todo o potencial de seus repositórios de dados e adotassem Machine Learning para análise preditiva? Por que as empresas não estão gerando valor a partir dos dados? Vamos tentar responder essas perguntas.

Em primeiro lugar, sempre que conversamos com especialistas em Machine Learning (Cientistas de Dados focados em treinamento e teste de modelos preditivos) sobre a parte mais difícil do trabalho, eles afirmam repetidas vezes: “os dados são uma bagunça”. Podemos imaginar que esta afirmação se refere a problemas bem conhecidos com dados – valores faltantes ou inconsistências em bancos de dados. Mas, ao investigarmos mais fundo, percebemos que o problema é um pouco diferente. Na sua forma mais comum, mesmo os dados limpos são muito complexos para serem entendidos à primeira vista, mesmo por especialistas. São muitas tabelas com muitos campos, dados não estruturados e diversas fontes e muitas vezes os dados são coletados em uma granularidade muito alta (por exemplo, os clickstreams online geram novos dados com cada clique e dados de sensores podem ser coletados em mais de 125 observações por segundo). Ou seja, não é que os dados estejam apenas “uma bagunça”, eles apenas não estão no formato ideal para a modelagem preditiva, pois ainda não foram agregados e organizados. E fazer isso dá muito trabalho!

Ao mesmo tempo, muitas vezes ouvimos especialistas em negócios queixar-se de que “temos muitos dados e não estamos fazendo nada com isso“. Essa frustração decorre de dois problemas. Por um lado, devido ao tempo necessário para entender, formular e processar dados para resolver um problema através de aprendizado de máquina. Os especialistas em Machine Learning geralmente se concentram nas partes posteriores do processo de Data Science – tentando modelos diferentes ou ajustando os hiperparâmetros do modelo uma vez que um problema é formulado, ao invés de formular novas questões para diferentes problemas de negócios. Portanto, enquanto os especialistas em negócios estão com problemas, os especialistas em aprendizado de máquina estão se concentrando mais na tecnologia, do que na solução do problema real. Isso não é novidade no mundo corporativo!

Outro problema, é que os especialistas em Machine Learning muitas vezes não construíram seu trabalho em torno do valor final do negócio e seus objetivos de médio e longo prazo. Na maioria dos casos, os modelos preditivos são destinados a melhorar a eficiência, aumentar a receita ou reduzir os custos. Mas as pessoas que realmente trabalham nos modelos raramente perguntam “qual o valor desse modelo preditivo e como podemos medir sua eficácia?” Fazer essa pergunta sobre proposição de valor geralmente leva a uma mudança na formulação do problema original e fazer essas perguntas é muitas vezes mais útil do que ajustar as etapas posteriores do processo de Data Science.

Em outras palavras, o especialista em Machine Learning quer usar seu tempo construindo os modelos preditivos e não limpando e organizando grandes conjuntos de dados ou traduzindo problemas de negócio em previsões. Já o ambiente tecnológico, seja comercial ou acadêmico, tem focado no uso de algoritmos sofisticados, ajuste fino de hiperparâmetros ou escalabilidade através de computação distribuída, todos estágios posteriores do processo de Data Science. Isso é importante sem dúvida, mas onde está o foco na solução de problemas de negócio? Você acha que o CEO está preocupado se será usado um algoritmo de Deep Learning ou de Random Forest? O CEO quer o problema de negócio resolvido e preferencialmente que isso aumente o lucro e reduza os custos. Melhor ainda se o resultado do processo de análise gerar respostas para perguntas que se quer foram feitas!

Se as empresas desejam obter o valor de seus dados, precisam se concentrar na compreensão humana dos dados, reduzindo o número de perguntas na fase de modelagem e se concentrando em aplicar mais rapidamente os benefícios da modelagem preditiva. E para gerar um verdadeiro impacto através da aplicação de Machine Learning em grandes conjuntos de dados, a fim de gerar resultados e consequentemente valor, quatro princípios devem ser considerados:

 

1. Explore Mais Problemas

Os Cientistas de Dados precisam ter a capacidade de rapidamente definir e explorar múltiplos problemas de previsão, de forma fácil e simples. Em vez de explorar um problema de negócio com um modelo de aprendizado de máquina incrivelmente sofisticado que pode levar muito mais tempo para ser desenvolvido e requerer muito mais recursos, as empresas podem construir diversos modelos preditivos mais simples e avaliar sua proposta de valor. E a empresa poderia começar hoje mesmo!

 

2. Comece com Modelos Simples

Para que o item anterior faça sentido, modelos simples, como regressão logística ou aqueles baseados em Random Forest ou Árvores de Decisão, são suficientes para resolver muitos problemas. O foco deve ser na redução do tempo entre a aquisição de dados e o desenvolvimento do primeiro modelo preditivo simples. Quanto mais rápido e eficiente for esse processo, mais rápido a empresa obterá valor como resultado da análise de dados.

 

3. Aprenda com Uma Amostra de Dados

Algumas empresas optam (por falta de conhecimento) em começar seus projetos de Big Data Analytics implementando clusters de computadores para computação distribuída a fim de manipular grandes conjuntos de dados (aquele famoso erro de começar o projeto pela infraestrutura, porque o fornecedor está oferecendo um desconto especial de fim do ano fiscal, quando na verdade o projeto deveria começar com uma definição clara dos objetivos a serem alcançados). Esse equívoco pode fazer com que um projeto como esse leve mais de 3 anos para começar a dar retorno sobre o investimento. Por que não começar extraindo valor dos dados hoje mesmo, usando amostras de dados, que requerem menos recursos computacionais? Isso permitira a exploração imediata de hipóteses a fim de identificar os verdadeiros problemas que devem ser resolvidos. À medida que a empresa amadurecer em uma cultura data-driven, pode então avançar para uma segunda etapa e implementar uma infraestrutura que permita a análise de grandes conjuntos de dados.

 

4. Foco na Automação

Os três itens anteriores têm foco na redução do tempo de construção de modelos preditivos e no aumento da taxa de exploração dos dados. E para se alcançar isso, as empresas devem automatizar os processos que normalmente são feitos manualmente. Frequentemente nos encontramos aplicando técnicas semelhantes de processamento de dados, seja para transformar os dados em agregados úteis ou para preparar dados para modelagem preditiva – é hora de racionalizá-los e desenvolver algoritmos ou criar sistemas de software que possam fazer isso automaticamente. Esses modelos serão simples e a automação permitirá que os Cientistas e Dados desenvolvam centenas, senão milhares de modelos preditivos dentro de horas e possam se concentrar em buscar novos problemas de negócio que precisam ser resolvidos. E essa automação é mais fácil do que se pensa, criando scripts automatizados ou desenvolvendo softwares customizados.


Esses 4 princípios podem ajudar a empresa a começar a extrair valor dos dados imediatamente, enquanto cria uma cultura orientada a dados, aprende com os erros e então incorpora a análise de dados naturalmente à estratégia corporativa. Quando isso estiver acontecendo, aí sim as empresas estarão extraindo valor do Big Data.

E nesse processo, o papel do Cientista de Dados é mais importante do que nunca! Cabe a este profissional apresentar as soluções necessárias para os problemas de negócio, através de modelagem preditiva.

E se precisar da nossa ajuda, a Data Science Academy possui o programa mais completo do Brasil, a Formação Cientista de Dados. Com uma carga horária total de 340 horas e construído por quem entende de Data Science e Big Data Analytics, 100% online e 100% em português, a formação é um programa dinâmico, unindo teoria e prática na medida certa. São no total 6 cursos, com um currículo cuidadosamente elaborado e mais 1 curso exclusivo aos alunos com dicas de preparação para carreira de Cientista de Dados. E o aluno ainda tem a oportunidade de fazer networking com profissionais de grandes empresas em todo Brasil e no exterior. Aqui um pequeno exemplo do que você encontra na Formação Cientista de Dados da Data Science Academy:

 

Formação Cientista de Dados

Quer saber mais? Entre em contato conosco e teremos prazer em explicar todos os benefícios da Formação Cientista de Dados para a sua carreira profissional e para sua empresa.

Quero saber mais

 

Equipe DSA