No mundo de negócios de hoje, planos estratégicos são construídos com dados. Já se foram os dias em que era possível construir uma nova linha de negócios sem o uso de dados.

Os dados foram originalmente comparados ao petróleo, sugerindo que os dados alimentam motores de inovação. Mais recentemente, a revista The Economist (referência no final deste post) comparou os dados com a luz do sol porque, como os raios solares, os dados estão em toda parte e fundamentam tudo. Os dados também são a nova infraestrutura sobre a qual empresários experientes constroem modelos de negócios diferenciados.

Projetar produtos de dados é caro. Cientistas de Dados e Engenheiros de Machine Learning estão no topo das paradas dos profissionais mais bem pagos, ao lado de cirurgiões e advogados. Desnecessário dizer que é preciso proezas financeiras e incentivos de negócios alinhados para transformar um projeto de Ciência de Dados de um experimento em um aplicativo de produção.

O projeto para produtos de dados de sucesso consiste em três elementos principais: fluxos de trabalho de negócios, canais de distribuição e fontes de dados. Ou seja, construir um produtos de dados (uma aplicação de previsão de vendas, por exemplo) passa por definir o processo de negócio, extrair os dados necessários e definir como o aplicativo será entregue.

Vamos compreender como cada elemento ajuda a formar o Data Blueprint – Estratégia de Lançamento de Produtos de Dados.

Fluxos de Trabalho de Negócios

Os produtos de dados surgem como uma camada de aplicativo construída sobre fluxos de trabalho de negócios. Os produtos de dados têm um histórico de sucesso quando implantados em configurações operacionais, como automação de processos administrativos, suporte ao cliente e conformidade regulatória. Isso quer dizer que os produtos de dados são atualmente atribuídos ao back-office “seguro”, onde as falhas de desempenho são menos onerosas.

Nem todo fluxo de trabalho de negócios pode habilitar um produto de dados. Abaixo um scorecard de exemplo para qualificar fluxos de trabalho de negócios para aplicativos de produtos de dados. Confira:

fluxoFontes de Dados

Dados públicos ou dados abertos estão disponíveis para que todos possam acessar, modificar, reutilizar e compartilhar. Organizações de dados abertos são contrapartes de organizações que oferecem suporte a software de código aberto. Seu trabalho empodera cidadãos e pode fortalecer democracias, agilizar processos e sistemas na sociedade, governo e empresas privadas. Algumas fontes de dados abertos impressionantes são Dados Abertos do Banco Mundial, Dados do Observatório de Saúde Global, Explorador de Dados Públicos do Google, Registro de Dados Abertos na AWS, Escritório do Censo dos EUA.

Fontes de dados privadas são a espinha dorsal de empresas bem diferenciadas como Google, Amazon e Facebook. Os resultados da pesquisa, recomendações de produtos / filmes e redes sociais melhoram com os dados. É por isso que empresas orientadas a dados estão aqui para ficar, e tem tornado cada vez mais simples o uso de sistemas de aprendizado de máquina para compartilhar e aprender com fontes de dados distintas.

Os direitos de licenciamento para dados privados são complexos. Um problema comum é que o proprietário da fonte de dados não pode sublicenciar os dados externamente. Isso significa que os dados privados só podem ser aproveitados por produtos pertencentes à mesma organização que os possui. Se os dados foram coletados de acordo com uma licença com cláusulas de sublicenciamento, isso abre oportunidades para a comercialização de dados privados fora da organização matriz.

Mas temos que abordar o elefante na sala. Em todas as empresas, as práticas de gerenciamento de dados abrangem um amplo espectro. As empresas líderes dão o exemplo ao seguir regras éticas, de privacidade e segurança. Alguns setores resolveram o problema com as próprias mãos e estabeleceram padrões e estruturas de privacidade de dados. Em serviços de saúde e financeiros, a privacidade de dados é imposta por agências reguladoras. As indústrias de consumo têm que obedecer às leis de privacidade do consumidor. Regra prática para todos: a privacidade está no centro das atenções mais do que nunca e todos tem direito a ela. Cada empresa que coleta dados deve certificar-se que a privacidade está mantida.

Dados sintéticos são uma opção economicamente viável, dependendo do produto de dados em questão. Os algoritmos de computador ficaram realmente bons na geração de dados sintéticos: sejam vídeos de celebridades ou artigos da Revista Nature. Técnicas semelhantes podem ser usadas para gerar dados sintéticos que treinam os modelos de aprendizado de máquina por trás de um produto de dados. Para inicializar esses algoritmos com sementes de dados relevantes, as empresas podem configurar programas de doação de dados – internos ou externos – com o acordo de uso de dados adequado em vigor.

Canais de Distribuição

Um produto bem construído é apenas metade da história. O produto está testado e pronto, agora precisa ser entregue. Alguns canais de distribuição estão disponíveis para produtos corporativos. Cada canal de distribuição tem implicações no modelo de preços do produto e na estratégia geral do produto, bem como na manutenção e suporte ao seu uso.

Em resumo, um produto de dados não é muito diferente de qualquer outro produto de software.

Em uma nota final, os produtos baseados em dados exigirão monitoramento contínuo para desempenho de qualidade. Você pode perguntar por que todo esse escrutínio. Humanos fazendo a mesma tarefa, não são monitorados 24 horas por dia, 7 dias por semana? Digamos apenas que os humanos passam por treinamento trimestral em ética e são responsáveis por suas ações. As máquinas agem em silêncio, por isso precisamos perguntar sobre seu comportamento usando scripts de monitoramento. É uma boa prática monitorar o desempenho do produto e sinalizar casos extremos. Comece definindo políticas internas para gerenciamento de falhas, ética do produto e revisão humana no circuito.

E para os alunos das Formações DSA, mostramos no módulo gratuito de Empreendedorismo, como monetizar uma app de Machine Learning considerando o Data BluePrint.

Referências:

Formação Arquiteto de Dados

A Strategy Blueprint for Data Products

Are data more like oil or sunlight?

5 Fontes de Dados Públicos