Imagine que você está de volta em 2007. Você é o Executivo de uma grande empresa da área de varejo, que vende produtos online através de um web site e acompanha o lançamento do iPhone, feito pelo Steve Jobs. Você imediatamente pergunta a si mesmo: “ Devo interromper nossos outros projetos e aplicar nossos recursos em construir um aplicativo para iPhone, de modo a gerar uma nova experiência para nossos clientes e permitir compras online através do celular? Mas se o iPhone for um fracasso e não for adotado pelo mercado? Como poderíamos prever se o iPhone será ou não um sucesso e investir nossos preciosos recursos em desenvolver aplicativos para o smartphone? “.

A boa notícia é que você tem muitos dados a sua disposição. A má notícia é que você não tem como responder uma simples questão a partir dos seus dados: Quantas pessoas atualmente estão acessando nosso site a partir de smartphones? Quantas pessoas irão acessar no site a partir de iPhones?

Em 2007, você não poderia responder a esta pergunta sem antes atualizar o schema do seu Data Warehouse, um processo demorado, que poderia levar dias. Sua única opção seria torcer para que seus competidores são tivessem assistido o lançamento do iPhone.

Volte para 2016. Estamos vivenciando a explosão do Big Data. Isso está acontecendo agora, neste momento. Nunca a humanidade gerou tantos dados, com tanta velocidade e tanta variedade. E a propósito, o iPhone não só foi um sucesso absoluto, como levou a criação de diversos outros dispositivos similares, popularizando os smartphones e os aplicativos para celular. Aproveite e clique aqui para acessar nosso aplicativo gratuito para iPhone e iPad e estudo pelo seu celular e tablet.

E esse grande volume de dados, gerado em alta velocidade nos traz um novo cenário com muito mais desafios. Não faz mais sentido aguardar resultados de sistemas analíticos que levem semanas, dias ou mesmo horas para retornar resultados. O processo analítico está sendo reduzido para minutos, segundos ou mesmo frações de segundo. Alguns anos atrás, gerar um relatório analítico em 40 minutos, era considerado um grande feito. Hoje, esperamos que estes mesmos relatórios gerem resultado em menos de um minuto, mesmo com o volume de dados muito maior. É como gerar análise de dados com a velocidade do pensamento. Análise de dados em tempo real.

Um novo universo de tecnologias tem reduzido dramaticamente o ciclo de processamento analítico, tornando a exploração e experimentação com os dados, uma tarefa em tempo real e que não era possível alguns poucos anos atrás.

Real-Time Big Data Analytics (RTBDA) é a habilidade de tomar melhores decisões e gerar ações de forma mais rápida e no momento certo. É a habilidade de detectar fraudes em cartões de crédito no momento que ele está sendo usado no ponto de venda ou recomendar um produto a um usuário, segundos depois que ele efetue um clique no web site. RTBDA é analisar os dados em tempo real, de forma a permitir a ação correta, no tempo correto e no local correto. Real-Time Big Data Analytics é a chave para aumentar vendas e reduzir custos. É uma nova era, na qual as máquinas são capazes de pensar e responder como os humanos. Não é incrível estarmos no meio desta revolução?

A capacidade de armazenar dados rapidamente não é algo novo. O que é novo é a capacidade de fazer algo realmente significativo com os dados, de forma rápida e com baixo custo. As empresas vêm armazenando grandes quantidades de dados há muito tempo. O que estamos testemunhando, entretanto, é a explosão de novas técnicas de análise de grandes conjuntos de dados, que permitem analisar dados estruturados e não estruturados, gerados por redes sociais, dispositivos móveis, registros de atendimento a clientes, relatórios governamentais e logs de servidores. Quando todos estes dados são colocados lado a lado, geram insights inimagináveis. E tudo isso pode ser feito em tempo real. De volta a 2007, todos os dados deviam ser organizados em tabelas, antes de se iniciar o processo de análise. No mundo atual, essa necessidade não existe mais. Os dados são heterogêneos e isso é normal e esperado. Os Cientistas de Dados aplicam as técnicas corretas, mesmo quando os dados estão em formato totalmente variado e possuem múltiplas fontes.

Soluções que permitem processamento distribuído de aplicações, como o Apache Spark por exemplo, tornam possível a análise de dados em tempo real, mesmo quando os dados apresentam uma estrutura muito mais complexa. E mesmo com a habilidade de gerenciar grandes e complexos conjuntos de dados, a necessidade por mais dados e mais velocidade de processamento não para de crescer. A cada dia surgem novas tecnologias que empurram o limite com que os dados podem ser processados.

 

Mas Real-Time é realmente real?

O significado de “Real-Time” pode ser diferente de acordo com o contexto que é considerado. Quando falamos de “Real-Time Analytics”, estamos falando em analisar os dados, sem a necessidade de armazená-los em bancos de dados, como vem sendo feito há décadas. Real-Time Analytics é a capacidade de analisar os dados no momento em que estão sendo gerados. Se você precisa armazenar os dados para análise posterior, não estamos falando de Real-Time Analytics.

Entretanto, mesmo quando falamos em Real-Time, o contexto pode trazer definições diferentes. Para um investidor da bolsa de valores, Real-Time Analytics pode significar processar os dados em milissegundos, enquanto para um site de vendas online, Real-Time Analytics pode significar analisar os dados entre um clique e outro do usuário, o que pode levar segundos ou mesmo minutos. Uma boa definição de Real-Time Analytics é: “Análise rápida na camada de dados e análise muito rápida na camada de decisão”. Portanto, sempre considere o contexto quando falar de Real-Time Analytics.

Em cenários envolvendo Machine Learning e algoritmos analíticos, soluções como Spark permitem a execução de soluções analíticas em memória, tornando o processo de 10 a 100 vezes mais rápido que o Hadoop, que processa os dados em disco. Isso nos traz a outro importante conceito relacionado a Real-Time Analytics: processamento em Batch e processamento de Streams. Processamento em batch possui alta latência e, portanto, se você estiver tentando analisar 1 TB de dados de uma única vez, você não será capaz de fazer isso em menos de 1 segundo usando processamento em batch.

Já o Stream de dados (fluxo contínuo de dados) permite processar pequenas quantidades de dados e analisá-las no momento em que os dados são gerados. Você agora será capaz de processar 1 TB de dados, mas fará isso em pequenas porções. É como analisar os dados de um avião, em pelo voo. Perder 1 segundo de dados gerados, pode causar impacto na sua análise. Redes sociais como o Twitter, por exemplo, utilizam outra tecnologia para processamento de dados em tempo real, o Storm. O objetivo é analisar tendências e oferecer produto em tempo real. Por exemplo, imagine que alguém “tweet” sobre viagens a Paris. Soluções analíticas em tempo real, como o Storm, poderiam detectar que produtos ou serviços que seriam ofertados a esta pessoa, segundos após o “tweet”. É genial ou não? Pense como as empresas poderiam se beneficiar deste tipo de solução.

Mas atualmente, a maior parte da tecnologia disponível ainda não está preparada para Real-Time Analytics (assim como os profissionais). A grande maioria dos sistemas ainda utiliza processamento em batch, ou seja, os dados são armazenados e então processados e analisados. Esta é a forma como a maioria dos sistemas funciona atualmente, mas não como o cérebro humano funciona. Se nós seres humanos podemos analisar o que está a nossa volta e reagir a isso rapidamente, estamos muito próximos do momento em que as máquinas farão isso por nós. Real-Time Analytics é um passo na direção e permitir que as máquinas tomem decisões da mesma forma que os seres humanos o fazem. E as empresas não podem desconsiderar esta possibilidade. Soluções de Big Data Real Time Analytics serão o novo padrão. É inevitável. 

Interessado em aprender sobre Big Data Real-Time Analytics? Preparamos um treinamento online pioneiro no Brasil, onde o aluno terá a chance de ver como um sistema Real-Time Analytics funciona e programar seus próprios sistemas em tempo real. Estamos ajudando a formar a nova geração de profissionais do Brasil. Clique aqui e confira o programa completo.

 

Tiago

CEO Data Science Academy