O Big Data surgiu no início dos anos 2000 para atender às necessidades de computação em escala na internet e o aumento no volume de dados, com aplicações como ZooKeeper no Yahoo, BigTable e MapReduce no Google, Cassandra no Facebook entre outros. Depois vieram os projetos de código aberto, como Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Spark, Apache Kafka e uma verdadeira legião de aplicações e frameworks.

No final dos anos 2000 e início de 2010, startups como MongoDB, Cloudera e DataStax criaram negócios para transformar os sucessos do código aberto em ofertas de nível corporativo.

Agora, a tecnologia de Big Data está silenciosamente transformando todos os backends de empresas no planeta. Em muitos lugares, “Data Warehouses” de bancos de dados relacionais estão sendo substituídos por “Data Lakes”, que executam software de Big Data e de Fast Data (dados gerados e processados em tempo real). Um investimento estimado na ordem de US $ 100 bilhões por ano está ajudando a alavancar ainda mais as tecnologias de Big Data, criando um verdadeiro ecossistema de soluções analíticas para grandes volumes de dados e dados gerados em tempo real.

Mas a revolução está prestes a sofrer uma nova transformação. A tecnologia Blockchain, quando aliada ao Big Data, vai permitir a construção de soluções descentralizadas, transformando radicalmente a forma como as empresas fazem negócios e analisam os dados. Neste terceiro artigo da série sobre Blockchain, vamos explorar sua relação com Big Data, os desafios e oportunidades.

Para ler os artigos anteriores, clique nos links abaixo:

O Que é a Tecnologia Blockchain

Aplicações da Tecnologia Blockchain

Desafios do Big Data

O Big Data tem seus desafios, que incluem controle, autenticidade de dados e monetização. Vamos explorar os aspectos principais desses desafios.

Primeiro, quem controla a infraestrutura quando há múltiplos atores envolvidos? Por exemplo:

– Como uma empresa multinacional compartilha dados em todo o planeta? Se você tem várias cópias, como sabe qual é a mais atualizada? Como você concilia uma função de administrador de sistema diferente em cada escritório regional?

– Se a empresa é um consórcio, como compartilhar o controle da infraestrutura do ecossistema entre as empresas do consórcio? Isso é especialmente difícil se essas empresas são concorrentes!

– Por que não pode haver dados apenas “externos” como uma única fonte compartilhada de verdade que ninguém no planeta possui ou controla, por si só? Ou ainda, por que não criar uma rede de dados compartilhados entre todas as empresas do mesmo grupo ou do mesmo setor? Os dados seriam uma utilidade pública como a eletricidade ou a própria internet.

Em segundo lugar, até que ponto você pode confiar nos dados? Por exemplo:

– Se você mesmo gerar os dados, como prova que é o criador? Se você receber dados de outras pessoas, como você sabe quem realmente enviou?

– E quanto a falhas e comportamento malicioso? As máquinas quebram, falhas acontecem, os bits mudam. Torradeiras de IoT Zumbis podem estar introduzindo lixo no seu Data Lake. Você então leva os dados para os cálculos e análise no Apache Spark, e descobre que a saída é lixo. Não fique surpreso! Se entrou lixo, vai sair lixo.

Por fim, como você monetiza os dados? Por exemplo:

– Como você transfere os direitos dos dados ou compra os direitos de outras pessoas? Há um sonho antigo de um mercado de dados universal. Isso seria possível?

Você consegue perceber o oceano de oportunidades nas questões acima?

Nova Ferramenta Para Big Data: Tecnologia Blockchain

A recente onda de tecnologia Blockchain foi provocada pelo Bitcoin. Tecnicamente, todas as Blockchains são simplesmente bancos de dados, mas bancos de dados com benefícios de “oceano azul”: controle descentralizado/compartilhado, trilhas de imutabilidade/auditoria e troca de ativos.

Por conta de padrões modernos de banco de dados, Blockchains tradicionais ainda não têm uma boa escalabilidade e não possuem linguagens de consulta. No entanto, a tecnologia está evoluindo os benefícios do oceano azul tem mostrado o potencial necessário para o uso da tecnologia em larga escala e em nível corporativo.

Melhor ainda, a tecnologia mais recente – o banco de dados de Blockchain, como o BigchainDB – combina os benefícios de bancos de dados distribuídos (escalabilidade) e Blockchains (trilhas descentralizadas/imutáveis de auditoria, troca de ativos).

Essa nova tecnologia de banco de dados Blockchain possui a escalabilidade necessária em ambientes de Big Data. Isso libera o potencial de aplicações altamente interessantes em Big Data: controle compartilhado de infraestrutura, trilhas de auditoria em dados e a possibilidade de uma troca de dados universal. Vamos explorar essas possibilidades em detalhes, pois elas vão gerar uma nova onda de aplicações descentralizadas.

Controle Compartilhado de Infraestrutura de Big Data

Uma das aplicações imediatas de Blockchain na infraestrutura de Big Data é o uso como um banco de dados compartilhado entre as entidades, seja dentro da empresa, dentro de um consórcio ou em todo o planeta. Um banco de dados Blockchain de Big Data como o BigchainDB é descentralizado, o que significa que seu controle pode ser compartilhado. Esse compartilhamento pode acontecer em um dos muitos contextos:

– Através de escritórios dentro de uma empresa. Ou seja, você obtém o controle compartilhado de um banco de dados de Big Data em escritórios espalhados geograficamente.

– Através de empresas dentro de um ecossistema. Ou seja, você obtém o controle compartilhado de um banco de dados de Big Data entre empresas (até mesmo concorrentes) em um ecossistema.

– Em um nível planetário. O controle compartilhado de um banco de dados aberto e público de Big Data significa “dados como um utilitário”, como o energia elétrica ou a internet. Esse banco de dados está sendo implementado agora: é chamado de BigchainDB Testnet. Estamos no início desse movimento, mas alguém dúvida que chegaremos lá? Muitos também duvidaram da internet quando esta foi lançada!

Um banco de dados como o BigchainDB, tem a escala para manter os dados em si, ao contrário das Blockchains tradicionais. À medida que esse banco de dados é preenchido, é possível adicionar mais bancos de dados e conectá-los ao protocolo Interledger para interoperabilidade.

Vejamos alguns benefícios e como isso resolve os problemas que descrevemos anteriormente.

Problema: Como uma empresa multinacional compartilha dados por suas filiais em todo o planeta? Se você tem várias cópias, como sabe qual é a mais atualizada? Como você concilia uma função de administrador de sistema diferente em cada escritório regional?

Solução: Cada escritório regional com seu próprio sysadmin controla um nó do banco de dados geral. Então eles controlam o banco de dados coletivamente. A natureza descentralizada também significa que, se um administrador de sistema ou dois for desonesto, ou um escritório regional for invadido, os dados ainda estarão protegidos. (Assumindo que a criptografia está em vigor também, é claro).

Problema: Se a empresa é um consórcio, como compartilhar o controle da infraestrutura do ecossistema entre as empresas do consórcio? Isso é especialmente difícil se essas empresas são concorrentes!

Solução: Semelhante ao acima, cada empresa controla um nó no banco de dados geral e podem compartilhar dados sobre a economia do país, dos clientes ou funcionários que cometem crimes, sobre fornecedores ou qualquer outra informação relevante.

Problema: Por que não pode haver dados apenas “externos” como uma única fonte compartilhada de verdade que ninguém no planeta possui ou controla em si? Em vez disso, os dados seriam uma utilidade pública como a eletricidade ou a própria internet.

Solução: O BigchainDB Testnet, está sendo implementado agora e em fase de testes.

Combinando Blockchain e Big Data: Um Outro Nível de Análise

O uso do Blockchain adiciona outra camada de dados ao processo de análise de Big Data. Mais importante ainda, essa camada de dados atende às duas principais demandas da análise de Big Data:

– O Big Data gerado pelo Blockchain é seguro, pois não pode ser falsificado devido à arquitetura da rede.

– O Big Data baseado em Blockchain é valioso, o que significa que é estruturado, abundante e completo, tornando-se uma fonte perfeita para análise posterior.

Os dados do livro de registro podem ser relacionados a comércio de energia, imóveis e uma variedade de outros domínios. Existem várias melhorias na análise de Big Data decorrentes desse fato. Por exemplo, a prevenção de fraudes com a tecnologia Blockchain, permite que as instituições financeiras verifiquem todas as transações em tempo real. Dito isto, em vez de analisar os registros da fraude que já aconteceu, os bancos são capazes de identificar transações arriscadas ou fraudulentas e evitar totalmente a fraude. Esse aliás será um dos projetos do curso Inteligência Artificial Aplicada a Finanças – Fintechs e Blockchain da Data Science Academy.

O Big Data tem receita estimada em US $ 203 bilhões até 2020. Para dizer ainda mais, até 2030 os dados contidos no livro-caixa podem valer até 20% do mercado global de Big Data e gerar até US $ 100 bilhões em renda anual.

Auditoria de Trilhas em Dados

A tecnologia Blockchain nos permite ter trilhas de auditoria nos dados, para melhorar a confiabilidade dos dados, através de históricos autenticados. Veja como funciona em linhas gerais:

Digamos que você tenha um Pipeline de Dados de seis etapas (caso queira mais detalhes sobre isso e aprender como criar um pipeline como esse, clique aqui):

Sensores IoT → Kinesis/Hub de eventos + análise de fluxo → Armazenamento HDFS → Limpeza de dados no Spark → Normalização  → Armazenamento no MongoDB → Análise no Tableau.

Antes de iniciar cada etapa do Pipeline de Dados, teríamos as seguintes atividades:

1. Criamos uma transação, em forma de documento JSON, que inclua um hash dos dados, hashes de cada linha e coluna, se desejar, e quaisquer metadados que desejar incluir (por exemplo, de onde você tirou os dados).

2. Criptograficamente, assinamos a transação com sua chave privada. Esta é uma assinatura digital clássica.

3. Gravamos a transação no banco de dados Blockchain (como o BigchainDB, por exemplo). Ele irá carimbar automaticamente a transação. Agora você tem evidências imutáveis de que teve acesso a esses dados naquele momento, que outros podem verificar criptograficamente com base em sua chave pública.

Após a conclusão de cada etapa do Pipeline de Dados, fazemos um registro de data e hora dos dados de saída nas mesmas três etapas.

Há uma maneira ainda mais simples para algumas etapas, se você estiver usando um banco de dados distribuído que o BigchainDB já encapsula (por exemplo, MongoDB, RethinkDB). Você então simplesmente troca esse banco de dados (por exemplo, MongoDB) com sua versão com Blockchain. Não há necessidade de hashing, porque é tudo implícito. 

Vejamos alguns benefícios e como isso resolve os problemas que descrevemos anteriormente.

Problema: Se você mesmo gerar os dados, como prova que é o criador?

Solução: As pessoas que têm sua chave pública podem ver que você assinou criptograficamente.

Problema: Se você receber dados de outras pessoas, como você sabe que são realmente delas?

Solução: Você pode verificar a transação em relação à chave pública dessa pessoa.

Problema: E quanto a falhas e comportamento malicioso? As máquinas quebram, falhas acontecem, os bits mudam.

Solução: Você pode executar processos periódicos para re-hash dos dados armazenados no pipeline. Se o novo hash não corresponder ao hash anterior, algo está errado.

Problema: Torradeiras IoT Zumbis podem estar inserindo lixo no seu Data Lake.

Solução: Primeiro, use dispositivos IoT com segurança adequada. Esses dispositivos IoT devem ter uma maneira de assinar os dados em que sua chave privada não é comprometida. Então, como antes, você pode verificar a transação de entrada de dados do dispositivo IoT em relação à sua chave pública.

E esses são apenas alguns exemplos.

DataBlockchain Torna Mais Simples o Uso de Big Data

A tecnologia baseada em Blockchain parece ser capaz de fornecer respostas para muitas questões atualmente urgentes. Ainda mais, no entanto, parece ser capaz de fornecer um espectro de benefícios para todos.

A combinação de Blockchain e Big Data pode tornar a verificação de dados transferíveis sem interrupções. Qualquer um que já teve que lidar com grandes quantidades de informações sabe que sempre há altos custos associados a grandes volumes de dados, como duplicação de dados, informações falsas e erro humano.

Além disso, além de melhorar seriamente o gerenciamento de dados, essa tecnologia emergente pode ser aplicada diretamente para transformar a publicidade digital como a conhecemos. Blockchain pode servir como meio para prevenção de fraude, engajamento e segmentação aprimorados e se livrar de intermediários desnecessários em diferentes canais.

A tecnologia Blockchain pode ser usada para lidar com a maioria dos problemas que as empresas enfrentam. E um bom exemplo é o DataBlockChain, uma plataforma de dados revolucionária que promete transformar a maneira como empresas e indivíduos obtêm dados.

O DataBlockChain permite ter acesso a informações críticas para o mundo, como informações governamentais, econômicas, registros de votação, dados B2B, propriedades e dados de agências de crédito. Imagine para uma empresa, poder realizar suas análises cruzando todos esses dados, com segurança, confiabilidade e em tempo real, para a tomada de decisões de forma consciente? Assista o vídeo abaixo para conhecer um pouco melhor o que é o DataBlockchain:

 

 

O projeto integra Inteligência Artificial, Big Data e tecnologia baseada em Blockchain em uma plataforma que permite inúmeras vantagens para todos os envolvidos. Tanto provedores de dados e empresas quanto indivíduos que desejam obter informações, podem experimentar os seguintes benefícios do DataBlockChain:

– Transparência: Através do uso da tecnologia baseada em Blockchain, os provedores de dados podem confiar na rastreabilidade e transparência.

– Confiança: A solução traz um sistema de verificação e classificação, fornecendo a confiança necessária entre a fonte de dados e o usuário final.

– Precisão: O uso da Inteligência Artificial permite a navegação rápida e precisa e a classificação de bilhões de registros de dados, enquanto a tecnologia baseada em Blockchain garante sua verificação.

– Simplicidade: A plataforma traz uma interface simplificada e fácil de usar, que também vem com um sistema de pagamento rápido e muito seguro.

Dados são o novo petróleo e o mundo é cada vez mais gerenciado por eles!

Transações de Big Data Entre Empresas

A moeda nativa do projeto DataBlockChain é o DBCCoin. Ele servirá como principal mídia de troca na plataforma, facilitando todas as transações. A plataforma também terá sua própria carteira nativa baseada acessada via browser que permitirá a troca perfeita entre Ethereum e seu token DBCC nativo.

Veja como funciona o mercado de transações de Big Data entre empresas com o DataBlockChain.

1. Inscrição: um cliente cria uma conta com DataBlockChain.io e cria um perfil de usuário. O cliente então instala o DBCWallet.

2. Troca de Moedas: O cliente usa o DBCWallet para comprar facilmente o ETH usando o Coinbase ou outras trocas. Além disso, o DBCWallet também pode ser usado para trocar ETH por tokens DBCCoin.

3. Consulta: o cliente cria uma solicitação detalhada para os dados necessários e recebe uma contagem de dados disponíveis e preço.

4. Compra: o cliente compra os dados e o pagamento é enviado do DBCWallet. Em seguida, um contrato inteligente executa o pagamento e, em seguida, os dados são agregados e entregues ao cliente.

5. Fonte de dados: o provedor de fonte de dados recebe o pagamento de suas informações de Big Data, e pode optar por converter o pagamento em ETH, USD ou DBCCoin.

Ou seja, um novo mercado, novas aplicações, um novo modo de fazer negócios. Aqui o produto são dados (Big Data), mas poderia ser qualquer outra coisa. Isso parece muito avançado para você? Bom, isso já está acontecendo e empresas como SAP, IBM, Microsoft e Oracle já perceberam o oceano azul de oportunidades. 

Conclusão

A tecnologia de banco de dados Blockchain pode ajudar a resolver dois grandes desafios do Big Data: como confiar nos dados e como construir uma troca de dados universal dentro da empresa, entre empresas ou globalmente. O mundo está apenas esperando os profissionais que vão desenvolver estas soluções.

Temos ainda mais 2 artigos na série sobre Blockchain. Até lá!

 

E se fosse possível aprender a construir aplicações descentralizadas com Blockchain, para a área financeira? Tudo 100% em português e 100% online, com conteúdo do básico ao avançado, suporte em até 24 horas e networking com uma comunidade de alunos de alto nível? Em breve, aqui na DSA, será possível! Fique atento ao nosso e-mail de lançamento. Para fazer parte da nossa lista e ser avisado primeiro dos lançamentos é só fazer seu cadastro gratuito em nosso site:

www.datascienceacademy.com.br

 

Referências:

Big Data e as Oportunidades com Blockchain

BigChainDB

Blockchains for Big Data

Big Data, Analytics Sales Will Reach $187 Billion By 2019

Why blockchain? What can it do for big data?

Blockchain and Big Data: the match made in heavens

Big Data and the Blockchain