4 Componentes Principais Para a Infraestrutura de Big Data
O Big Data pode trazer grandes benefícios para empresas de todos os tamanhos. No entanto, assim como acontece com qualquer projeto de negócio, a preparação e o planejamento são essenciais, especialmente quando se trata de infraestrutura. Até recentemente, era difícil para as empresas iniciarem seus projetos de Big Data sem fazer investimentos pesados em infraestrutura (datacenters, infraestrutura predial, software, equipe, etc.). Mas os tempos mudaram. A computação em nuvem, em particular, abriu muitas opções para usar Big Data, isso significa que as empresas podem aproveitar o Big Data sem ter que investir em maciças instalações de armazenamento e processamento de dados.
Para alavancar projetos de Big Data e transformá-los em ideias com valor comercial, é bem provável que você precise fazer investimentos nos seguintes elementos chave de infraestrutura: coleta de dados, armazenamento de dados, análise de dados e visualização e saída de dados. Vejamos cada um desses componentes:
Coleta De Dados
Este é a área por onde os dados chegam à sua empresa. Essa área inclui tudo, desde seus registros de vendas, banco de dados de clientes, comentários, canais de mídia social, listas de marketing, arquivos de e-mail e qualquer dado extraído de monitoramento ou usado para medir aspectos de suas operações. Pode ser que você já tenha os dados que precise, mas é provável que você necessite coletar alguns outros dados para complementar seu processo de análise.
Se for necessário criar novos dados, isso poderá exigir novos investimentos em infraestrutura. Os requisitos de infraestrutura para a captura de dados dependem do tipo de dado que será necessário, mas as principais opções podem incluir: sensores (que podem ser instalados em dispositivos, máquinas, edifícios ou em veículos, embalagens ou qualquer outro lugar de onde você gostaria de capturar dados), aplicativos que geram dados de usuários (por exemplo, uma app para celular que permite que os clientes façam pedidos mais facilmente), vídeo de circuito fechado de TV (CCTV), beacons (como iBeacons da Apple, que permitem capturar e transmitir dados para telefones celulares), mudanças em seu site que levam os clientes a obter mais informações e os perfis de redes sociais.
Com um pouco de conhecimento técnico, você pode configurar muitos desses sistemas sozinho, ou você pode se associar a uma empresa de dados para configurar os sistemas e capturar os dados em seu nome. O acesso a fontes de dados externas, como sites de redes sociais, pode exigir pouca ou nenhuma alteração de infraestrutura da sua parte, pois você está acessando dados que outra pessoa está capturando e gerenciando. Se você tem um computador e uma conexão com a internet, já pode iniciar a captura dos dados.
Armazenamento de Dados
É nessa área que você mantém seus dados que foram coletados. À medida que o volume dos dados gerados aumenta e necessita ser armazenado pelas empresas, sistemas e ferramentas sofisticadas e acessíveis vão sendo desenvolvidas para ajudá-lo nessa tarefa. As principais opções de armazenamento incluem: um Data Warehouse tradicional, um Data Lake, um sistema de armazenamento distribuído / baseado em nuvem, um servidor ou até mesmo um disco rígido de computador.
Discos rígidos tradicionais estão disponíveis por um baixo custo e alta capacidade de armazenamento atualmente, e para uma pequena empresa, isso pode ser tudo o que você precisa. Mas quando você começar a lidar com grande quantidade de dados para armazenamento e análise, ou quando os dados começarem a ser a parte fundamental do seu negócio, um sistema distribuído mais sofisticado (geralmente baseado em nuvem) como o Hadoop pode ser a opção ideal.
Sem sombra de dúvidas, o armazenamento baseado em nuvem é uma opção brilhante para a maioria das empresas. Ele é flexível, você não precisa de sistemas físicos no local e reduz a sua preocupação com a segurança de dados. Além de ser consideravelmente mais barato do que investir em sistemas dedicados de armazenamento de dados.
Análise de dados
Quando você desejar usar os dados que você armazenou para descobrir algo útil, você precisará processá-los e analisá-los. Então, esta área será primordial para transformar os dados em insights. É nesse momento que as linguagens de programação e plataformas entram em jogo.
Existem três etapas básicas neste processo:
- 1. Preparar os dados (identificar, limpar e formatar os dados para que estejam prontos para análise);
- 2. Construir o modelo analítico;
- 3. Extrair a conclusão a partir dos conhecimentos adquiridos.
Existem vários softwares de empresas como IBM, Oracle e Google por exemplo, que o ajudarão a realizar a análise de dados, ou seja, transformar dados “brutos”em insights, ou então soluções open source poderosas como as linguagens R e Python.
O Google tem o BigQuery, que é projetado para permitir que alguém com um pouco de conhecimento em ciência de dados execute consultas em grandes datasets. Outras opções de ferramentas de análise incluem a Cloudera, Microsoft HDInsight e Amazon Web Services. E muitas startups estão surgindo no mercado, oferecendo soluções simples que permitem você alimentar os dados enquanto elas geram os insights mais importantes e sugerem ações a serem tomadas.
Visualização e Saída de Dados
Essa é a área responsável por gerar as informações recolhidas da análise de dados e transmiti-las às pessoas que necessitam, ou seja, para os tomadores de decisão da sua empresa. Uma comunicação clara e concisa é essencial e este resultado pode vir em forma de breves relatórios, gráficos, figuras, recomendações-chave ou dashboards interativos.
Frequentemente, vemos empresas enterrar os reais “tesouros” de informações que podem afetar a estratégia quando recebem um relatório de 50 páginas ou um gráfico complicado que ninguém entende. É evidente que não podemos esperar que pessoas muito ocupadas acessem uma montanha de dados com infinitos apêndices de planilha e extraia mensagens-chave. Lembre-se: se as ideias-chave que não forem claramente apresentadas, não resultarão em ação.
As principais opções de saída de dados incluem dashboards de gerenciamento, plataformas de visualização de dados comerciais que tornam os dados atraentes e fáceis de entender, utilizando gráficos simples (como barras e linhas) que comunicam informações. Para a maioria das pequenas empresas que procuram melhorar a sua tomada de decisão, usar gráficos simples ou ferramentas de visualização como nuvens de palavras são mais do que suficientes para apresentar informações sobre os dados.
Juntas, essas quatro áreas representam os principais requisitos de infraestrutura para grandes projetos de dados.
Equipe DSA
Referências:
Building Your Big Data Infrastructure: 4 Key Components Every Business Needs To Consider