O Microsoft Azure é a plataforma em nuvem da Microsoft que oferece diversos serviços e permite que empresas e profissionais utilizem ferramentas pagando apenas pelo que usar, com a alta performance oferecida pelo Cloud Computing e reduzindo custos. Neste artigo, vamos responder a seguinte pergunta: Como o Microsoft Azure Pode Ajudar os Cientistas de Dados?

Microsoft Azure

O Microsoft Azure é uma plataforma destinada à execução de aplicativos e serviços, baseada nos conceitos da computação em nuvem (Cloud Computing).

A apresentação do serviço foi feita no dia 27 de outubro de 2008 durante a Professional Developers Conference, em Los Angeles e lançado em 1 de Fevereiro de 2010 como Windows Azure, para então ser renomeado como Microsoft Azure em 25 de Março de 2014. Atualmente o Microsoft Azure é a segunda maior plataforma de Cloud Computing do mundo, ficando atrás apenas da AWS (Amazon Web Services).

Azure na DSA

Aqui na DSA o Microsoft Azure não é novidade. Em dois dos nossos treinamentos de excelência já oferecemos aos alunos vasto material sobre alguns serviços em nuvem do Azure, no curso Big Data Analytics com R e Microsoft Azure Machine Learning e no curso Analytics, Visualização, Relatórios e Tomada de Decisões com Big Data.

Azure no Pipeline de Ciência de Dados

O Microsoft Azure pode ser usado no pipeline de Ciência de Dados de várias maneiras diferentes. A opção óbvia é utilizar o Azure Machine Learning. Com o AzureML, um Cientista de Dados pode usar seu navegador e criar experimentos complexos de aprendizado de máquina sem escrever uma única linha de código (simplesmente arrastando e soltando diferentes módulos na tela de experimentos). É uma maneira visual de projetar e executar algoritmos de Machine Learning. Você também pode usar R, Python e SQL para realizar modificações de dados e engenharia de recursos.

Recentemente, o Jupyter Notebook (anteriormente conhecido como IPython) foi adicionado ao AzureML. Assim você pode facilmente adicionar seu conjunto de dados e escrever código Python em um notebook da mesma forma que faria diretamente no seu computador ou em outra plataforma como Anaconda Python. O plano da Microsoft é apoiar mais linguagens dessa maneira, como R e Julia.

Com o AzureML, a transição do design e teste para a produção é muito fácil. Na verdade, você precisa de apenas dois cliques (para designer visual) ou algumas linhas de código para transformar seu modelo em um web service totalmente funcional.

Se você precisa trabalhar com o Hadoop, o Azure fornece o Hdinsight, que é a distribuição do Hadoop pela HortonWorks. Inclui Hive, MapReduce, Spark e muito mais.

Para armazenamento de dados, o Azure fornece o AzureSQL (banco de dados relacional), o Document DB (banco de dados de documentos), o AzureTable (armazenamento de valor-chave) e o AzureBlob (armazenamento de blobs), além do HDFS (Hadoop Distributed File System).

A propósito, o Azure inclui o eventHub e o streamAnalytics para dados de fluxo para análise de dados gerados em tempo real, como logs de servidores ou interações em redes sociais.

Em resumo, há várias opções para um Cientista de Dados no Azure e algumas delas se sobrepõem em termos de funcionalidade. A propósito, todas as ferramentas e tecnologias mencionadas podem ser integradas ao Excel e ao PowerBI.

Mas uma lista das ferramentas disponíveis para os Cientistas de Dados no Azure seria incompleta sem mencionar o Data Factory e o Data Lake. Ambas as ofertas são relativamente novas.

O Data Lake é um grande armazenamento de dados e uma oferta de computação realmente incrível. Você pode pensar nisso quase como o Hadoop, mas com a capacidade de dimensionar dinamicamente com base nos recursos disponíveis. Falaremos mais sobre esse incrível serviço aqui mesmo neste artigo.

O Data Factory é uma oferta que torna a criação de movimentações de dados e o processamento de pipelines tão fácil quanto a definição de alguns valores de configuração. Com ele, você pode programar o pré-processamento, a pontuação (via Azure ML) e mover os resultados facilmente para um local acessível (como o Azure SQL).

Microsoft Azure Data Lake

O Microsoft Azure Data Lake é um serviço de nuvem altamente escalonável que permite que desenvolvedores, cientistas, profissionais de negócios e outros clientes da Microsoft obtenham insights de conjuntos de dados grandes e complexos. Como a maioria das ofertas de Data Lake, o serviço é composto de duas partes: armazenamento de dados e análise de dados.

De acordo com a Microsoft, os clientes podem provisionar o Azure Data Lakes para armazenar uma quantidade ilimitada de dados estruturados, semi-estruturados ou não estruturados a partir de uma variedade de fontes. O serviço não impõe limites ao tamanho da conta, ao tamanho dos arquivos ou à quantidade de dados que podem ser armazenados em um Data Lake.

Do lado da análise, os clientes do Azure Data Lake podem criar seu próprio código para realizar tarefas específicas de transformação e análise de dados operacionais ou transacionais. Eles também podem usar ferramentas existentes, como o Microsoft Analytics Platform System ou o Azure Data Lake Analytics, para consultar conjuntos de dados.

O Azure Data Lake é baseado na plataforma de gerenciamento de clusters Apache Hadoop YARN (Yet Another Resource Negotiator) e destina-se a dimensionar dinamicamente entre servidores SQL no Azure Data Lake, bem como servidores no Banco de Dados SQL do Azure e no SQL Data Warehouse do Azure. Uma abordagem unificada no ecossistema do Hadoop ajuda o serviço a acomodar as necessidades de projetos de Big Data, que são intensivos em computação e geralmente requerem que os dados sejam armazenado de forma distribuída.

O preço do Azure Data Lake depende de diversas variáveis, incluindo a capacidade de armazenamento, o número de unidades de análise (AUs) por minuto, o número de tarefas concluídas e o custo dos clusters Hadoop e Spark gerenciados. No momento da redação deste artigo, o serviço Azure Data Lake Store custa US $ 0,039 por GB por mês para pagamento a qualquer momento, com descontos baseados em capacidade de até 33% para compromissos mensais. A Calculadora de Preços do Azure pode ajudar os clientes a determinar os custos exatos do Data Lake.


E que tal uma Formação focada em soluções Microsoft para Ciência de Dados:

Formação Desenvolvedor Microsoft Para Data Science e IA

Uma Formação 100% Microsoft. A Formação começa com algo inédito em língua portuguesa: Machine Learning com linguagem C# e ML.NET para aplicações desktop, tudo desde o básico em programação até a construção de modelos de Machine Learning. Na sequência, ele, o desejado, cobiçado, amado: Power BI avançado para aprender a extrair análises customizadas e profissionais.

Depois um mergulho no ambiente em nuvem da Microsoft, o Azure, com 2 cursos completos ensinando em detalhes: Bancos de dados SQL Server, NoSQL, Data Lake, IoT, Cognitive Services, Visão Computacional, Processamento de Linguagem Natural, Chatbots, Sistemas de Recomendação e muito mais. Serão 4 cursos e um projeto final:

Curso 1 – Programação e Machine Learning com C#
Curso 2 – Power BI Avançado Para Análise de Dados
Curso 3 – Armazenamento e Processamento em Nuvem com Microsoft Azure
Curso 4 – Cloud Computing para Data Science e Inteligência Artificial
Projeto Final

Acesse o programa e comece agora mesmo:

www.datascienceacademy.com.br

Referências: