Uma imagem vale mais que 1000 palavras, certo? Mas apenas 10 palavras são necessárias para criar incríveis gráficos e imagens usando a linguagem R. A evolução e amadurecimento do R, tem levado grandes empresas como Oracle e Microsoft, a investirem seus bilionários recursos em pesquisa e desenvolvimento para aprimorar suas soluções analíticas utilizando o R como base. A linguagem R vem se tornando ainda o principal “idioma” de Cientistas e Analistas de Dados e está liderando a revolução proporcionada pelo Big Data Analytics.

Com o crescimento do Big Data e a quantidade de dados cada vez maior à disposição de empresas e indivíduos, todos estão em busca de ferramentas que tragam insights desta imensidão de dados e forneçam o apoio necessário nas tomadas de decisão. A época em que se utilizava o Excel para fazer o pivot dos dados já passou e a linguagem R além de gratuita e poderosa, está se tornando a linguagem padrão em projetos de Data Science.

Para aqueles que nunca ouviram falar na linguagem R, trata-se de uma fascinante linguagem estatística, que por muitos anos esteve apenas sob o domínio dos acadêmicos, mas que recentemente tem se tornado uma habilidade solicitada por recrutadores que buscam profissionais com capacidades analíticas. Trata-se de uma linguagem de programação especializada em computação de dados. Algumas das suas principais características são o seu caráter gratuito e a sua disponibilidade para uma gama bastante variada de sistemas operacionais. O R é também altamente expansível com o uso dos pacotes, que são bibliotecas para funções específicas ou áreas de estudo específicas. Um conjunto de pacotes é incluído com a instalação do software, mas muitos outros estão disponíveis na rede de distribuição do R (CRAN). No momento que escrevo este artigo, já são quase 9 mil pacotes disponíveis.

E por que é hora de aprender a linguagem R? Por diversas razões.

Plataforma Independente

A linguagem R foi criada por Ross Ihaka e Robert Gentleman na Universidade de Auckland, Nova Zelândia, e atualmente é desenvolvido pela equipe de Desenvolvimento do R. O código fonte para o ambiente de software R é escrito principalmente em C, Fortran e R e está disponível gratuitamente sob a licença GNU General Public e em vários sistemas operacionais como MAC, Windows e Linux. R usa uma interface de linha de comando, mas há também front-ends gráficos para ele, como o poderoso RStudio. O sistema R é mantido atualmente, como um projeto colaborativo, com muitos grupos de contribuidores (chamado grupo R-Core), formados por pesquisadores de renome internacional, ligados a área acadêmica, em diversos países, inclusive o Brasil. O nome “R” esta baseado na letra inicial dos dois primeiros autores, Ross and Robert e faz uma referência indireta à linguagem S da Bell Labs, versão comercial muito similar ao R. A linguagem R portanto, é independente e pode ser usada em praticamente todos os sistemas operacionais disponíveis atualmente.

Oracle e Microsoft já Perceberam o Potencial da Linguagem R

Durante os primeiros anos, R foi muito utilizada no ambiente acadêmico, com pouca utilização no ambiente corporativo. Por ser uma solução open-source, as empresas sempre ficaram apreensivas em usar R e durante sua fase de produção detectar um bug e não ter quem resolvesse o problema (o mesmo fenômeno aconteceu e acontece até hoje com o sistema operacional Linux). Se você é Presidente de uma empresa com faturamento na casa de bilhões de dólares, você pode não querer entregar seus projetos a soluções que não tenham um poderoso suporte por trás.

Agora, se você é Presidente de uma empresa que fatura bilhões de dólares, tenho certeza que vc estaria mais confortável em implementar soluções analíticas com R, suportadas por 2 gigantes da indústria de TI, como Oracle e Microsoft, que estão investindo pesado na linguagem R para suas soluções analíticas, como o Oracle R Enterprise e o Microsoft R Server. A tendência é que o R esteja em todos os lugares nos próximos anos e seu investimento em aprender a linguagem pode ser um movimento bastante inteligente.

Uma das melhores ferramentas para visualização de dados

A capacidade de criar gráficos agradáveis devido sua funcionalidade de processamento paralelo faz R uma forte ferramenta de visualização e gráficos. A linguagem R permite que os Cientistas de Dados criem gráficos interativos a partir dos resultados das análises de dados. Os gráficos podem ser usados para obter insights significativos durante todo o processo de análise de dados ou podem ser exportados em um relatório para apresentações executivas. Existe um consenso, que o pacote ggplot2, é uma das melhores ferramentas do mercado disponíveis para a construção de visualizações profissionais. O ggplot2 é gratuito!

Data Wrangling

Talvez você não saiba, mas 60% do tempo de um Cientista de Dados é usado no processo de limpeza, transformação e organização dos dados, ou seja, na manipulação. O R possui diversos pacotes que facilitam esse processo, através de funções que foram desenvolvidas especificamente para este fim. Com poucas linhas de código é possível fatiar, agrupar, modificar, inverter e transformar os dados ou ainda criar subsets e aplicar funções a estes subsets e depois retornar o resultado agrupado por subset. Tudo isso com uma ou duas instruções em R.

Linguagem do Big Data

Se você ainda acha que Big Data é apenas um tema da moda, devia rever seus conceitos. O Big Data já é realidade e o maior problema atual é a falta de profissionais capacitados. Analisar grandes conjuntos de dados, agrupá-los, aplicar modelos estatísticos, importar/exportar os dados para bancos de dados relacionais, NoSQL ou Hadoop, tudo isso pode ser feito com R. A linguagem foi criada para computar dados e o Big Data é a fonte ideal para isso. Diversos insights podem ser obtidos a partir do Big Data Analytics e usar a ferramenta certa para o trabalho, pode ser o diferencial entre o sucesso e fracasso de uma iniciativa de análise de grandes volumes de dados.

Utilização da Linguagem R

A linguagem R pode ser aplicada nas mais diversas áreas e para os mais diversos fins, tais como: Pesquisa Científica, Business Analytics, Desenvolvimento de Software, Relatórios Estatísticos, Econométrica e Análise Financeira, Ciência Sociais e Big Data Analytics.

Presença na Comunidade Científica

A linguagem R tem grande presença na comunidade científica e diversos pesquisadores que desenvolvem um modelo preditivo ou pesquisa utilizando linguagem R, compartilham o código como open source de maneira que o trabalho possa ser reproduzido e as pesquisas conduzidas por outros indivíduos ao redor do mundo. O mais incrível é que estas pesquisas podem ser feitas nas mais diversas áreas de conhecimento, como Medicina, Biologia, Epidemiologia, Economia, Finanças e claro, Ciência de Dados. Acesse o site RPubs e você terá acesso a excelentes trabalhos feitos em R e compartilhados na comunidade.

Machine Learning

Finalmente, há a aprendizagem de máquina. Apesar de Machine Learning ser um dos temas mais quentes do momento, recomendamos que você comece a se dedicar a este assunto, apenas depois de aprender sobre análise exploratória de dados. Saber manipular os dados é fundamental, antes de começar a aplicar seus algoritmos de Machine Learning. Quando estiver pronto para começar a usar a aprendizagem de máquina, R tem algumas das melhores ferramentas e recursos. A linguagem pode ser usada em todo o processo analítico, desde a coleta de dados, passando pela manipulação, Machine Learning, até a apresentação dos dados em reuniões executivas.

E agora?

Já está convencido da importância de aprender a linguagem R, mas não sabe por onde começar? E se eu disser a você que existe um curso de linguagem R 100% online, com aulas em vídeo com alta definição, exercícios, quizzes e e-books? E que este curso contém as mais modernas técnicas usadas para coleta e manipulação de dados em R? E que este curso ensina você a usar Machine Learning com R e depois aplicar todo seu conhecimento usando o Microsoft Azure Machine Learning? E que você pode assistir as aulas do seu smartphone ou tablet, através de uma app? Sim, isso existe. Clique no botão abaixo para acessar o programa completo.

 

Quero saber mais

 

Em nosso curso, temos uma série chamada Big Data na Prática, onde o aluno tem acesso a processos reais envolvendo Big Data Analytics. Mostramos por exemplo, como reduzir o tempo de processamento de um dataset com 8,5 milhões de registros, de 5 minutos para incríveis 7 segundos. Temos análises de dados em séries temporais, web scraping e ainda 5 projetos completos usando a linguagem R. No primeiro projeto, o aluno coleta dados de redes sociais, realiza text mining e faz análise de sentimentos, tudo isso usando o R. Todos os nosso vídeos acompanham o código completo usado nas aulas, comentados linha a linha.

Não perca mais tempo. O mercado está em busca de profissionais com capacidades analíticas. E conheça ainda nossa Formação Cientista de Dados, um programa completo para ajudar você a obter uma carreira em uma das profissões mais requisitadas no mercado.

Equipe DSA