Vemos com frequência o debate sobre qual linguagem de programação deve ser utilizada pelo Cientista de Dados: R ou Python para Data Science? Apesar de existirem muitas outras possibilidades, estas duas linguagens tem polarizado as discussões sobre qual ferramenta utilizar para análise. As duas linguagens são gratuitas, podem ser instaladas em diversos sistemas operacionais, possuem grande comunidade, vasta documentação e ambas possuem vantagens e desvantagens, pontos fortes e pontos fracos.

Mas aí surge a pergunta: por que não utilizar as duas soluções em conjunto? Por que não utilizar o melhor de cada linguagem e criar uma solução robusta? Veja no Jupyter Notebook criado pela nossa equipe ao fim deste post, como utilizar R e Python juntos. Antes porém, uma breve descrição de cada linguagem.

Em geral, você não vai errar se optar por aprender Python ou R para análise de dados. Cada linguagem tem seus prós e contras em diferentes cenários e tarefas. Além disso, existem bibliotecas para usar Python com R e vice-versa, de modo que aprender uma linguagem não vai impedi-lo de aprender e usar a outra. 

 

Python

Python é uma linguagem de programação de uso geral que pode ser usada para diferentes fins: coleta de dados, engenharia de dados, análise, Web Scraping, construção de aplicativos web e muito mais. É mais simples de dominar do que R se você já aprendeu uma linguagem de programação. Além disso, como Python é uma linguagem de programação orientada a objetos, é mais fácil escrever em grande escala e com código robusto, do que com R.

Embora Python não tenha um conjunto de pacotes e bibliotecas tão abrangente como os disponíveis para a linguagem R, a combinação de Python com ferramentas como Pandas, Numpy, Scipy, Scikit-learn e Seaborn, torna a linguagem uma das principais escolhas entre os Cientistas de Dados. A linguagem também está se tornando útil para tarefas em Machine Learning e de base para o trabalho estatístico intermediário (anteriormente apenas sob o domínio de R).

Linguagem R

R tem uma história longa e confiável e uma forte comunidade de suporte em análise de dados e Estatística. Juntos, esses fatores significam que você pode contar com o apoio online da comunidade, se você precisar de ajuda ou tiver dúvidas sobre a utilização da linguagem. Além disso, há uma abundância de pacotes lançados publicamente (mais de 8.000), que podem ser baixados para estender as capacidades da linguagem. Isso faz R ótimo para a execução de complexas análises exploratórias de dados. R também se integra bem com outras linguagens de programação como C ++, Java e C. Quando é preciso fazer análises estatísticas pesadas ou gráficas, R mostra sua força, através de pacotes como lattice e ggplot2.

 

Se as duas linguagens possuem tantas vantagens, por que você precisa escolher apenas uma? E por que não usar as duas linguagens em conjunto? Essa integração pode ser feita em duas vias, instalando um pacote no R, para chamada de scripts Python ou instalando um pacote no Python, para executar funções e comandos R. Neste tutorial faremos a instalação do pacote rpy2 no Python e assim poderemos usar comandos R dentro de nossos scripts Python. Este e outros Jupyter Notebooks estão disponíveis no capítulo 9 do nosso curso gratuito de Python Fundamentos para Análise de Dados, onde ensinamos os alunos sobre as etapas necessárias para análise exploratória de dados, como utilizar Python e R juntos e como utilizar o algoritmo KNN para reconhecimento de imagens

Se ainda não se inscreveu no curso, não perca tempo. É gratuito. Além deste notebook, você ainda tem acesso aos vídeos, e-books, exercícios e quizzes. E o curso oferece certificado de conclusão.

Ah, mas e qual a melhor solução tecnológica? A melhor solução é aquela que resolve o problema do cliente.


Bons estudos!

Tiago Pereira