A profissão de Cientista de Dados está em alta demanda em todo mundo e estima-se que a falta desses profissionais vai aumentar nos próximos anos, à medida que as empresas adotam uma cultura data-driven e incorporam Big Data como parte da estratégia de negócio. Mas o que é um Cientista de Dados, afinal?

Considere a equipe de Ciência de Dados da Alpine Data, uma startup de software em San Francisco, na California EUA, que ajuda as empresas a analisar seus dados e fazer previsões sobre seus negócios. Inclui um ex-gerente de marketing, um ex-físico, um ex-pesquisador de operações e um ex-consultor de negócios (Business Analyst). Ajudando a equipe há também um ex-matemático que foi contratado como engenheiro de software.

“Nós acreditamos fortemente que ter profissionais com diferentes experiências que colaboram em torno de um problema é mais importante do que apenas selecionar alguns algoritmos extravagantes,” diz o co-fundador da Alpine Data, Steven Hillion.

Em outras palavras, apesar de seu nome, Ciência de Dados não é apenas sobre ser hábil com números. Em vez disso, um Cientista de Dados eficaz também tem a capacidade de ver como determinados subconjuntos de dados podem ser mais úteis do que outros e que conclusões podem ser extraídas deles.

O termo Ciência de Dados (ou Data Science) não era utilizado até 2008, quando começou a ficar claro que o volume de dados sendo acumulados estava além da capacidade dos seres humanos para analisar ou compreender sem a ajuda de uma máquina. A capacidade de analisar bilhões de linhas de dados com centenas de milhares de variáveis abriu novas fronteiras na ciência ambiental, medicina, política, história e dezenas de outros campos.


Fatores humanos

Mas à medida que os oceanos de dados cresceram, cresceu também a necessidade de profissionais que possam entender estatísticas, aprendizado de máquina (Machine Learning), trabalhar com conjuntos de dados complexos, softwares e ferramentas de análise e explicar tudo aos clientes.

Steven Hillion, o co-fundador da Alpine Data, que tem um Ph.D. em matemática, diz que viu a necessidade de Cientistas de Dados em sua companhia anterior, Greenplum, agora parte de EMC Corp., e teve que desenvolver técnicas para criá-los porque não havia profissionais que poderiam fazer o trabalho. Ele usa os mesmos métodos na Alpine.

Um teste, diz ele, é se um candidato a emprego, dada a escolha de conjuntos de dados, pode escolher e trabalhar com o mais interessante. O teste que ele desenhou na Alpine, por exemplo, inclui um conjunto de dados do Departamento de Polícia de Nova York sobre as colisões de veículos na cidade, que podem ser subdivididos de várias maneiras – por número e tipos de veículos e motoristas, número e tipos de lesões e mortes, contribuindo causas e vários tipos de localidades. O Cientista de Dados Chefe na Alpine, T.J. Bay, que fez a parte de dados do teste, diz que chamou atenção o número de campos interessantes que poderiam ser usados para ajudar a visualizar e prever acidentes.

É um teste particularmente bom para um Cientista de Dados, diz Hillion, porque “foi literalmente, em um sentido tecnológico, multidimensional. Você pode dividi-lo por geografia, tempo, tipo de veículo, tipo de acidente, características do motorista e assim por diante. E não há nenhum aspecto disto que seja, obviamente, um caminho que você deve seguir. “Além disso, ele diz, os resultados são algo que todos estão interessados: como evitar acidentes.

Todas as sextas-feiras, os membros da equipe explicam seus projetos e dão feedback uns aos outros. Dadas todas as habilidades que uma Cientista de Dados precisa, Hillion diz, “você pode não ter tudo isso em uma única pessoa”.


Estudando Acidentes

Certa vez a Alpine participou de um desafio para analisar dados de vários anos sobre acidentes de trânsito dos EUA para entender melhor as tendências e causas de acidentes graves. A Cientista de Dados Emilie de Longueau, analisou dados e variáveis ​​isoladas para analisar, visualizar e, em última instância, prever a gravidade de lesões e acidentes.

Mas Hillion achou que suas visualizações eram “um pouco simplórias”, ele diz, então pediu aos outros membros da equipe para analisarem novamente os dados. Enquanto um engenheiro se concentrava nas visualizações da Sra. De Longueau, outro engenheiro lhe pediu para explicar em detalhes por que ela escolheu certos dados e como ela fez suas previsões.

Um dos engenheiros sugeriu usar um algoritmo novo que ele tinha inventado. Quando a análise foi concluída, dois gerentes de produto – cujo foco é traduzir técnicas em conceitos de negócios – usaram-na para criar uma aplicação Web fácil de usar. O aplicativo oferece aos usuários uma ferramenta de previsão para estimar taxas e gravidade de acidentes de trânsito com base em variáveis ​​como taxas de condução por motoristas embriagados ou excesso de velocidade.

O produto acabado, diz Hillion, “criou uma maneira de levar a aprendizagem de máquina [que foi aplicada pela primeira vez aos dados] e torná-la utilizável por pessoas sem conhecimento em análise de dados”.

Para alcançar esses conhecimentos, Hillion diz que ele contrata pessoas que podem projetar algoritmos, pessoas que podem escrever código para fazer os algoritmos funcionarem em diferentes sistemas de computador e pessoas que podem aplicar esses algoritmos aos dados dos clientes e depois explicar o que eles fizeram. Esse último conjunto de habilidades que Hillion se refere como “a camada humana”.

Outra habilidade essencial: o conhecimento de uma área de negócio. Anshuman Mishra, outro Cientista de Dados da Alpine, que está pesquisando como uma empresa de serviços financeiros pode detectar lavagem de dinheiro e fraude, é um ex-trader de derivativos. O conhecimento do negócio é fundamental para análises precisas.

Em resumo, a Alpine emprega uma equipe multidisciplinar de Cientistas de Dados que se auto-completam!


Wall Street Science

Grandes empresas com muito dinheiro – e muitos dados – muitas vezes têm seus próprios especialistas em Ciência de Dados. Jeff McMillan, diretor de análise do Morgan Stanley, supervisiona cerca de 45 pessoas como parte de um projeto de vários anos para oferecer análises mais precisas e rápidas, aos analistas financeiros da empresa e, em última instância, aos clientes da Morgan Stanley para que eles possam tomar melhores decisões de investimento.

O Sr. McMillan supervisiona equipes separadas de estatísticos e especialistas em visualização de dados, juntamente com uma equipe de Cientistas de Dados que trabalham na previsão em tempo real das próximas melhores ações para os clientes.

“Estamos tentando fornecer conselhos aos clientes em tempo real”, diz ele. “Onde está a carteira relativa aos objetivos … e quando foi a última vez que você falou com o cliente? Ninguém quer a carteira que todo mundo tem. “

Ele também supervisiona especialistas em inteligência artificial que estão construindo sistemas especialistas que poderiam “conhecer a resposta a todas as questões de serviços financeiros” para que as perguntas e informações possam ser transferidas mais rapidamente.

“Todos nós seremos Cientistas de Dados, apenas em graus diferentes”, diz McMillan. “Realmente o que eu estou focado é conectar a ciência com a prática.”


Universidades Envolvidas

Para ajudar os aspirantes a Cientistas de Dados a forjar seus próprios caminhos de carreira, mais universidades estão oferecendo programas em Ciência de Dados ou Analytics.

A Universidade da Califórnia, Berkeley, está em seu segundo ano de um programa para tornar as aulas de Ciência de Dados disponíveis para todos os estudantes de graduação. Até agora, cerca de 1.200 estudantes de 60 áreas se inscreveram. Os chamados “cursos conectores” estão disponíveis para ajudá-los a aplicar técnicas de Ciência de Dados a áreas específicas, como engenharia ambiental. Uma turma de Ética está sendo ensinada também, para que os alunos possam pensar sobre “os limites que poderiam ser cruzados se os dados não são usados ​​de forma responsável”, diz Cathryn Carson, professora associada de História.

Berkeley está tentando trazer estudantes de outros campos, normalmente sem acesso a ferramentas de Ciência dos Dados com o objetivo de gerar perspectivas diversas, Dr. Carson diz. Um especialista em antropologia, por exemplo, “pensará profundamente sobre os contextos sociais e contextos humanos que deram origem aos dados”, diz ela. “Que tipos de perguntas foram solicitadas para gerar esses dados? Foram essas boas perguntas ou perguntas tendenciosas? “

O interesse de estudantes de saúde pública em Berkeley levou a um projeto de estudo de dados sobre mortalidade infantil em diferentes países. Alguns estudantes de psicologia social, entretanto, querem estudar como os seres humanos reagem aos dados móveis coletados sobre sua saúde.

Dr. Carson diz de tais estudantes, “Eles também estão apreciando o bem social que pode ser obtido trabalhando com exemplos de bem-estar humano, ao invés de apenas dados sobre o Twitter.”

Matéria original escrita por Ms. Gage, escritora em San Jose, Califórnia, no Wall Street Journal. Ela pode ser contatada pelo e-mail [email protected]

E você, o que está esperando para iniciar sua capacitação em uma das profissões que mais cresce em todo mundo? Clique no link abaixo e conheça a Formação Cientista de Dados da Data Science Academy.

Quero saber mais