Como Iniciei a Carreira de Consultor de Inteligência Artificial: Perguntas e Respostas

O consultor Alexandre Gonfalonieri publicou um artigo detalhando sua caminhada em busca da carreira de Consultor em Inteligência Artificial. O que chamou atenção no artigo, foi a forma precisa e objetiva como ele descreveu algumas perguntas e respostas nas entrevistas que realizou e decidimos trazer o artigo traduzido para você que acompanha o nosso blog, já que a visão do Alexandre é totalmente alinhada com o que ensinamos nos cursos da DSA. Além disso, Alexandre reforça uma mensagem que passamos com frequência em nossos treinamentos: foco na solução de problemas do cliente. Isso é o que faz a diferença.

As dicas são valiosas. Aproveite a leitura.

Como Iniciei a Carreira de Consultor de IA: Perguntas e Respostas

Nas últimas semanas participei de entrevistas na Accenture, Wavestone, Google e IBM para uma posição de Consultor de IA, e gostei muito. Como tal, decidi escrever algo sobre essa experiência positiva. Discutirei como me preparei, apresentarei as perguntas que foram feitas durante o processo e compartilharei algumas dicas no final para ajudá-lo a ser contratado.

Preparação

Eu sempre quis trabalhar para uma empresa orientada por Inteligência Artificial, no entanto, percebi que desfrutava de conhecimento mais do aspecto estratégico do que da programação. Na verdade, eu aprecio o entendimento da estratégia, os desafios e as oportunidades do cliente enfrentados pela empresa, os recursos de análise e dados do cliente. Idealmente, combinando isso com o entendimento da IA de última geração, um consultor pode identificar as iniciativas de IA mais importantes para a empresa. Ainda assim, todo Consultor de IA deve entender todas as etapas de um projeto de IA. Como também tenho um emprego em período integral, levei 2 a 3 meses no total para me preparar. Recebi três ofertas ao final desse processo.

Como resultado, eu precisava me preparar para quatro áreas diferentes: programação, aprendizado de máquina, projeto e estratégia de sistemas.

Antes de entrar nas perguntas, recomendo a todos os interessados em se tornar Consultores de IA que entendam os elementos mencionados abaixo, porque você será desafiado sobre eles:

Capacidade de resolver desafios complexos de negócios usando algoritmos analíticos e IA.
Capacidade de projetar, construir e implantar modelos preditivos e prescritivos usando modelagem estatística, aprendizado de máquina e otimização.
Capacidade de usar decisões estruturadas para concluir projetos.
Capacidade de gerenciar um projeto inteiro de Machine Learning, desde a identificação de problemas de negócios, auditoria de dados até manutenção de modelos na produção.

Além do aspecto tecnológico, me disseram que as habilidades reais que os Consultores de IA precisam ter são a capacidade de ler nas entrelinhas quando um cliente está pedindo uma coisa, mas significa outra, e pensar estrategicamente em termos de dados.

A Entrevista – Parte I (Machine Learning)

Minha entrevista foi dividida em três partes: Machine Learning, estratégia de IA e conhecimentos gerais. Abaixo está a lista das perguntas que tive que responder.

1. Qual a diferença entre as técnicas de regressão e classificação em Machine Learning?

Resposta: As técnicas de aprendizado de máquina de regressão e classificação estão sob algoritmos de aprendizado de máquina supervisionado. No algoritmo de aprendizado de máquina supervisionado, temos que treinar o modelo usando um conjunto de dados rotulados. Durante o treinamento, precisamos fornecer os rótulos corretos e o algoritmo tenta aprender o padrão da entrada à saída. Se nossos rótulos forem valores discretos, será um problema de classificação, por exemplo, A, B etc., mas se nossos rótulos forem valores contínuos, será um problema de regressão, por exemplo, 1,23, 1,333 etc.

2. O que são dropouts?

Resposta: O dropout é uma maneira simples de impedir que uma rede neural se ajuste demais. É o dropout (eliminação) de algumas das unidades em uma rede neural. Fazendo uma analogia, é semelhante ao processo natural de reprodução, onde a natureza produz descendentes combinando genes distintos (abandonando outros) em vez de fortalecer a co-adaptação deles.

3. O que é o Modelo Oculto de Markov?

Resposta: Modelos Ocultos de Markov (Hidden Markov Models – HMMs) são uma classe de modelo gráfico probabilístico que nos permite prever uma sequência de variáveis desconhecidas (ocultas) a partir de um conjunto de variáveis observadas. Um exemplo simples de um HMM é prever o clima (variável oculta) com base no tipo de roupa que alguém usa (observado).

4. O que é acurácia e desempenho do modelo?

Resposta: A acurácia do modelo é um subconjunto do desempenho do modelo. O desempenho do modelo é a avaliação da performance geral do modelo através de diversas métricas. A acurácia é uma dessas métricas.

5. O que você quer dizer com Overfitting ou Underfitting de um modelo?

Resposta: O overfitting (sobreajuste) e o underfitting (subajuste) são responsáveis pelo mau desempenho. O excesso de ajuste oferece um bom desempenho nos dados treinados, mas generalização ruim para outros dados. A falta de ajuste impede que o modelo aprenda o relacionamento entre os dados e consequentemente não é capaz de generalizar para novos dados.

6. Qual das seguintes técnicas de aumento de dados você prefere para um problema de reconhecimento de objetos?

Resposta: Cropping, changing luminosity, Horizontal flipping, Rescaling, Zooming; Na verdade, o modelo de aprendizado profundo exige muitos dados para um treinamento eficiente. E para aproveitar o treinamento dos modelos com vários ângulos de objetos, costumo usar técnicas de aumento de dados (Dataset Augmentation).

7. O que são hiperparâmetros em redes neurais profundas?

Resposta: Hiperparâmetros são variáveis que definem a estrutura da rede. Por exemplo, a taxa de aprendizado define a magnitude com que os coeficientes são modificados a cada passada do gradiente e o número de épocas define por quanto tempo treinamos a rede.

8. Como ocorre o overfitting?

Resposta: O ajuste excessivo ocorre quando um modelo estatístico ou algoritmo de aprendizado de máquina captura o ruído dos dados. Isso faz com que um algoritmo mostre viés baixo, mas alta variação no resultado.

9. Como você pode evitar o overfitting (nomeie e explique técnicas diferentes)?

Resposta: A validação cruzada pode dividir os dados de treinamento para gerar várias pequenas divisões de teste e de treino. Essas divisões podem ser usadas para ajustar o modelo.

Muitas vezes, o conjunto de dados contém recursos irrelevantes ou variáveis preditoras que não são necessárias para análise. Tais recursos apenas aumentam a complexidade do modelo, levando a possibilidades de sobreajuste dos dados. Portanto, essas variáveis redundantes devem ser removidas.

Um modelo de aprendizado de máquina é treinado iterativamente, isso permite verificar o desempenho de cada iteração do modelo. Mas, após um certo número de iterações, o desempenho do modelo começa a saturar. Treinamento adicional resultará em sobreajuste, portanto, é necessário saber quando parar o treinamento. Isso pode ser alcançado graças à parada antecipada (Early Stopping).

Regularização: a regularização pode ser feita de várias maneiras. O método dependerá do tipo de modelo que estamos implementando. Por exemplo, a poda é realizada em árvores de decisão, a técnica de abandono (droput) é usada em redes neurais e o ajuste de parâmetros também pode ser aplicado para resolver problemas de sobreajuste.

Modelos Ensemble: o aprendizado com Modelos Ensemble é uma técnica usada para criar vários modelos de Machine Learning, que são combinados para produzir resultados mais precisos. Essa é uma das melhores maneiras de evitar o ajuste excessivo. Um exemplo é a Random Forest, que usa um conjunto de árvores de decisão para fazer previsões mais precisas e evitar o ajuste excessivo.

10. Qual é o papel da função de ativação?

Resposta: É usado para introduzir não linearidade na rede neural, ajudando-a a aprender funções mais complexas. Sem isso a rede neural seria capaz apenas de aprender a função linear, que é uma combinação linear dos dados de entrada.

A Entrevista – Parte II (Estratégia da IA)

1. Antes de considerar a implementação de soluções baseadas em IA, o que uma empresa deve fazer?

As organizações precisam de estratégias de dados que abranjam o estado atual dos negócios e da tecnologia, mas também objetivos futuros. Três elementos são fundamentais:

Aquisição estratégica de dados
Armazenamento unificado de dados
Processos para determinar o valor dos dados

2. Do ponto de vista estratégico, como uma empresa deve iniciar seu primeiro projeto de IA?

Resposta: De acordo com Andrew Ng, é fundamental que os primeiros projetos de IA sejam bem-sucedidos, em vez de serem os mais valiosos. Eles devem ser significativos o suficiente para que os sucessos iniciais ajudem a empresa a se familiarizar com a IA e também convençam os executivos de nível C (CEO, CIO, etc…) da empresa a investir em outros projetos de IA; eles não devem ser tão pequenos que os outros considerem triviais.

3. Como você descreveria o “círculo virtuoso da IA” e qual empresa usa essa estratégia?

Resposta: Produto → Usuários → Dados → Produto. Os melhores produtos têm mais usuários, e o maior número de usuários geralmente significa obter o máximo de dados e, com o Machine Learning, o produto se torna melhor. Uber e Amazon (Alexa) implementaram essa estratégia.

4. Por que a maioria das PoCs (Provas de Conceito) de IA não chega ao estágio de produção?

Responda: As razões são diversas, mas considero essas as principais:

A PoC não entrega o resultado desejado
Os custos finais de implementação são muito altos
A complexidade da solução é alta para o estágio atual da empresa
Falta de dados em quantidade e qualidade suficientes
A PoC não satisfaz os stakeholders

5. Como você ajudaria uma empresa a determinar se deve criar ou comprar uma solução de IA?

Resposta: Essa decisão depende principalmente da maturidade dos dados, acesso exclusivo aos conjuntos de dados, presença de Cientistas de Dados internos, necessidade estratégica de possuir o modelo de IA, orçamento e tipo de projeto. Em alguns casos, existem casos de uso em que contar com um provedor de serviços externo não é uma opção viável (preocupações com a privacidade). Se uma empresa não apenas tem acesso exclusivo a dados valiosos, mas também seu modelo de negócios se baseia nesses dados, a criação de um modelo de IA interno provavelmente será a melhor estratégia.

6. Quais serão os primeiros passos do seu trabalho se uma empresa quiser implementar a IA?

Resposta: Seria sensato dedicar algum tempo identificando um caso de uso de IA relevante que seria o objetivo geral da empresa. Além disso, é difícil prometer um modelo de trabalho sem avaliar exaustivamente os dados. Portanto, é difícil estimar o impacto concreto dos negócios de projetos de IA sem uma análise inicial dos dados.

7. Como você educaria executivos e funcionários de nível C (CEO, CIO, etc…) sobre IA?

Resposta: É essencial não apenas criar uma solução de IA, mas também criar uma cultura real de dados / IA na empresa. As equipes da estratégia de IA devem consistir em gerentes de produto, Cientistas de Dados, desenvolvedores de negócios e usuários finais. A educação dos funcionários pode ser realizada por meio de uma combinação de cursos presenciais e online, além da experiência prática.

8. Quais são os cinco componentes principais de uma estratégia de IA?

Resposta: Os componentes principais de uma estratégia de IA são: dados, infraestrutura, algoritmos, habilidades e organização.

9. Como você ajudaria uma pequena empresa a melhorar sua estratégia de dados?

Resposta: Antes de tudo, é fundamental descobrir o nível de maturidade dos dados da empresa. Muitas vezes, as empresas já possuem os dados necessários para lidar com questões de negócios, mas os tomadores de decisão simplesmente não sabem como podem usar esses dados para tomar decisões importantes. As empresas podem incentivar uma visão mais abrangente dos dados, sendo específicas sobre os problemas e oportunidades de negócios que precisam abordar. Além disso, as arquiteturas de TI existentes podem impedir a integração de informações em silos, e o gerenciamento de dados não estruturados geralmente permanece além dos recursos tradicionais de TI.

10. Se uma empresa não possui dados para um projeto, o que você recomendaria?

Resposta: Obviamente, isso depende da natureza do projeto. Antes de explorar soluções técnicas, pode valer a pena criar um mecanismo de coleta de dados antecipadamente ou contar com dados disponíveis gratuitamente. Existem muitos dados disponíveis para Machine Learning, e algumas empresas estão prontas para divulgá-los. Pode ser benéfico formar parcerias com outras organizações para obter dados relevantes.

Em geral, quanto mais simples o algoritmo de aprendizado de máquina, melhor ele aprenderá com pequenos conjuntos de dados. De uma perspectiva de ML, dados pequenos requerem modelos com baixa complexidade (ou alto viés) para evitar o ajuste excessivo do modelo nos dados. Notei que o algoritmo Naive Bayes está entre os classificadores mais simples e, como resultado, aprende notavelmente bem a partir de conjuntos de dados relativamente pequenos.

Você também pode confiar em outros modelos lineares e árvores de decisão. De fato, eles também podem ter um desempenho relativamente bom em pequenos conjuntos de dados.

Basicamente, os modelos simples são capazes de aprender com pequenos conjuntos de dados melhor do que os modelos mais complicados (redes neurais), pois estão essencialmente tentando aprender menos.

Para conjuntos de dados muito pequenos, os métodos bayesianos são geralmente os melhores da classe, embora os resultados possam ser sensíveis à sua escolha anterior. Penso que o classificador Naive Bayes e a Regressão Ridge são os melhores modelos preditivos.

As técnicas de transferência de aprendizado (Transfer Learning) devem ser consideradas quando você não possui dados de treinamento suficientes e os domínios de origem e de destino têm algumas semelhanças, mas não são idênticas.

Podemos ainda empregar Data Augmentation no caso do volume de dados não ser grane o suficiente. Em termos de dados tradicionais de formato de linha / coluna, isso significa aumentar o número de linhas ou objetos. Finalmente, a Técnica Synthetic Minority Over-sampling Technique (SMOTE) e SMOTE-Modificado são duas técnicas que geram dados sintéticos. Simplificando, o SMOTE pega os pontos de dados da classe minoritária e cria novos pontos de dados que ficam entre os dois pontos de dados mais próximos unidos por uma linha reta.

A Entrevista – Parte III (Conhecimentos Gerais)

Nesse ponto, me fizeram apenas três perguntas:

1. Você pode descrever seu último projeto de IA?

Resposta (depende de seus projetos anteriores): tive que desenvolver uma solução que pudesse identificar produtos falsificados com base nas fotos enviadas pelos consumidores. Como parte de uma equipe, criamos uma solução baseada em modelos CNN personalizados de Deep Learning usando Transfer Learning. Durante o projeto, nosso maior problema foi a falta de dados e escalabilidade para a empresa. Resolvemos esse problema usando técnicas de aumento de dados e dados sintéticos.

2. Você pode nomear novos modelos de negócios relacionados à IA?

Resposta: Alguns exemplos podem incluir Monetização de Dados e Cidades Inteligentes, Manutenção Preditiva e Indústria 4.0, Aprendizado Federado e dados de assistência médica, etc. [Se você conhece outros, mencione-os nos comentários]

3. Qual evolução importante impactará o desenvolvimento da IA?

Resposta: A crescente democratização da IA e o desenvolvimento de ferramentas de IA que podem alavancar a maneira como os projetos de IA são gerenciados.

Conclusão

Um Consultor de IA é um Cientista de Dados com foco em IA e deve ajudar no projeto de um sistema geral, desde os requisitos até a implantação, gerenciar o projeto (habilidades de gerenciamento de projetos) e ajudar a fornecer experiência com o desenvolvimento de capacidade, para que os recursos internos da (s) equipe (s) do DevOps possam suportar a infraestrutura e o código do sistema de IA.

Eu recomendo garantir que você entenda conceitos básicos, como trade-off bias/variance, ajuste excessivo, descida do gradiente, regularização L1 / L2, Teorema de Bayes, etc.

Entenda um projeto de IA do ponto de vista comercial (KPIs, metas de longo prazo, escalabilidade etc.).

Você será desafiado por sua capacidade de estruturar suas ideias e apresentar conceitos complexos de maneira fácil e precisa.

Artigo original em inglês: How I became an AI Consultant: Interview Questions & Answers