Este é o terceiro artigo da série sobre LLMs. Se está chegando agora, comece pelo primeiro artigo clicando aqui.

Em Novembro de 2022, o ChatGPT foi lançado. A introdução deste chatbot baseado em IA marcou um ponto de virada na história da tecnologia, em especial da IA Generativa.

Seu rápido crescimento superou o de qualquer outra plataforma na história (veja imagem abaixo) e provocou uma revolução no campo das aplicações generativas com Inteligência Artificial (IA).

Essa nova onda impactou praticamente todos os domínios e campos, desde saúde até finanças e entretenimento. Como resultado, as tecnologias de IA Generativa têm muitos usos potenciais e seu impacto na sociedade ainda está sendo explorado.

image1

Mas o ChatGPT foi apenas a ponta do iceberg. O campo da IA Generativa já vinha evoluindo rapidamente nos últimos anos, com vários grandes participantes do setor e a comunidade de código aberto liderando o caminho para grandes avanços.

Esses avanços levaram a novas possibilidades e aplicações para IA Generativa, como nas áreas de Processamento de Linguagem Natural, Visão Computacional e geração de música.

Além disso, a crescente disponibilidade de dados e poder de computação permitiu o desenvolvimento de modelos mais complexos e sofisticados, levando a um potencial ainda maior para IA Generativa no futuro. À medida que esse campo continua a crescer e se desenvolver, será emocionante ver quais novos avanços surgirão e como eles moldarão nosso mundo.

Esse aumento de interesse em IA Generativa levou ao surgimento de muitas startups que oferecem uma variedade de produtos e serviços que usam essa tecnologia.

Vamos compreender como os LLMs se relacionam com a IA Generativa.

O Que é IA Generativa?

A IA Analítica, também conhecida como IA Tradicional, refere-se ao uso de máquinas para analisar dados existentes e identificar padrões ou fazer previsões, como detecção de fraudes ou recomendações de conteúdo. Ela se concentra em analisar e processar as informações disponíveis.

Por outro lado, a IA Generativa é um campo que envolve máquinas que geram novos dados, como imagens, texto ou música, com base em padrões aprendidos. Vejamos alguns exemplos.

Texto – A capacidade dos modelos de linguagem para produzir um texto coerente

Esses modelos não apenas possuem recursos de geração de linguagem, mas também recursos de compreensão de linguagem. A compreensão da linguagem é uma ferramenta poderosa que pode ser usada para melhorar os recursos dos sistemas de software de várias maneiras. Alguns dos benefícios mais importantes da compreensão do idioma incluem resumo aprimorado, pesquisa neural e categorização de texto.

Além desses benefícios, a compreensão da linguagem também pode ser usada para melhorar a experiência do usuário de sistemas de software de muitas outras maneiras. Por exemplo, a compreensão da linguagem pode ser usada para fornecer interfaces de linguagem natural, que permitem aos usuários interagir com sistemas de software usando linguagem natural. Isso pode tornar os sistemas de software mais acessíveis e fáceis de usar.

Imagens — Vídeo — Áudio – Nomeie uma coisa e veja-a se manifestar diante de seus olhos

A geração de imagens de IA é outra área empolgante no espaço da IA Generativa. Nesse domínio, modelos como DALL-E, MidJourney e Stable Diffusion conquistaram as mídias sociais.

Por Que Agora?

A IA Generativa está em andamento há algum tempo, mas nos últimos anos, todo o ecossistema de IA Generativa passou por um desenvolvimento significativo.

No entanto, para entender completamente o estado atual das coisas e apreciar todo o potencial da IA Generativa, é importante mergulhar nos avanços feitos no campo do Processamento de Linguagem Natural. O advento dos modelos de transformadores (Transformers) desempenhou um papel crucial nesse sentido. Por meio do uso de transformadores, a IA agora pode processar e gerar linguagem, imagens e vídeos e trabalhar em várias modalidades combinadas.

A imagem abaixo ilustra um pouco da evolução das tecnologias de IA no Processamento de Linguagem Natural.

image2

Quais São os Problemas em PLN (Processamento de Linguagem Natural)?

Para resolver efetivamente os problemas em PLN, um praticante de aprendizado de máquina encontra vários desafios:

  • Complexidade da Linguagem Natural: A linguagem humana é matizada, ambígua e dependente do contexto. Portanto, representa um desafio significativo para os modelos de aprendizado de máquina compreender e gerar texto coerente e significativo.
  • Problema de Dependência de Longo Prazo: Em muitos casos, o significado de uma sentença ou frase é fortemente dependente do contexto estabelecido muito antes no texto. Os modelos tradicionais de PLN lutam para manter e entender essas dependências de longo prazo.
  • Escalabilidade: O processamento de texto em grande escala requer recursos computacionais significativos, dificultando o dimensionamento de sistemas de PLN tradicionais para tarefas maiores.
  • Falta de Generalização: Os modelos geralmente lutam para generalizar sua compreensão da linguagem em diferentes tarefas, gêneros e idiomas.

Limitação dos Modelos RNN e LSTM

Por muito tempo, tentamos resolver os problemas listados no item anterior com modelos de Redes Neurais Recorrentes (RNNs) e Memória de Longo Prazo Curto (LSTM), que já foram a pedra angular das tarefas de PLN, mas carregam certas limitações:

  • Processamento Sequencial: RNNs e LSTMs processam dados sequencialmente, o que é computacionalmente caro, especialmente para sequências longas. Isso os torna inadequados para processar textos grandes ou lidar com aplicativos em tempo real.
  • Problema de Dissipação do Gradiente: Embora os LSTMs mitiguem o problema de dissipação do gradiente (um problema matemático) até certo ponto, eles não o superam completamente. Esse problema dificulta a capacidade do modelo de aprender dependências de longo prazo.
  • Dificuldade em Paralelizar: Devido à sua natureza sequencial inerente, esses modelos não podem ser facilmente paralelizados, limitando sua eficiência de treinamento em hardware moderno.

Transformação Trazida Por Transformers

Os transformadores revolucionaram a área de PLN superando as limitações dos modelos baseados em RNN e LSTM:

  • Mecanismo de Atenção: A arquitetura dos Transformers introduziu o conceito de “atenção”, que permite ao modelo pesar a importância de diferentes partes da entrada ao gerar a saída. Esse mecanismo efetivamente resolve o problema de dependência de longo prazo.
  • Paralelização: Ao contrário dos RNNs e LSTMs, os transformadores processam todos os pontos de dados na sequência de entrada simultaneamente, permitindo uma paralelização eficiente e acelerando os tempos de treinamento.
  • Escalabilidade: Os Transformers podem lidar com sequências maiores de dados com mais eficiência do que seus predecessores, tornando-os mais escaláveis para tarefas de PLN em grande escala.
  • Melhor desempenho: Com esses recursos, os transformadores mostraram desempenho superior em várias tarefas de PLN, como tradução, resumo e análise de sentimento.

Aplicação de Transformadores em Múltiplas Modalidades

Os recursos exclusivos dos transformadores os tornam adequados para aplicações além do texto e em diferentes modalidades, como imagens, áudio e vídeo:

  • Processamento de Imagens: Transformers podem processar imagens tratando-as como uma sequência de pixels ou patches. Isso levou a resultados impressionantes em tarefas como classificação e geração de imagens.
  • Processamento de Áudio: No domínio do áudio, os transformadores têm sido usados para reconhecimento de fala, geração de música e até síntese de áudio.
  • Processamento de Vídeo: Para vídeos, que podem ser visualizados como sequências de imagens, os transformadores são capazes de lidar com dependências temporais entre frames, permitindo tarefas como classificação e geração de vídeo.
  • Processamento Multimodal: Os transformadores podem processar e relacionar informações em diferentes modalidades, levando a avanços em áreas como legendas automáticas e cogeração de imagem e texto.

O advento dos transformadores foi fundamental para ultrapassar os limites do que é possível com a IA Generativa. Ao habilitar recursos avançados no Processamento de Linguagem Natural e estendê-los a outras modalidades, os transformadores transformaram verdadeiramente o cenário de pesquisa e aplicativos de IA.

LLMs e IA Generativa

Large Language Models (LLMs) como o GPT-4 do ChatGPT são exemplos de IA Generativa. “IA Generativa” é um termo que descreve qualquer tipo de modelo de Inteligência Artificial que gera conteúdo. Isso inclui uma ampla gama de aplicações, desde a criação de imagens e música, até a redação de textos e conversação.

LLMs, em particular, são projetados para gerar texto. Eles são treinados em enormes conjuntos de dados de texto, a fim de aprender padrões e estruturas na linguagem. Uma vez treinados, eles podem gerar novos textos que são coerentes e seguindo o contexto dado.

A relação entre LLMs e IA Generativa, portanto, é que LLMs são um tipo específico de IA Generativa, projetado para uma tarefa específica: a geração de texto. Eles são uma das principais técnicas usadas atualmente para a geração de texto automatizado e são usados ​​em uma variedade de aplicações, desde chatbots e assistentes virtuais, até a geração automática de código de computador e a produção de conteúdo para jogos.

No entanto, é importante notar que, apesar de seu poder e flexibilidade, os LLMs têm suas limitações. Por exemplo, eles podem ocasionalmente produzir informações imprecisas ou tendenciosas, dependendo dos dados com os quais foram treinados. Além disso, eles não compreendem o texto da mesma maneira que os humanos – eles detectam padrões nos dados, mas não possuem uma compreensão semântica ou contextual como a dos humanos.

Nos termos mais simples, os LLMs são mecanismos de previsão da próxima palavra.

Juntamente com o GPT-3 e GPT-4 LLMs da OpenAI, os LLMs populares incluem modelos abertos como LaMDA e PaLM LLM do Google (a base para o Bard), BLOOM e XLM-RoBERTa da Hugging Face, NeMO LLM da Nvidia, XLNet, Co:here, GLM- 130B, entre outros.

Os LLMs de código aberto, em particular, estão ganhando força, permitindo que Cientistas de Dados e Engenheiros de IA criem modelos mais personalizáveis a um custo menor. O lançamento em fevereiro/2023 do Meta de LLaMA (Large Language Model Meta AI) deu início a uma explosão entre os desenvolvedores que procuram construir em cima de LLMs de código aberto.

Os LLMs são um tipo de IA que atualmente são treinados em um enorme tesouro de artigos, entradas da Wikipedia, livros, recursos baseados na Internet e outras informações para produzir respostas semelhantes às humanas para consultas de linguagem natural. É uma quantidade imensa de dados. Mas os LLMs estão prestes a encolher, não crescer, pois os fornecedores procuram personalizá-los para usos específicos que não precisam dos enormes conjuntos de dados usados pelos modelos mais populares de hoje.

Os LLMs são controlados por parâmetros, em milhões, bilhões e até trilhões deles (Pense em um parâmetro como algo que ajuda um LLM a decidir entre diferentes opções de resposta.) O GPT-3 LLM da OpenAI tem 175 bilhões de parâmetros.

Por exemplo, você pode digitar em uma janela de prompt do LLM “No almoço de hoje eu comi…”. O LLM poderia voltar com “cereal” ou “arroz” ou “bife”. Não existe uma resposta 100% certa, mas existe uma probabilidade baseada nos dados já ingeridos no modelo. A resposta “cereal” pode ser a resposta mais provável com base nos dados existentes, então o LLM pode completar a frase com essa palavra. Mas, como o LLM é um mecanismo de probabilidade, ele atribui uma porcentagem a cada resposta possível. Cereal pode ocorrer 50% das vezes, “arroz” pode ser a resposta 20% das vezes, bife 0,005% das vezes.

Mas cuidado – se entra lixo, sai lixo. Em outras palavras, se a informação que um LLM ingeriu for tendenciosa, incompleta ou indesejável, então a resposta que ele dá pode ser igualmente não confiável, bizarra ou até mesmo ofensiva. Quando uma resposta sai dos trilhos, os Engenheiros de IA se referem a ela como “alucinações”, porque podem estar muito fora dos trilhos.

As alucinações acontecem porque os LLMs, em sua forma mais simples, não têm uma representação interna do estado do mundo. Não há conceito de fato. Eles estão prevendo a próxima palavra com base no que viram até agora – é uma estimativa estatística.

Como alguns LLMs também se treinam em dados baseados na Internet, eles podem ir muito além do que seus desenvolvedores iniciais os criaram para fazer. Por exemplo, o Bing da Microsoft usa GPT-3 como base, mas também consulta um mecanismo de pesquisa e analisa os primeiros 20 resultados. Ele usa um LLM e a Internet para gerar respostas. Esse é o poder da IA Generativa.

Acesse o quarto artigo da série aqui.

Equipe DSA

Referências:

Generative AI: A Creative New World

Generative AI: A Beginner’s Guide

How GPT3 Works – Visualizations and Animations

What are LLMs, and how are they used in generative AI?