LLMs e Tipos Emergentes de Modelos de Linguagem

Os Large Language Models (LLMs) são atualmente o estado da arte em Inteligência Artificial e estamos trazendo aqui no Blog da DSA uma série de artigos sobre o tema. Este é o segundo artigo e se está chegando agora e perdeu o primeiro, então acesse aqui: O Que São Large Language Models (LLMs)?

Boa leitura.

Os sistemas de IA que entendem e geram texto, conhecidos como modelos de linguagem, são a grande novidade na praça.

Mas nem todos os modelos de linguagem são criados iguais. Vários tipos estão emergindo como dominantes, incluindo modelos grandes e de uso geral, como GPT-3 e GPT-4 da OpenAI, e modelos ajustados para tarefas específicas. Na borda (Edge) existe uma terceira categoria de modelo — aquele que tende a ser altamente compactado em tamanho e limitado a poucos recursos, projetado especificamente para rodar em dispositivos e estações de trabalho da Internet das Coisas (IoT).

Essas diferentes abordagens têm grandes diferenças em pontos fortes, deficiências e requisitos – veja como eles se comparam e onde você pode esperar vê-los implantados nos próximos um ou dois anos.

Large Language Models (LLMs)

Grandes modelos de linguagem têm, em geral, dezenas de gigabytes de tamanho e são treinados em enormes quantidades de dados de texto, às vezes na escala de petabytes. Eles também estão entre os maiores modelos em termos de contagem de parâmetros, onde um “parâmetro” se refere a um valor que o modelo pode alterar independentemente à medida que aprende. Parâmetros são as partes do modelo aprendidas a partir de dados históricos de treinamento e essencialmente definem a habilidade do modelo em um problema, como gerar texto.

“Modelos grandes são usados para cenários de “tiro zero” (zero-shot) ou cenários de “poucos tiros” (few-shot), onde poucos dados de treinamento de domínio [sob medida] estão disponíveis e geralmente funcionam bem gerando algo com base em alguns prompts”, Fangzheng Xu, Ph.D. da Carnegie Mellon especializado em processamento de linguagem natural, disse ao TechCrunch por e-mail. No aprendizado de máquina, “poucos disparos” refere-se à prática de treinar um modelo com dados mínimos, enquanto “zero disparo” implica que um modelo pode aprender a reconhecer coisas que não viu explicitamente durante o treinamento.

Um único modelo grande poderia potencialmente permitir muitas tarefas com poucos dados de treinamento.

O uso de grandes modelos de linguagem cresceu drasticamente nos últimos anos, à medida que os pesquisadores desenvolvem arquiteturas mais novas e maiores. Em junho de 2020, a startup de IA OpenAI lançou o GPT-3, um modelo de 175 bilhões de parâmetros que pode gerar texto e até mesmo código com um breve prompt contendo instruções.

O grupo de pesquisa aberta EleutherAI posteriormente disponibilizou o GPT-J, um modelo de linguagem menor (6 bilhões de parâmetros), mas ainda assim capaz, que pode traduzir entre idiomas, escrever posts, código completo e muito mais. Mais recentemente, a Microsoft e a Nvidia abriram o código de um modelo chamado Megatron-Turing Natural Language Generation (MT-NLG), que está entre os maiores modelos para compreensão de leitura e inferência de linguagem natural desenvolvidos até hoje em 530 bilhões de parâmetros.

“Uma razão pela qual esses grandes modelos de linguagem permanecem tão notáveis é que um único modelo pode ser usado para diversas tarefas”, incluindo resposta a perguntas, resumo de documentos, geração de texto, conclusão de frases, tradução e muito mais, disse Bernard Koch, cientista social computacional da UCLA, ao TechCrunch. “Uma segunda razão é porque seu desempenho continua a aumentar à medida que você adiciona mais parâmetros ao modelo e adiciona mais dados. A terceira razão pela qual modelos de linguagem pré-treinados muito grandes são notáveis é que eles parecem ser capazes de fazer previsões decentes quando fornecidos apenas um punhado de exemplos rotulados.”

Startups, incluindo Cohere e AI21 Labs, também oferecem modelos semelhantes ao GPT-3 por meio de APIs. Outras empresas, particularmente gigantes da tecnologia como o Google, optaram por manter os grandes modelos de linguagem que desenvolveram internamente e em segredo. Por exemplo, o Google detalhou recentemente – mas se recusou a liberar – um modelo de 540 bilhões de parâmetros chamado PaLM, que a empresa afirma alcançar desempenho de ponta em tarefas de linguagem.

Grandes modelos de linguagem, de código aberto ou não, têm em comum altos custos de desenvolvimento. Um estudo de 2020 (link ao final do artigo) do AI21 Labs estimou as despesas para desenvolver um modelo de geração de texto com apenas 1,5 bilhão de parâmetros em até US$ 1,6 milhão. A inferência — na verdade, executando o modelo treinado — é outro dreno. Outra fonte estima o custo de execução do GPT-3 em uma única instância da AWS (p3dn.24xlarge) em no mínimo US$ 87.000 por ano.

Modelos grandes ficarão maiores, mais potentes, versáteis, mais multimodais e mais baratos para treinar. Grandes modelos de linguagem continuarão a ser o padrão para serviços em nuvem e APIs, onde a versatilidade e o acesso corporativo são mais importantes do que a latência.

Modelos de Linguagem de Ajuste Fino (Fine-tuned Language Models)

Os modelos de ajuste fino geralmente são menores do que seus equivalentes de modelo de linguagem grande. Os exemplos incluem o Codex da OpenAI, um descendente direto do GPT-3 ajustado para tarefas de programação. Embora ainda contenha bilhões de parâmetros, o Codex é menor e melhor em gerar – e completar – strings de código de computador.

O ajuste fino pode melhorar a capacidade de um modelo de executar uma tarefa, por exemplo, responder a perguntas ou gerar sequências de proteínas (como no caso do ProGen da Salesforce). Mas também pode reforçar a compreensão de um modelo sobre determinado assunto, como pesquisa clínica.

“Modelos ajustados com precisão são bons para tarefas maduras com muitos dados de treinamento”, disse Xu. “Os exemplos incluem tradução automática, resposta a perguntas, reconhecimento de entidades nomeadas, vinculação de entidades e recuperação de informações.”

As vantagens não param por aí. Como os modelos ajustados são derivados de modelos de linguagem existentes, os modelos ajustados não levam tanto tempo – ou computação – para treinar ou executar. Modelos maiores como os mencionados acima podem levar semanas ou exigir muito mais poder computacional para treinar em dias. Eles também não exigem tantos dados quanto modelos de linguagem grandes. O GPT-3 foi treinado em 45 terabytes de texto contra os 159 gigabytes nos quais o Codex foi treinado.

O ajuste fino foi aplicado a muitos domínios, mas um exemplo recente e especialmente forte é o InstructGPT da OpenAI. Usando uma técnica chamada “aprendizado por reforço com feedback humano”, a OpenAI coletou um conjunto de dados de demonstrações escritas por humanos em prompts enviados à API OpenAI e prompts escritos por uma equipe de rotuladores de dados humanos. Eles aproveitaram esses conjuntos de dados para criar ramificações ajustadas do GPT-3 que – além de ter um centésimo do tamanho do GPT-3 – são comprovadamente menos propensos a gerar texto problemático enquanto se alinham de perto com a intenção do usuário.

Em outra demonstração do poder do ajuste fino, os pesquisadores do Google publicaram em fevereiro um estudo (link ao final do artigo) afirmando que um modelo muito menor do que o GPT-3 — rede de linguagem ajustada com precisão (FLAN) — supera o GPT-3 “por uma grande margem” em um número de benchmarks desafiadores. O FLAN, que tem 137 bilhões de parâmetros, superou o GPT-3 em 19 das 25 tarefas em que os pesquisadores o testaram e até superou o desempenho do GPT-3 em 10 tarefas.

“Acho que o ajuste fino é provavelmente a abordagem mais usada no mercado no momento e não vejo isso mudando no curto prazo. Por enquanto, o ajuste fino em modelos de linguagem menores permite aos usuários mais controle para resolver seus problemas especializados usando seus próprios dados específicos de domínio”, disse Koch ao TechCrunch. “Em vez de distribuir modelos de linguagem muito grande que os usuários podem ajustar por conta própria, as empresas estão comercializando aprendizado por meio de prompts de API, onde você pode fornecer exemplos e prompts curtos ao modelo”.

Modelos de Linguagem de Borda (Edge Language Models)

Os modelos de borda, que são propositalmente pequenos em tamanho, podem assumir a forma de modelos ajustados — mas nem sempre. Às vezes, eles são treinados do zero em pequenos conjuntos de dados para atender a restrições específicas de hardware (por exemplo, hardware de telefone ou servidor web local). Em qualquer caso, os modelos de borda – embora limitados em alguns aspectos – oferecem uma série de benefícios que os modelos de linguagem grandes não podem igualar.

O custo é um dos principais. Com um modelo de borda que funciona offline e no dispositivo, não há taxas de uso de nuvem a pagar. Mesmo os modelos ajustados são geralmente grandes demais para serem executados em máquinas locais; o MT-NLG pode levar mais de um minuto para gerar texto em um processador de desktop, por exemplo. Tarefas como analisar milhões de tweets podem acumular milhares de dólares em taxas em processamento na nuvem com modelos LLM.

Os modelos de borda também oferecem maior privacidade do que suas contrapartes ligadas à Internet, em teoria, porque não precisam transmitir ou analisar dados na nuvem. Eles também são mais rápidos – uma vantagem importante para aplicativos como tradução. Aplicativos como o Google Tradutor contam com modelos de Edge para fornecer traduções off-line.

“É provável que a computação de borda (Edge Computing) seja implantada em ambientes onde é necessário feedback imediato. Em geral, acho que esses são cenários em que os humanos estão interagindo conversacionalmente com IA ou robôs ou algo como carros autônomos lendo sinais de trânsito”, disse Koch. “Como um exemplo hipotético, a Nvidia tem uma demonstração em que um chatbot de borda conversa com clientes em um restaurante de fast food. Um caso de uso final pode ser anotações automatizadas em registros médicos eletrônicos. Processar a conversa rapidamente nessas situações é essencial.”

Obviamente, modelos pequenos não podem realizar tudo o que os modelos grandes podem. Eles estão vinculados ao hardware encontrado em dispositivos de Edge Computing, que variam de processadores de núcleo único a sistemas em chips equipados com GPU. Além disso, algumas pesquisas sugerem que as técnicas usadas para desenvolvê-los podem amplificar características indesejadas, como viés algorítmico.

Olhando Para o Futuro

À medida que modelos de linguagem de borda, modelos grandes e modelos ajustados continuam a evoluir com novas pesquisas, eles provavelmente encontrarão obstáculos no caminho para uma adoção mais ampla. Por exemplo, embora o ajuste fino de modelos exija menos dados em comparação com o treinamento de um modelo desde o início, o ajuste fino ainda requer um conjunto de dados. Dependendo do domínio — por exemplo, traduzindo de um idioma pouco falado — os dados podem não existir. Isso traz enormes desafios, mas também muitas oportunidades para Engenheiros de IA, Cientistas de Dados e Engenheiros de Dados.

“A desvantagem do ajuste fino é que ele ainda requer uma quantidade razoável de dados. A desvantagem do aprendizado de poucos tiros é que ele não funciona tão bem quanto o ajuste fino e que os Cientistas de Dados e os Engenheiros de Machine Learning têm menos controle sobre o modelo porque estão apenas interagindo com ele por meio de uma API”, continuou Koch. “E as desvantagens da IA de borda são que modelos complexos não cabem em dispositivos pequenos, então o desempenho é estritamente pior do que os modelos que cabem em uma única GPU de desktop – muito menos modelos de linguagem grandes baseados em nuvem distribuídos em dezenas de milhares de GPUs.”

O pesquisador observa que todos os modelos de linguagem, independentemente do tamanho, permanecem pouco estudados em certos aspectos importantes. Espera-se que áreas como explicabilidade e interpretabilidade – que visam entender como e por que um modelo funciona e expor essas informações aos usuários – recebam maior atenção e investimento no futuro, principalmente em domínios de “alto risco” como a medicina.

“A proveniência é realmente um próximo passo importante que esses modelos devem ter”, disse Xu. “No futuro, haverá técnicas de ajuste fino cada vez mais eficientes para acomodar o custo crescente de ajustar um modelo maior como um todo. Os modelos de borda continuarão a ser importantes, pois quanto maior o modelo, mais pesquisa e desenvolvimento são necessários para destilar ou comprimir o modelo para caber em dispositivos de borda”.

Os modelos de linguagem impulsionaram a pesquisa e evolução da Inteligência Artificial. É maravilhoso poder fazer parte dessa evolução e ajudar a escrever a história. Acesse o terceiro artigo da série aqui.

Equipe DSA

Referências:

The emerging types of language models and why they matter

Deep Learning Book

Introduction to Large Language Models

The Cost of Training NLP Models

The GPT-3 Economy

Finetuned Language Models are Zero-Shot Learners