10 LLMs (Large Language Models) Open-Source Para Uso Comercial

Os LLMs (Large Language Models) tomaram conta do cenário das aplicações de Inteligência Artificial desde o lançamento do ChatGPT no final de 2022 (o ChatGPT é uma interface web para os LLMs da OpenAI, os modelos GPT-3 e GPT-4). Os LLMs são estudados em detalhes nos cursos de Inteligência Artificial aqui na DSA.

Listamos para você 10 LLMs open-s0urce que são gratuitos e podem ser usados para aplicações comerciais. Colocamos os links de referência ao final do artigo.

1- Llama 2

A Meta lançou o Llama 2, um conjunto de LLMs pré-treinados e refinados. Esses modelos são escaláveis em até 70 bilhões de parâmetros. Foi descoberto, após extensos testes em benchmarks focados em segurança e utilidade, que os modelos Llama 2-Chat têm desempenho melhor do que os modelos de código aberto atuais na maioria dos casos. As avaliações humanas mostraram que eles se alinham bem com vários LLMs proprietários (como os modelos GPT da OpenAI).

Os pesquisadores até tomaram algumas medidas para garantir a segurança desses modelos. Isto inclui anotar dados, especialmente para segurança, realizar exercícios de red-team, ajustar os modelos com ênfase em questões de segurança e revisar os modelos de forma iterativa e contínua.

Variantes do Llama 2 com parâmetros de 7 bilhões, 13 bilhões e 70 bilhões também foram lançadas. O Llama 2-Chat, otimizado para cenários de diálogo, também foi lançado em variantes com as mesmas escalas de parâmetros. O Llama 2 é usado em diversos projetos nos cursos de LLM aqui na DSA.

2- Falcon

Pesquisadores do Instituto de Inovação Tecnológica de Abu Dhabi apresentaram a série Falcon, que inclui modelos com 7 bilhões, 40 bilhões e 180 bilhões de parâmetros (quanto mais parâmetros, maior a capacidade generativa do modelo). Esses modelos foram treinados em um corpus variado e de alta qualidade, obtido principalmente de dados na web. O Falcon-180B, o maior modelo da série, foi treinado em um conjunto de dados de mais de 3,5 trilhões de tokens de texto.

Os pesquisadores descobriram que o Falcon-180B apresenta grandes avanços em relação a outros modelos, incluindo PaLM ou Chinchilla. Ele supera modelos que estão sendo desenvolvidos simultaneamente, como LLaMA 2 ou Inflection-1. O Falcon-180B atinge desempenho próximo ao PaLM-2-Large (do Google), o que é digno de nota devido aos seus menores custos de pré-treinamento e inferência. Com esta classificação, o Falcon-180B junta-se ao GPT-4 e ao PaLM-2-Large como os principais modelos de linguagem do mundo. O Falcon é usado em projetos nos cursos de LLM aqui na DSA.

3- FLAN-T5

O Google lançou o FLAN-T5, uma versão melhorada do T5 que foi aprimorada para uma variedade de tarefas. Os pontos de verificação Flan-T5 demonstram desempenho robusto em poucos disparos, mesmo quando comparados com modelos significativamente maiores, como o PaLM 62B.

Com FLAN-T5, a equipe do Google usou o ajuste fino de instrução (Instruction Fine-Tuning) como uma abordagem versátil para melhorar o desempenho do modelo de linguagem em várias tarefas e métricas de avaliação. O T5 é usado em projetos nos cursos de PLN aqui na DSA.

4- Open Pre-trained Transformers (OPT)

Os modelos LLM precisam de recursos computacionais substanciais. Isto torna a replicação difícil para pesquisadores que carecem de financiamento. O acesso completo aos pesos dos modelos é frequentemente restrito, impedindo pesquisas e análises aprofundadas, mesmo nos casos em que esses modelos são disponibilizados por meio de APIs.

Para resolver esses problemas, os pesquisadores da Meta apresentaram Open Pre-trained Transformers (OPT), um conjunto de transformadores pré-treinados que são limitados a decodificadores e cobrem uma ampla gama de valores de parâmetros, de 125 milhões a 175 bilhões. O principal objetivo do OPT é democratizar o acesso a modelos linguísticos de ponta, disponibilizando esses modelos de forma completa aos Engenheiros de IA.

O OPT-175B, o modelo principal do conjunto OPT, foi demonstrado pelos pesquisadores como tendo um desempenho semelhante ao GPT-3. Mas o que realmente distingue o OPT-175B é que, em comparação com técnicas convencionais de treinamento de modelos linguísticos em larga escala, ele requer apenas 1/7 do efeito ambiental durante o desenvolvimento.

5- BERT

O Google introduziu o BERT (Bidirectional Encoder Representations from Transformers). O BERT foi especialmente desenvolvido para pré-treinar representações bidirecionais profundas de texto não rotulado, ao contrário dos modelos de linguagem anteriores. Isto significa que o BERT pode capturar uma compreensão mais completa das nuances linguísticas porque leva simultaneamente em conta o contexto esquerdo e direito em cada camada da sua arquitetura.

A simplicidade conceitual e o excepcional poder empírico do BERT são dois de seus principais benefícios. Ele adquire incorporações contextuais ricas por meio de extenso pré-treinamento em dados de texto, que podem ser refinados com pouco esforço para produzir modelos altamente eficientes para uma ampla gama de aplicações de Processamento de Linguagem Natural. Adicionar apenas uma camada de saída extra geralmente é tudo o que é necessário para esse processo de ajuste fino, o que deixa o BERT extremamente flexível e adaptável a uma ampla gama de aplicações sem exigir alterações significativas na arquitetura de tarefas específicas.

O BERT tem um bom desempenho em onze tarefas distintas de Processamento de Linguagem Natural. Ele mostra ganhos notáveis no desempenho de resposta a perguntas do SQuAD, precisão do MultiNLI e pontuação GLUE. Por exemplo, o BERT aumenta a pontuação GLUE para 80,5%, o que representa uma melhoria absoluta significativa de 7,7%. Ensinamos como construir e treinar o BERT a partir do zero no curso de Deep Learning aqui na DSA.

5- Mistral

Mistral 7B é um modelo de linguagem de última geração com 7 bilhões de parâmetros que foi desenvolvido para oferecer eficácia e desempenho notáveis. O Mistral 7B quebra todos os recordes anteriores, superando o Llama 2 13B em todos os benchmarks e até mesmo o Llama 1 34B em domínios como lógica, matemática e codificação.

Métodos de última geração, como atenção de consulta agrupada (GQA), têm sido usados para acelerar a inferência e a atenção de janela deslizante (SWA) para lidar com eficiência com sequências com comprimentos diferentes e, ao mesmo tempo, reduzir a sobrecarga de computação.

Uma versão customizada, Mistral 7B — Instruct, também foi fornecida e otimizada para um desempenho excepcional em atividades que exigem instruções (como na área médica). O Mistral é usado em projetos, nos cursos de LLM aqui na DSA, baseados em Instruction Fine-Tuning.

6- Mixtral

A Mistral.ai lançou o Mixtral 8x7B, uma mistura esparsa de modelos especialistas (SMoE) com pesos disponíveis publicamente e uma licença Apache 2.0. Mixtral se diferencia por oferecer velocidades de inferência seis vezes mais rápidas e superar o Llama 2 70B na maioria dos benchmarks. Ele oferece a melhor relação custo/desempenho do setor e é o melhor modelo aberto com licença permissiva. Mixtral supera GPT 3.5 em uma variedade de benchmarks comuns, reafirmando sua posição como o modelo top na área.

Mixtral oferece suporte a diversos idiomas e lida com contextos de até 32 mil tokens com facilidade. Sua utilidade aumenta ainda mais pelo fato de demonstrar excelente proficiência em trabalhos de geração de código. Mixtral também pode ser otimizado para se tornar um modelo de seguimento de instruções, conforme demonstrado por sua alta pontuação de avaliação de 8,3 MT-Bench. O Mixtral é usado em projetos nos cursos de LLM aqui na DSA.

7- Phi-2

A Microsoft lançou o Phi-2, que é um modelo Transformer com 2,7 bilhões de parâmetros. Ele foi treinado usando uma combinação de fontes de dados semelhantes ao Phi-1.5. Também integra uma nova fonte de dados, que consiste em textos sintéticos de PLN (Processamento de Linguagem Natural) e sites filtrados que são considerados instrutivos e seguros.

Examinar o Phi-2 em relação a benchmarks que medem o pensamento lógico, a compreensão da linguagem e o bom senso mostrou que ele teve um desempenho quase no nível mais avançado entre modelos com menos de 13 bilhões de parâmetros.

8- Dolly 2.0

Pesquisadores da Databricks criaram o LLM Dolly-v2-12b, que foi projetado para uso comercial e foi criado na plataforma Databricks Machine Learning.

Com base no pythia-12b, ele é treinado usando cerca de 15.000 pares de instrução/resposta (denominados databricks-dolly-15k) que foram produzidos pelo pessoal da Databricks. As diversas áreas de capacidade cobertas por estes pares instrução/resposta são brainstorming, classificação, resposta a perguntas fechadas, geração, extração de informação, resposta a perguntas abertas e resumo, conforme indicado no documento InstructGPT (referência ao final do artigo).

Dolly-v2 também está disponível em modelos menores para diferentes casos de uso. Dolly-v2-7b tem 6,9 bilhões de parâmetros e é baseado no pythia-6.9b. Dolly-v2-3b tem 2,8 bilhões de parâmetros e é baseado no pythia-2.8b.

9- BLOOM

Pesquisadores da BigScience desenvolveram o BLOOM (BigScience Large Open-science Open-access Multilingual Language Model), um modelo significativo de linguagem de acesso aberto com 176 bilhões de parâmetros.

Como o BLOOM é um modelo de linguagem Transformer somente decodificador, ele é particularmente bom na produção de sequências de texto em resposta a sinais de entrada.

O corpus ROOTS, um extenso conjunto de dados com conteúdo de centenas de fontes cobrindo 46 linguagens naturais e 13 linguagens de programação para um total de 59 linguagens, serviu como campo de treinamento. Devido à grande quantidade de dados de treinamento, o BLOOM é capaz de compreender e produzir texto em diversos contextos linguísticos.

10- Gemma

Gemma é uma série de modelos abertos de última geração que o Google construiu usando a mesma tecnologia e pesquisa dos modelos Gemini. Esses LLMs, somente para decodificadores em inglês, chamados Gemma, destinam-se a aplicações de texto para texto. Os modelos Gemma funcionam excepcionalmente bem em uma variedade de tarefas de criação de texto, como resumir, raciocinar e responder perguntas. Gemma é único por ser leve, o que o torna ideal para implantação em contextos com recursos limitados, como desktops, laptops ou infraestrutura de nuvem pessoal.

Listamos aqui para você 10 LLMs que se destacam em meio à multidão, são gratuitos e disponíveis para uso comercial. Considerando as variações de cada LLM, estima-se que exista hoje quase 16 mil LLMs disponíveis no mercado (link de referência aqui).

Esses e outros LLMs (que representam o que há de mais avançado hoje em IA) são estudados nos diversos cursos de Inteligência Artificial aqui na Data Science Academy.

Equipe DSA

Referências:

IA Generativa e LLMs Para Processamento de Linguagem Natural

Aplicações de Large Language Models (LLMs) na Área Médica

Llama 2: Open Foundation and Fine-Tuned Chat Models

The Falcon Series of Open Language Models

Scaling Instruction-Finetuned Language Models

OPT: Open Pre-trained Transformer Language Models

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Mistral 7B

Mixtral of Experts – A high quality Sparse Mixture-of-Experts

Databricks’ Dolly