Este é o quarto (e penúltimo) artigo da série sobre Inteligência Artificial em Alto Nível com LLMs e Retrieval-Augmented Generation (RAG) aqui no Blog da DSA. Se está chegando agora, comece com o primeiro artigo da série aqui.

Neste artigo vamos compreender algumas métricas que podem ser usadas para avaliar a eficiência da RAG.

Boa leitura.


RAG aproveita dados externos para enriquecer o contexto dos LLMs, aumentando assim a sua capacidade de gerar respostas mais precisas e relevantes. À medida que cresce a adoção de RAG, aumenta também a complexidade de avaliar eficazmente o seu desempenho.

Aqui estão 7 métricas que podem ser usadas para avaliar se RAG está obtendo bons resultados:

1. Fidelidade: Esta métrica avalia o grau em que o texto gerado reflete com precisão as informações presentes nos documentos de origem recuperados pelo sistema RAG. A fidelidade é fundamental para garantir que o processo de aumento não introduza imprecisões ou distorções, mantendo a integridade do conteúdo gerado.

2. Relevância das Respostas: Mede a relevância das respostas geradas para as questões colocadas. Esta métrica é vital para determinar a utilidade do pipeline RAG em aplicações práticas, onde o objetivo é fornecer aos usuários informações que não sejam apenas precisas, mas também diretamente aplicáveis às suas questões.

3. Recuperação de Contexto: Avalia a capacidade do sistema RAG de recuperar todas as informações relevantes das fontes de dados externas. Uma elevada recuperação de contexto é indicativa de um sistema que pode utilizar de forma abrangente os dados disponíveis, um fator crítico para gerar respostas bem informadas e completas.

4. Precisão do Contexto: Em contraste com a recuperação, a precisão do contexto mede a proporção de informação recuperada que é relevante para a tarefa em questão. Essa métrica garante que o sistema RAG filtre com eficiência dados estranhos, concentrando-se na qualidade e não na quantidade em seu processo de aumento.

5. Relevância do Contexto: Combina aspectos de recuperação e precisão, avaliando a relevância geral do contexto utilizado pelo sistema RAG. Esta métrica sublinha a importância de uma abordagem equilibrada à recuperação de dados, onde tanto a amplitude como a especificidade da informação são otimizadas.

6. Similaridade Semântica das Respostas: Esta métrica avalia o alinhamento semântico entre as respostas geradas e a verdade básica (ou respostas esperadas), levando em consideração as nuances da linguagem. É essencial verificar se o sistema RAG capta os significados e não apenas os aspectos superficiais das respostas.

7. Correção das Respostas: Além da relevância e semelhança semântica, a correção das respostas avalia diretamente a precisão das informações fornecidas no texto gerado. Esta métrica é fundamental para garantir que os LLMs aumentados por RAG atuem como fontes confiáveis de informação.

Continuaremos na Parte 5 da série sobre RAG.

Equipe DSA

Referências:

IA Generativa e LLMs Para Processamento de Linguagem Natural

Aplicações de Large Language Models (LLMs) na Área Médica

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

What Is Retrieval-Augmented Generation, aka RAG?

What is Retrieval-Augmented Generation?

Retrieval Augmented Generation (RAG)