O que é geração aumentada por recuperação?
Não há dúvida de que modelos de linguagem grandes (LLMs) transformaram o processamento de linguagem natural, mas, às vezes, eles podem ser inconsistentes, aleatórios ou até mesmo errados nas respostas que dão a uma solicitação. Embora isso possa levar a algumas risadas, não é o ideal quando se depende de LLMs para obter informações precisas e verificáveis.
Muitas equipes técnicas estão trabalhando para melhorar a precisão de grandes modelos de linguagem. Um método que surgiu em resposta a esse esforço é a geração aumentada por recuperação (RAG). Cunhado por um grupo de indivíduos da equipe do Fundamental Artificial Intelligence Research (FAIR), da University College London (UCL) e da New York University (NYU), a geração aumentada por recuperação (RAG) refere-se a uma técnica que auxilia a precisão de modelos de linguagem grandes, permitindo que o modelo tenha acesso a fatos externos.
Como o RAG funciona?
Normalmente, os grandes modelos de linguagem (LLMs) recebem a entrada de um usuário e fornecem respostas com base nas informações com as quais o LLM foi treinado (que, às vezes, podem estar desatualizadas ou incorretas). O RAG combina essas informações com dados suplementares, como a base de conhecimento de uma empresa ou documentos relevantes, permitindo que ele forneça respostas factualmente precisas e contextualmente relevantes.
Pesquisa semântica vs. RAG
A pesquisa semântica fornece resultados relevantes usando o processamento de linguagem natural para entender a intenção por trás da consulta de um usuário. No entanto, os mecanismos de pesquisa semântica são tão bons quanto os dados e os algoritmos com os quais são treinados.
Conforme mencionado acima, o RAG é tão eficaz porque usa técnicas de recuperação e geração de LLM e incorpora fontes externas confiáveis fora de seus dados de treinamento para gerar dados relevantes, exato respostas.
Casos de uso do RAG
A geração aumentada por recuperação tem muitos casos de uso. Alguns exemplos incluem:
Criação de um sistema de Q&A
O RAG permite que os usuários insiram perguntas e recebam respostas detalhadas e relevantes. Em comparação com os modelos ou sistemas tradicionais de perguntas e respostas, o RAG pode oferecer maior precisão e conhecimento mais aprofundado.
Sistemas de conversação
Ao criar chatbots, o RAG pode ajudar a fornecer uma variedade de respostas informativas e relevantes às perguntas dos usuários, especialmente quando as conversas abrangem vários tópicos ou exigem acesso a grandes quantidades de informações. Considere um chatbot de seguros. Esses chatbots devem ser capazes de responder a perguntas que vão desde a integração até o processamento de sinistros, além de fornecer muitos outros tipos de suporte ao cliente.
Sistemas educacionais
O RAG pode ser utilizado em vários sistemas educacionais. Além de fornecer respostas a perguntas, ele também pode fornecer informações básicas sobre como chegar às respostas e criar material didático com base nas perguntas dos alunos. O RAG pode aprimorar a experiência de aprendizado dos alunos, desde o jardim de infância até a faculdade e além.
Geração de conteúdo e relatórios
O RAG pode ajudar a criar relatórios com base em informações relevantes e até mesmo auxiliar na geração de conteúdo, como artigos, publicações em mídias sociais e roteiros de vídeo. O uso do RAG para esses materiais pode reduzir o tempo de pesquisa e brainstorming para os criadores de conteúdo e aumentar sua produção.
Como implementar o RAG
A implementação do RAG envolve as seguintes etapas:
-
- Comece com um modelo de linguagem pré-treinado
A primeira coisa que você precisa fazer é escolher um modelo de linguagem pré-treinado. Esses modelos foram treinados em vários dados e podem gerar textos coerentes e relevantes (embora nem sempre atualizados ou totalmente precisos). Há também bibliotecas on-line que permitem que os desenvolvedores acessem e usem facilmente modelos de linguagem pré-treinados (por exemplo, Transformers do Hugging Face).
-
- Recuperação de documentos
Em seguida, você deve implementar um sistema de recuperação para recuperar documentos relevantes com base na entrada do usuário. Há uma opção para criar ou usar uma variedade de documentos relevantes para seu setor ou tarefa. Como alternativa, há métodos mais tradicionais, como o uso de Okapi BM25 ou Frequência do termo - Frequência inversa do documento (TF-IDF), ou modelos de recuperação neural, como Recuperação de passagens densas (DPR).
-
- Incorporação contextual
As incorporações contextuais ajudam a identificar o verdadeiro sentimento de uma palavra com base no texto ao redor, o que ajuda a fornecer uma representação melhor do que as incorporações tradicionais de palavras. A incorporação contextual pode ser obtida usando modelos como Representações de codificadores bidirecionais a partir de transformadores (BERT, na sigla em inglês).
-
- Combinação (Concatenação)
Depois de utilizar os embeddings contextuais, você precisará combiná-los com o contexto. Você pode fazer isso combinando os embeddings da entrada com os embeddings dos documentos ou usando mecanismos de atenção para ponderar a importância dos embeddings de cada documento com base no contexto da entrada.
-
- Ajuste fino
O ajuste fino é opcional, mas pode melhorar o desempenho do modelo. Você pode usar o ajuste fino para acelerar o treinamento, lidar com casos de uso específicos e melhorar a experiência do usuário.
-
- Inferência
Essa última etapa alimentará o contexto no modelo e recuperará os documentos relevantes usando o sistema de recuperação de documentos. Ela também combinará os embeddings de entrada com os embeddings de documentos e gerará uma resposta usando o modelo combinado.
Felizmente, existem bibliotecas que fornecem ferramentas pré-treinadas para a implementação de sistemas do tipo RAG, tornando todo esse processo mais fácil e acessível para os desenvolvedores.
Benefícios da geração aumentada por recuperação
Um dos maiores benefícios da geração aumentada por recuperação é a qualidade e a relevância aprimoradas das respostas geradas devido ao fato de o modelo de linguagem grande ter acesso a informações mais precisas e relevantes do que teria de outra forma.
Outro benefício é a capacidade do RAG de fornecer informações específicas do domínio. Como é possível ajustar os modelos RAG para tarefas ou casos de uso específicos, eles podem beneficiar os usuários fornecendo informações exclusivas para a situação deles.
Como o RAG não apenas recupera informações relevantes, mas também gera uma resposta natural, as interações com esses modelos serão, em geral, mais conversacionais e fáceis de usar.
Principais conclusões e recursos adicionais
A geração aumentada por recuperação oferece uma versão aprimorada dos modelos tradicionais de linguagem grande, combinando os pontos fortes dos LLMs com o acesso externo a informações precisas e atualizadas.
Para continuar aprendendo sobre tópicos relacionados à geração aumentada por recuperação, confira estes recursos:
-
- Explicação dos modelos de idiomas grandes
- O que são Vector Embeddings?
- Desbloqueando a pesquisa de próximo nível: O poder dos bancos de dados vetoriais
- Um guia para o desenvolvimento de IA generativa
- Como a IA generativa funciona com o Couchbase
- Couchbase apresenta um novo serviço de nuvem de IA, o Capella iQ
- Os clientes do Couchbase estão usando IA e ML para combater fraudes financeiras
- Tenha contato prático com a pesquisa vetorial: