Parceiros

Couchbase faz parceria com Arize AI para permitir aplicativos de agentes de IA confiáveis e prontos para produção

À medida que as empresas buscam implementar aplicativos de agentes de IA prontos para produção, a observabilidade do modelo de linguagem grande (LLM) surgiu como um requisito essencial para garantir o desempenho e a confiança. As organizações precisam ter visibilidade de como os agentes interagem com os dados, tomam decisões e recuperam informações para manter a confiabilidade, a segurança e a conformidade. Sem a observabilidade adequada, as empresas correm o risco de implantar modelos que produzam resultados inconsistentes, imprecisos ou tendenciosos, levando a experiências de usuário ruins e ineficiências operacionais. A nova parceria entre Couchbase e Arize AI desempenha um papel fundamental ao trazer recursos robustos de monitoramento, avaliação e otimização para aplicativos orientados por IA.

A integração do Couchbase e do Arize AI oferece uma solução avançada para a criação e o monitoramento de aplicativos RAG (Retrieval Augmented Generation) e de agentes em escala. Ao aproveitar o banco de dados vetorial de alto desempenho do Couchbase, a plataforma de observabilidade da Arize AI e os recursos de monitoramento aprimorados, as empresas podem criar, implantar e otimizar com confiança as soluções Agentic RAG na produção.

Neste blog, vamos criar um chatbot de controle de qualidade Agentic RAG usando o LangGraph e o Couchbase Catálogo de agentes componente do recém-anunciado Serviços de IA da Capella (em visualização), além de avaliar e otimizar seu desempenho com o Arize AI. Esse é um exemplo tangível de como o Couchbase e o Arize AI permitem que os desenvolvedores aprimorem os fluxos de trabalho de recuperação, melhorem a precisão da resposta e monitorem as interações alimentadas por LLM em tempo real.

O valor da parceria entre a Couchbase e a Arize AI

Ao unir forças, a Couchbase e a Arize AI estão revolucionando a forma como os desenvolvedores criam e avaliam aplicativos de agentes de IA. Os desenvolvedores podem criar aplicativos de agente sofisticados aproveitando o Couchbase Capella como uma plataforma de dados única para cache LLM, memória de agente de longo e curto prazo, casos de uso de incorporação de vetor, análises e cargas de trabalho operacionais, juntamente com sua estrutura de desenvolvimento de agente favorita para orquestrar fluxos de trabalho de agente.

O Couchbase Agent Catalog aprimora ainda mais esse sistema, fornecendo um armazenamento centralizado para fluxos de trabalho de vários agentes em uma organização que permite o armazenamento, o gerenciamento e a descoberta de várias ferramentas de agentes, o controle de versão imediato e a depuração de rastreamento LLM.

Para garantir alta confiabilidade e transparência, o Arize AI oferece recursos essenciais de observabilidade, incluindo:

    • Rastreamento de chamadas de função do agente: O Arize permite o monitoramento detalhado das chamadas de função do agente, incluindo etapas de recuperação e interações LLM, para rastrear como as respostas são geradas.
    • Benchmarking de conjunto de dados: Os desenvolvedores podem criar um conjunto de dados estruturado para avaliar e comparar o desempenho do agente ao longo do tempo.
    • Avaliação de desempenho com o LLM como juiz: Usando avaliadores integrados, o Arize aproveita os LLMs para avaliar a precisão da resposta, a relevância e a eficácia geral do agente.
    • Experimentando estratégias de recuperação: Ao ajustar os tamanhos dos blocos, as sobreposições e o número de documentos recuperados (valor K), os desenvolvedores podem analisar seu impacto no desempenho do agente.
    • Análise comparativa no Arize: A plataforma permite comparações lado a lado de diferentes estratégias de recuperação, ajudando as equipes a determinar a configuração ideal para seu agente.

A importância da observabilidade do LLM

Para garantir que os aplicativos de IA tenham um bom desempenho na produção, as empresas precisam de uma estrutura de avaliação robusta. Ferramentas de observabilidade como o Arize AI permitem que os desenvolvedores:

    • Avaliar os resultados do LLM com base em fatores como relevância, taxas de alucinação e latência
    • Conduzir avaliações sistemáticas para medir o impacto de alterações imediatas, modificações de recuperação e ajustes de parâmetros
    • Organizar conjuntos de dados abrangentes para avaliar o desempenho em diferentes casos de uso
    • Automatize os processos de avaliação nos pipelines de CI/CD, garantindo a confiabilidade consistente dos aplicativos

Usando um LLM como juiz, o Arize AI permite que os desenvolvedores meçam a eficácia do agente usando avaliadores pré-testados, técnicas de avaliação personalizadas em vários níveis e benchmarking de desempenho em grande escala. Ao executar milhares de avaliações, as equipes podem iterar rapidamente e refinar as solicitações do LLM, os métodos de recuperação e os fluxos de trabalho do agente para melhorar a qualidade geral do aplicativo.

Criação de um chatbot de controle de qualidade RAG autêntico

O Agentic RAG combina o poder da geração tradicional aumentada por recuperação com a tomada de decisão inteligente. Nessa implementação, permitimos que um LLM decida dinamicamente se a recuperação é necessária com base no contexto da consulta.

Arize AI for Agentic RAG with Couchbase

Ilustração que descreve o fluxo de trabalho do agente de Exemplo de RAG autêntico da Langgraph.

Implementação passo a passo

O restante deste blog se baseia no texto que o acompanha caderno de tutoriais. Antes de criar e implantar um agente de IA observável, você precisará configurar seu ambiente de desenvolvimento.

Pré-requisitos:

    1. Para acompanhar este tutorial, você precisará inscrever-se no Arize e obtenha suas chaves de espaço, API e desenvolvedor. Você pode ver as guia aqui. Você também precisará de um Chave da API da OpenAI.
    2. Você precisará configurar seu cluster do Couchbase fazendo o seguinte:
      1. Crie uma conta em Nuvem do Couchbase
      2. Crie um cluster gratuito com os serviços de dados, índice e pesquisa ativados*
      3. Criar credenciais de acesso ao cluster
      4. Permitir acesso ao cluster a partir de seu computador local
      5. Crie um bucket para armazenar seus documentos
      6. Criar um índice de pesquisa
    3. Crie ferramentas e prompts exigidos pelos agentes usando o Couchbase Agent Catalog (para obter instruções de instalação e outras, explore a documentação aqui)

*O serviço de pesquisa será usado para realizar a pesquisa semântica posteriormente, quando usarmos o catálogo de agentes.


1) Criar um chatbot Agentic RAG usando LangGraph, Couchbase como armazenamento de vetores e Agent Catalog para gerenciar agentes de IA

Configuração de dependências

Conexão com o Couchbase

Usaremos o Couchbase como nosso armazenamento de vetores. Veja a seguir como configurar a conexão:

Ingestão de documentos

Criaremos uma função auxiliar para carregar e indexar documentos com parâmetros de fragmentação configuráveis:

Configuração da ferramenta Retriever

Busque nossa ferramenta retriever no Catálogo de Agentes usando o comando agente provedor. No futuro, quando mais ferramentas (e/ou prompts) forem necessárias e o aplicativo se tornar mais complexo, o SDK e a CLI do Agent Catalog poderão ser usados para buscar automaticamente as ferramentas com base no caso de uso (pesquisa semântica) ou pelo nome.

Para obter instruções sobre como essa ferramenta foi criada e mais recursos do catálogo de agentes, consulte a documentação aqui.

Definição do estado do agente

Definiremos um gráfico de agentes para ajudar todos os agentes envolvidos a se comunicarem melhor uns com os outros. Os agentes se comunicam por meio de um estado que é passado para cada nó e modificado com a saída desse nó.

Nosso estado será uma lista de mensagens e cada nó em nosso gráfico será anexado a ele:

Criação de nós de agente

Definiremos os principais componentes de nosso pipeline de agentes:

Nós: Função de verificação de relevância, reescritor de consultas, agente principal, geração de respostas

Criação do gráfico do agente

Agora, conectaremos os nós em um fluxo de trabalho coerente:

Visualização do gráfico do agente

Vamos visualizar nosso fluxo de trabalho para entendê-lo melhor:


2) Rastrear as chamadas de função do agente usando o Arize, capturando consultas de recuperação, respostas LLM e uso de ferramentas

O Arize oferece observabilidade abrangente para o nosso sistema de agentes. Vamos configurar o rastreamento:

Agora vamos executar o agente para ver como ele funciona:

Isso executará nosso gráfico de agentes e produzirá informações detalhadas de cada nó à medida que ele processa a consulta. No Arize, você poderá ver uma visualização de rastreamento que mostra o fluxo de execução, a latência e os detalhes de cada chamada de função.

Tracing visualization from Arize platform

Visualização de rastreamento da plataforma Arize


3) Avaliar o desempenho gerando um conjunto de dados com consultas e respostas esperadas

Para avaliar sistematicamente nosso sistema, precisamos de um conjunto de dados de referência:


4) Avalie o desempenho usando o LLM como juiz

Usaremos a avaliação baseada em LLM para avaliar a qualidade das respostas do nosso agente:


5) Experimente as configurações de recuperação

Agora vamos experimentar diferentes configurações para otimizar nosso sistema:

Agora, faremos experimentos com diferentes configurações:


6) Comparar experimentos no Arize

Depois de executar todos os experimentos, agora você pode visualizá-los e compará-los na interface do usuário do Arize. Os experimentos devem estar visíveis no espaço de trabalho do Arize sob o nome do conjunto de dados que criamos anteriormente.

Visualização de comparação de experimentos da plataforma Arize

No Arize, você pode:

    1. Comparar as métricas de desempenho geral entre diferentes configurações
    2. Analisar o desempenho por pergunta para identificar padrões
    3. Examinar os detalhes do rastreamento para entender o fluxo de execução
    4. Veja as pontuações de relevância e correção de cada experimento
    5. Veja as explicações para as decisões de avaliação
    6. Avalie os resultados usando um LLM como juiz para pontuar a relevância e a correção das respostas.
    7. Otimize as configurações de recuperação experimentando tamanhos de blocos, configurações de sobreposição e limites de recuperação de documentos.
    8. Compare e analise experimentos no Arize para determinar as configurações de melhor desempenho.

Inovar com o Couchbase e a Arize AI

A integração do Couchbase e do Arize permite que as empresas criem aplicativos de GenAI robustos e prontos para a produção, com fortes recursos de observabilidade e otimização. Ao aproveitar o Agentic RAG com decisões de recuperação monitoradas, as organizações podem aumentar a precisão, reduzir as alucinações e garantir o desempenho ideal ao longo do tempo.

À medida que as empresas continuam a ultrapassar os limites da GenAI, a combinação do armazenamento vetorial de alto desempenho com a observabilidade da IA será fundamental para a implementação de aplicativos confiáveis e dimensionáveis. Com o Couchbase e o Arize, as organizações têm as ferramentas para enfrentar com confiança os desafios da implementação da GenAI corporativa.

Recursos adicionais

 

Compartilhe este artigo
Receba atualizações do blog do Couchbase em sua caixa de entrada
Esse campo é obrigatório.

Autor

Postado por Richard Young - Dir. Arquitetura de soluções para parceiros, Arize AI

Deixe um comentário

Pronto para começar a usar o Couchbase Capella?

Iniciar a construção

Confira nosso portal do desenvolvedor para explorar o NoSQL, procurar recursos e começar a usar os tutoriais.

Use o Capella gratuitamente

Comece a trabalhar com o Couchbase em apenas alguns cliques. O Capella DBaaS é a maneira mais fácil e rápida de começar.

Entre em contato

Deseja saber mais sobre as ofertas do Couchbase? Deixe-nos ajudar.