A medida que las empresas buscan desplegar aplicaciones de agentes de IA listas para la producción, la observabilidad de Large Language Model (LLM) ha surgido como un requisito crítico para garantizar tanto el rendimiento como la confianza. Las organizaciones necesitan visibilidad sobre cómo interactúan los agentes con los datos, toman decisiones y recuperan información para mantener la fiabilidad, la seguridad y el cumplimiento. Sin una observabilidad adecuada, las empresas corren el riesgo de implantar modelos que produzcan resultados incoherentes, imprecisos o sesgados, lo que se traduce en malas experiencias de usuario e ineficiencias operativas. La nueva asociación entre Couchbase y Arize AI desempeña un papel vital a la hora de aportar sólidas capacidades de supervisión, evaluación y optimización a las aplicaciones basadas en IA.

La integración de Couchbase y Arize AI ofrece una potente solución para construir y monitorizar Retrieval Augmented Generation (RAG) y aplicaciones de agentes a escala. Al aprovechar la base de datos vectorial de alto rendimiento de Couchbase y la plataforma de observabilidad Arize AI y las capacidades de monitorización mejoradas, las empresas pueden construir, desplegar y optimizar con confianza soluciones Agentic RAG en producción.

En este blog, vamos a caminar a través de la creación de un chatbot Agentic RAG QA utilizando LangGraph y el Couchbase Catálogo de agentes de la recientemente anunciada Servicios de IA de Capella (en vista previa), y evaluando y optimizando su rendimiento con Arize AI. Este es un ejemplo tangible de cómo Couchbase y Arize AI permiten a los desarrolladores mejorar los flujos de trabajo de recuperación, mejorar la precisión de las respuestas y supervisar las interacciones impulsadas por LLM en tiempo real.

El valor de la asociación entre Couchbase y Arize AI

Al unir fuerzas, Couchbase y Arize AI están revolucionando la forma en que los desarrolladores construyen y evalúan aplicaciones de agentes de IA. Los desarrolladores pueden construir sofisticadas aplicaciones de agentes aprovechando Couchbase Capella como una única plataforma de datos para el almacenamiento en caché LLM, memoria de agentes a largo y corto plazo, casos de uso de incrustación de vectores, análisis y cargas de trabajo operativas junto con su marco de desarrollo de agentes favorito para orquestar flujos de trabajo de agentes.

Couchbase Agent Catalog mejora aún más este sistema proporcionando un almacén centralizado para flujos de trabajo multi-agente dentro de una organización que permite el almacenamiento, la gestión y el descubrimiento de varias herramientas de agente, el versionado rápido y la depuración de trazas LLM.

Para garantizar una alta fiabilidad y transparencia, Arize AI ofrece funciones de observabilidad críticas, entre las que se incluyen:

    • Rastreo de llamadas a funciones del agente: Arize permite una supervisión detallada de las llamadas a funciones del agente, incluidos los pasos de recuperación y las interacciones LLM, para hacer un seguimiento de cómo se generan las respuestas.
    • Comparación de conjuntos de datos: Los desarrolladores pueden crear un conjunto de datos estructurados para evaluar y comparar el rendimiento de los agentes a lo largo del tiempo.
    • Evaluación del rendimiento con LLM como juez: Mediante evaluadores integrados, Arize aprovecha los LLM para evaluar la precisión de las respuestas, la pertinencia y la eficacia general del agente.
    • Experimentar con estrategias de recuperación: Ajustando el tamaño de los trozos, los solapamientos y el número de documentos recuperados (valor K), los desarrolladores pueden analizar su impacto en el rendimiento del agente.
    • Análisis comparativo en Arize: La plataforma permite comparar diferentes estrategias de recuperación, lo que ayuda a los equipos a determinar la configuración óptima para su agente.

La importancia de la observabilidad del LLM

Para garantizar que las aplicaciones de IA funcionen bien en producción, las empresas necesitan un marco de evaluación sólido. Las herramientas de observabilidad como Arize AI permiten a los desarrolladores:

    • Evaluar los resultados del LLM en función de factores como la pertinencia, los índices de alucinación y la latencia.
    • Realización de evaluaciones sistemáticas para medir el impacto de los cambios en los avisos, las modificaciones en la recuperación y los ajustes de los parámetros.
    • Recopilar conjuntos de datos exhaustivos para evaluar el rendimiento en diferentes casos de uso.
    • Automatizar los procesos de evaluación dentro de las canalizaciones CI/CD, garantizando una fiabilidad constante de las aplicaciones.

Utilizando un LLM como juez, Arize AI permite a los desarrolladores medir la eficacia del agente utilizando evaluadores probados previamente, técnicas de evaluación personalizadas de varios niveles y evaluaciones comparativas de rendimiento a gran escala. Mediante la ejecución de miles de evaluaciones, los equipos pueden iterar rápidamente y perfeccionar las indicaciones del LLM, los métodos de recuperación y los flujos de trabajo del agente para mejorar la calidad general de la aplicación.

Creación de un chatbot RAG Agentic QA

La RAG Agentic combina la potencia de la generación tradicional de recuperación aumentada con la toma de decisiones inteligente. En esta implementación, permitimos que un LLM decida dinámicamente si la recuperación es necesaria en función del contexto de la consulta.

Arize AI for Agentic RAG with Couchbase

Ilustración que representa el flujo de trabajo del agente de Ejemplo de RAG agéntico de Langgraph.

Aplicación paso a paso

El resto de este blog se basa en el cuaderno tutorial. Antes de crear y desplegar un agente de IA observable, tendrá que configurar su entorno de desarrollo.

Requisitos previos:

    1. Para seguir este tutorial, necesitarás inscribirse en Arize y obtén tus claves Space, API y Developer. Puede ver las guía aquí. También necesitará un Clave API de OpenAI.
    2. Tendrás que configurar tu clúster Couchbase haciendo lo siguiente:
      1. Cree una cuenta en Nube Couchbase
      2. Cree un clúster libre con los servicios de datos, índices y búsqueda activados*.
      3. Crear credenciales de acceso al clúster
      4. Permitir el acceso al clúster desde su máquina local
      5. Crea un cubo para almacenar tus documentos
      6. Crear un índice de búsqueda
    3. Cree herramientas y avisos requeridos por los agentes usando el Catálogo de Agentes de Couchbase (para la instalación y más instrucciones, explore la documentación aquí)

*El Servicio de Búsqueda se utilizará para realizar la Búsqueda Semántica más adelante cuando utilicemos el catálogo de Agentes.


1) Crear un chatbot Agentic RAG usando LangGraph, Couchbase como almacén de vectores y Catálogo de Agentes para gestionar los agentes de IA.

Configuración de dependencias

Conexión a Couchbase

Usaremos Couchbase como nuestro almacén de vectores. He aquí cómo configurar la conexión:

Introducción de documentos

Crearemos una función de ayuda para cargar e indexar documentos con parámetros de fragmentación configurables:

Configuración de la herramienta Retriever

Obtenga nuestra herramienta de recuperación del Catálogo de Agentes mediante la función agentec proveedor. En el futuro, cuando se necesiten más herramientas (y/o avisos) y la aplicación sea más compleja, el SDK y la CLI del Catálogo de Agentes podrán utilizarse para obtener automáticamente las herramientas en función del caso de uso (búsqueda semántica) o por nombre.

Para obtener instrucciones sobre cómo se creó esta herramienta y más capacidades del catálogo de agentes, consulte la documentación aquí.

Definición del estado del agente

Definiremos un grafo de agentes para ayudar a todos los agentes implicados a comunicarse mejor entre sí. Los agentes se comunican a través de un estado que se pasa a cada nodo y se modifica con la salida de ese nodo.

Nuestro estado será una lista de mensajes y cada nodo de nuestro grafo lo añadirá a él:

Creación de nodos de agente

Definiremos los componentes básicos de nuestro canal de agentes:

Nodos: Función de comprobación de relevancia, Reescritura de consultas, Agente principal, Generación de respuestas

Construcción del gráfico de agentes

Ahora conectaremos los nodos en un flujo de trabajo coherente:

Visualización del gráfico de agentes

Visualicemos nuestro flujo de trabajo para entenderlo mejor:


2) Rastrear las llamadas a funciones del agente utilizando Arize, capturando las consultas de recuperación, las respuestas LLM y el uso de herramientas.

Arize proporciona una observabilidad completa para nuestro sistema de agentes. Vamos a configurar el rastreo:

Ahora vamos a ejecutar el agente para ver cómo funciona:

Esto ejecutará nuestro grafo de agentes y mostrará información detallada de cada nodo a medida que procesa la consulta. En Arize, podrás ver una visualización de trazas que muestra el flujo de ejecución, la latencia y los detalles de cada llamada a función.

Tracing visualization from Arize platform

Visualización del seguimiento desde Arize Platform


3) Evaluar el rendimiento generando un conjunto de datos con consultas y respuestas esperadas.

Para evaluar sistemáticamente nuestro sistema, necesitamos un conjunto de datos de referencia:


4) Evaluar el rendimiento utilizando el LLM como juez

Utilizaremos la evaluación basada en LLM para valorar la calidad de las respuestas de nuestro agente:


5) Experimente con los ajustes de recuperación

Ahora vamos a experimentar con diferentes configuraciones para optimizar nuestro sistema:

Ahora haremos experimentos con distintas configuraciones:


6) Comparar experimentos en Arize

Después de ejecutar todos los experimentos, ya puedes verlos y compararlos en la interfaz de Arize. Los experimentos deben ser visibles en su espacio de trabajo Arize bajo el nombre del conjunto de datos que hemos creado anteriormente.

Vista comparativa de experimentos desde Arize Platform

En Arize, puedes:

    1. Comparar las métricas de rendimiento global entre distintas configuraciones.
    2. Analizar el rendimiento por pregunta para identificar patrones
    3. Examinar los detalles de la traza para comprender el flujo de ejecución
    4. Ver las puntuaciones de relevancia y corrección de cada experimento
    5. Ver las explicaciones de las decisiones de evaluación
    6. Evalúe los resultados utilizando un LLM como juez para puntuar la pertinencia y la corrección de las respuestas.
    7. Optimice la configuración de recuperación experimentando con tamaños de trozos, configuraciones de solapamiento y límites de recuperación de documentos.
    8. Compare y analice experimentos en Arize para determinar las configuraciones de mejor rendimiento.

Innovar con Couchbase y Arize AI

La integración de Couchbase y Arize empodera a las empresas para construir aplicaciones GenAI robustas y listas para producción con fuertes capacidades de observabilidad y optimización. Al aprovechar Agentic RAG con decisiones de recuperación monitorizadas, las organizaciones pueden mejorar la precisión, reducir las alucinaciones y garantizar un rendimiento óptimo a lo largo del tiempo.

A medida que las empresas continúan ampliando los límites de GenAI, combinar el almacenamiento vectorial de alto rendimiento con la observabilidad de la IA será clave para desplegar aplicaciones fiables y escalables. Con Couchbase y Arize, las organizaciones tienen las herramientas necesarias para afrontar con confianza los retos del despliegue de GenAI en la empresa.

Recursos adicionales

 

Autor

Publicado por Richard Young - Dir. Arquitectura de soluciones para socios, Arize AI

Dejar una respuesta