Buenas prácticas y tutoriales

Datos listos para la IA: Automatice las incrustaciones con el servicio de vectorización de Capella

¡Couchbase Capella ha lanzado una Vista Previa Privada para servicios de IA! Echa un vistazo este blog para obtener una visión general de cómo estos servicios simplifican el proceso de creación de aplicaciones y agentes de IA escalables y nativos de la nube.

En nuestro blog anterior, mostramos cómo configurar la función servicio modeloy este post continúa nuestra serie de tutoriales explorando el siguiente paso crítico. En este blog, exploraremos cómo utilizar el servicio de vectorización estructurada para incrustar automáticamente documentos JSON, haciéndolos instantáneamente utilizables con la búsqueda vectorial de Couchbase. Esto hace que sea más fácil construir aplicaciones de IA con búsqueda semántica sin fisuras y recuperación de datos inteligente, manteniendo un alto rendimiento y los datos seguros dentro de tu infraestructura.

El servicio de vectorización de Capella convierte de forma segura datos en incrustaciones vectoriales a escala. Utiliza Couchbase Eventing para el procesamiento en tiempo real y la transformación eficiente de datos. Esto garantiza una ejecución rápida y segura cerca de su infraestructura.

¿Qué son las incrustaciones vectoriales y por qué son importantes?

Las incrustaciones vectoriales son representaciones numéricas de texto, imágenes u otros tipos de datos que capturan su significado semántico matizado en un formato adecuado para el aprendizaje automático. En la creación de una aplicación de generación de recuperación aumentada (RAG), las incrustaciones sirven de columna vertebral para buscar y clasificar eficientemente grandes cantidades de datos basándose en la similitud, lo que resulta esencial para ofrecer un contexto relevante en tiempo real. Por ejemplo, los casos de uso de la IA, como los motores de búsqueda semántica, los sistemas de recomendación, los agentes conversacionales como los chatbots y las aplicaciones de reconocimiento de imágenes, se basarían en las incrustaciones para transformar los datos brutos en información procesable y, en última instancia, mejorar el rendimiento y la experiencia del usuario.

¿Quién debe utilizar el servicio de vectorización de Capella?

Si almacena documentos JSON en Capella y desea acelerar el desarrollo de IA, el servicio de vectorización de Capella es la solución perfecta. Elimina la necesidad de crear un sistema de incrustación personalizado al convertir sin problemas sus datos en representaciones vectoriales.

Tanto si está creando una aplicación de generación aumentada por recuperación (RAG) como si está configurando una búsqueda semántica o añadiendo funciones basadas en IA, este servicio agiliza y facilita el proceso. Se encarga del trabajo complejo con eficiencia y escalabilidad integradas, para que usted pueda centrarse en la innovación mientras sus datos se transforman en conocimientos listos para la IA al instante.

Primeros pasos: despliegue de un flujo de trabajo de vectorización

Veamos un sencillo tutorial para desplegar un flujo de trabajo de vectorización en Capella.

Lo que aprenderás:

    1. Creación de un flujo de trabajo de vectorización en Capella
    2. Utilización de las incrustaciones con una aplicación GAR

Requisitos previos

Antes de empezar, asegúrate de que tienes:

    • Se ha inscrito en la vista previa privada y ha activado los servicios de IA para su organización. Inscríbase aquí
    • Función de propietario de la organización permisos para gestionar el Servicio de Vectorización
    • Un clúster operativo multi-AZ con servicios de búsqueda y eventos
    • Un espacio clave existente donde se ingieren o almacenan los documentos JSON

Paso 1: despliegue del flujo de trabajo de vectorización

Vaya a Servicios de IA en la página de inicio de Capella y haga clic en Servicio de vectorización para proceder.

Automate AI Vectorization service

Introduzca el nombre del flujo de trabajo

Name AI vectorization service

 

Seleccione el clúster operativo

Aquí, seleccione el clúster, el bucket, el ámbito y la colección donde se encuentran los documentos JSON sin procesar.

Connect database cluster to automated AI vectorization service

Seleccione los campos de origen

Los campos de origen determinan qué parte de su documento JSON se utilizará para generar incrustaciones.

Nota: El servicio de vectorización agrupa los datos en lotes de 16 objetos, cada uno de los cuales representa el texto a incrustar de un único documento. Sin embargo, si el texto combinado en un lote supera la longitud máxima de entrada permitida por el modelo, el proceso de incrustación de ese documento fallará.

Aunque el procesamiento por lotes reduce el número de llamadas a la API, es crucial asegurarse de que el texto de cada documento se mantiene dentro de los límites de tamaño del modelo. De lo contrario, cualquier lote que incluya texto de tamaño excesivo no se procesará correctamente.

En Capella, tienes dos opciones:

    • Todos los campos fuente: Genera incrustaciones para todo el documento JSON.
    • Campos de origen personalizados: Permite especificar un campo concreto para generar incrustaciones.

Choose fields for automated vectorization service

Seleccione el modelo de incrustación

Couchbase Capella proporciona la opción de elegir tanto OpenAI como proveedor de incrustación o puedes elegir un modelo de incrustación alojado en Capella.

Siga este blog para creación de un modelo de incrustación alojado en Capella.

En este blog nos centraremos en OpenAI como nuestro proveedor de incrustación.

Cuando añadimos nuestra clave de API como integración en Capella, Capella guarda esa clave de API de forma segura en AWS Safely manager, que más tarde se puede reutilizar para otro flujo de trabajo, sin la molestia de añadir la clave de API de nuevo.


Choose an embedding model for automated vectorization service

Configurar el nombre del campo de incrustación y el nombre del índice vectorial

Configure embedding field name and vector index name

Ahora que ya has configurado el flujo de trabajo de vectorización, vamos a crear una aplicación RAG interactiva que aproveche estas incrustaciones para ofrecer resultados valiosos.

Paso 2: Utilización de las incrustaciones con una aplicación RAG

Acerca de la aplicación

Esta aplicación aprovecha las incrustaciones producidas por nuestro flujo de trabajo para impulsar un sofisticado Sistema de recomendación de hoteles. Esta aplicación, al recibir la entrada del usuario, genera incrustaciones precisas, realiza una búsqueda vectorial en nuestro servidor Couchbase y refina la respuesta final con un modelo avanzado de gran lenguaje (LLM).

Para utilizar la aplicación puede importar el viaje-muestra y generar una incrustación para nombre,ciudad,país y reseñas campo en la colección del hotel.

Configuración del flujo de trabajo

    • Importar cubo de muestras de viaje
    • Crear flujo de trabajo estructurado con la siguiente configuración
      • Cubo: viaje-muestra
      • Alcance: inventario
      • Colección: hotel
      • Campos fuente: nombre, ciudad, país, reseñas

Create a workflow for vectorizing structured data service

 

Probar la aplicación

    • Clonar el repositorio GitHub

git clone https://github.com/ayansharma2/RAG-APP.git

    • Cambiar directorio

cd RAG-APP

    • (Opcional pero recomendado) Crear y activar un entorno virtual:
      • En macOS/Linux:

python3 -m venv venv
fuente venv/bin/activate

      • En Windows:

python -m venv venv
venv\Scripts\activar

    • Instalar las dependencias del proyecto

pip install -r requisitos.txt

    • Ejecutar la aplicación

streamlit ejecutar main.py

Aplicación en acción

AI application using automated vectorization service in Capella

Reflexiones finales

El servicio de vectorización estructurada de Capella hace que la generación de incrustaciones de datos sea sencilla y fluida, ayudándole a crear aplicaciones potenciadas por IA con facilidad. Convierte automáticamente documentos JSON en incrustaciones vectoriales, ahorrando tiempo y eliminando la necesidad de transformación manual de datos. Esto acelera el desarrollo de sistemas de generación aumentada por recuperación (RAG), búsqueda semántica y otras herramientas de IA. Con un alto rendimiento y un cumplimiento de normativas integrado, su equipo puede innovar de forma más rápida y segura.

Apúntate a la Private Preview hoy mismo y empieza a crear aplicaciones más inteligentes y escalables con Couchbase Capella. Inscríbase en el preestreno privado aquí.

Referencias

Agradecimientos

Gracias al equipo (Abhishek J, Paulomee D, Kiran M, Nithish R, Santosh H, Denis S, Talina S, y muchos más). Gracias a todos los que han ayudado directa o indirectamente.





Comparte este artículo
Recibe actualizaciones del blog de Couchbase en tu bandeja de entrada
Este campo es obligatorio.

Author

Posted by Ayan Sharma - Ingeniero de Software 2

Deja un comentario

¿Listo para empezar con Couchbase Capella?

Empezar a construir

Consulte nuestro portal para desarrolladores para explorar NoSQL, buscar recursos y empezar con tutoriales.

Utilizar Capella gratis

Ponte manos a la obra con Couchbase en unos pocos clics. Capella DBaaS es la forma más fácil y rápida de empezar.

Póngase en contacto

¿Quieres saber más sobre las ofertas de Couchbase? Permítanos ayudarle.