Análisis de Couchbase

ML se une a NoSQL: Integración de funciones definidas por el usuario de Python con SQL++ para análisis

Tras conversaciones con nuestros clientes sobre el retraso en la obtención de información analítica de sus modelos de aprendizaje automático basados en Python, nos propusimos crear un canal sin fisuras de Python a Couchbase Analytics que devolviera información más rápida en tiempo real. 

Introducción

Con la publicación de Servidor Couchbase 7.0nos complace presentar una nueva función que puede explorar en Modo de vista previa para desarrolladoresIntegración de Python UDFs con Couchbase Analytics. 

El aprendizaje automático ha transformado radicalmente la forma en que las organizaciones comprenden las necesidades de sus clientes. Los ámbitos del análisis avanzado, como el análisis predictivo (pérdida de clientes, sentimiento de los clientes, etc.) y el modelado financiero, dependen cada vez más del procesamiento de datos a escala, casi en tiempo real, y de la extracción de información valiosa a partir de ellos.

Este blog recorrerá el proceso de configuración de las instancias de Couchbase, la sincronización con el repositorio remoto de AnalyticsML, la creación de los directorios necesarios y la ejecución de los ejemplos de código necesarios.

El público objetivo de este blog es cualquier persona casualmente interesada en la intersección de Couchbase Server, Machine Learning, Python, y el servicio Couchbase Analytics. Hay ciertos conceptos presentados que esperamos que el lector entienda (pero no te preocupes, incluiremos enlaces para ponerte al día). En general, queremos que cualquiera que tenga el más mínimo interés recorra este tutorial para ver cómo se puede enfocar el poder del ML en datos residentes en Couchbase usando sus algoritmos de ML para obtener insights instantáneos.

Requisitos previos y supuestos:

Conocimientos/comprensión:

Configuración del entorno:

Además, para poder seguir los siguientes pasos, necesitarás una implementación de Couchbase en funcionamiento:

    • Un IDE de Python v3.8+ (yo usaré VSCode para este blog).
    • Docker Desktop instalado en su ordenador
    • Las muestras de la línea de comandos tendrán el formato cursiva para indicar lo que debe introducirse
    • En los ejemplos de Python se identifican todas las bibliotecas necesarias (sklearn es de scikit-learn). Si no dispone de estas bibliotecas, instálelas con 'pip3 install'
    • Los dos conjuntos de datos utilizados para este blog pueden encontrarse en kaggle en (https://www.kaggle.com/stefanoleone992/rotten-tomatoes-movies-and-critic-reviews-dataset). Se trata de archivos bastante grandes, por lo que se proporciona un enlace a los mismos para que pueda descargarlos cuando siga el curso.

Configuración de su servidor Couchbase:

En esta sección, instalará y configurará su Couchbase Server.

  1. Desde la línea de comandos de su terminal, cree los nodos ('cb-analytics' & 'cb'):
  2. Para confirmar que la instancia se ha lanzado correctamente:
    1. docker logs db1
  3. Si el contenedor se ha iniciado, la salida debería comenzar con lo siguiente:
  4. Descubre las direcciones IP locales de cb y cb-analytics:

5. Ir a http:// localhost:8091 para iniciar la configuración de su instancia couchbase y seleccione 'Configurar un nuevo clústerr' y continúe con el Asistente de Configuración de forma normal:

  • Los nombres de los servidores Couchbase son 'cbycb-analytics' con nombre de usuario 'Administrador' y contraseña 'contraseña'
  • Una vez inicializado el cluster en el primer nodo Couchbase Server (cb), el siguiente paso es añadir los nodos Couchbase Server de cb-analytics al cluster.
  • En la Consola Web de Couchbase, ve a la pestaña Servidores y haz clic en AÑADIR SERVIDOR. Esto abre el diálogo 'Añadir Nodo Servidor'.

  • En el campo Nombre de host/Dirección IP, introduzca la dirección IP que capturó previamente para cb. Haga clic en Añadir servidor para añadir el nodo a la configuración del clúster.
  • Una vez que cb y cb-analytics se hayan añadido correctamente a la configuración del clúster, haga clic en Reequilibrar para que los nuevos nodos se activen en el clúster.
  • Cree dos buckets, uno para 'movies' y otro para 'movie_reviews':

  • Ahora tienes un cluster multi-nodos de Couchbase ejecutándose en contenedores en un único host. Tus dos buckets y tu instancia de Couchbase están listos para funcionar (si necesitas más detalles, aquí tienes el enlace a la guía pasos más detallados). 

ADVERTENCIA: EL SERVIDOR COUCHBASE DEBE ESTAR EN MODO DE VISTA PREVIA PARA DESARROLLADORES. PONER EL SERVIDOR COUCHBASE EN ESTE MODO ES UN CAMBIO NO RECUPERABLE Y SE RECOMIENDA ENCARECIDAMENTE NO REALIZAR ESTE CAMBIO EN UN ENTORNO DE PRODUCCIÓN O EN UN SISTEMA CRÍTICO. 

Para configurar Couchbase Server en modo Developer Preview es necesario ejecutar lo siguiente en una línea de comandos.

Configuración del sistema de archivos:

  • Los archivos de este ejercicio y del conjunto de datos de entrenamiento se encuentran en el archivo repositorio github 

  • Tendrá que crear una carpeta para trabajar dentro de mantener su contenido separado de sus otras actividades (es decir, ejemplos / AnalyticsML) y dentro de esa carpeta tendrá que crear otra carpeta llamada 'tubería'.

Sólo tienes que configurar el entorno necesario de Couchbase Server en Docker. En la Parte 2, configuraremos los ejemplos de código necesarios, importaremos la función y finalmente ejecutaremos la función de análisis de sentimiento desde Couchbase Analytics.

¿Quieres saber más sobre Couchbase Analytics? Vea la sesión completa de ConnectONLINE aquí:

Agradecimientos
Gracias a Anuj Kothari, un becario de verano de gestión de productos para el servicio Couchbase Analytics, cuyos esfuerzos iniciales hicieron que esto empezara y despegara el verano pasado. Gracias a Idris MotiwalaDirector de producto principal del servicio de análisis de Couchbase, y Ian Maxoningeniero de software de Couchbase Analytics Service, por su trabajo editorial para hacer de éste un blog más funcional.

Comparte este artículo
Recibe actualizaciones del blog de Couchbase en tu bandeja de entrada
Este campo es obligatorio.

Autor

Publicado por Muk Sreenivasan

Deja un comentario

¿Listo para empezar con Couchbase Capella?

Empezar a construir

Consulte nuestro portal para desarrolladores para explorar NoSQL, buscar recursos y empezar con tutoriales.

Utilizar Capella gratis

Ponte manos a la obra con Couchbase en unos pocos clics. Capella DBaaS es la forma más fácil y rápida de empezar.

Póngase en contacto

¿Quieres saber más sobre las ofertas de Couchbase? Permítanos ayudarle.