Couchbase es la base de datos documental NoSQL líder en el mundo. Ofrece un rendimiento, una flexibilidad y una escalabilidad inigualables en el perímetro, en las instalaciones y en la nube. Spark es uno de los entornos de computación en memoria más populares. Las dos plataformas pueden combinarse para ejecutar funciones de consulta, ingeniería de datos, ciencia de datos y aprendizaje automático increíblemente rápidas.

En este QuickStart, te guiaré a través de los sencillos pasos para configurar Couchbase con Databricks* y ejecutar consultas de datos de Couchbase y consultas SQL de Spark.

*Nota: Los pasos de este QuickStart se han validado con Databricks runtime 10.4 LTS.

Configurar

Requisitos previos

Para completar este QuickStart, necesitará lo siguiente:

    • Un clúster Couchbase y viaje-muestra accesible al clúster Databricks. He utilizado un clúster Couchbase en una máquina AWS EC2.
    • A Cuenta Databricks - hay disponibles pruebas gratuitas que requieren una cuenta de AWS, Azure o GCP.
    • Couchbase conector de chispa versión 3.2.2, disponible en Maven
      • En la pantalla de creación del clúster, en la sección Bibliotecas pestaña. Seleccione Instale nuevo y busque el paquete en Maven Central. Vea el siguiente ejemplo:

    • En Instale se configurará como en el ejemplo siguiente:


Configuración

Antes de empezar, necesitamos configurar los siguientes parámetros en el cluster Databricks opciones avanzadas Configuración de Spark. Esto se puede hacer al crear un clúster (véase la impresión de pantalla a continuación):

Puede copiar y pegar la configuración de abajo y sustituir los parámetros en <> con los valores de su clúster Couchbase en el campo opciones avanzadas Configuración de Spark

En primer lugar, vamos a ejecutar las importaciones necesarias. Copie el código de ejemplo a continuación en un cuaderno en blanco conectado a un clúster con la configuración anterior

Ahora, vamos a obtener algunos documentos por claves desde Couchbase viaje-muestra utilizando el siguiente código:

Genial, nos hemos conectado al clúster y hemos devuelto nuestro primer RDD (Resilient Distributed Dataset).

Podemos consultar los datos usando SQL++ (lenguaje de consulta de Couchbase basado en SQL). Ejecuta el siguiente código como ejemplo:

Consulta del servicio de análisis

Couchbase también ofrece un servicio de análisis para el análisis operativo y análisis en tiempo real a continuación es un ejemplo de una consulta de análisis:

Pasemos ahora a Spark SQL

Utilice el código siguiente para crear vistas temporales para líneas aéreas y aeropuertos Marcos de datos:

Ahora podemos ejecutar consultas Spark SQL en las vistas, por ejemplo:

Obtener las compañías aéreas en orden ascendente:

Obtenga las compañías aéreas agrupadas por países:

Y por último, visualicemos los aeropuertos por país utilizando un UDF (User Defined Function) junto con la función de mapeo de Databricks. Crear el UDF utilizando el SQL ++ a continuación:

Seleccione los recuentos de aeropuertos por país y visualice los resultados:

Después de completar este Quickstart, su resultado debe ser similar a la visualización de abajo:

Lo que hemos conseguido

En este QuickStart, he descrito cómo utilizar el spark-connector de Couchbase con Databricks para crear RDDs, ejecutar consultas SQL de Couchbase y Spark, crear un UDF, y utilizar la función de mapeo de Databricks para visualizar los resultados. Estos pasos demuestran el proceso utilizado para acceder, analizar y visualizar datos en un clúster Couchbase desde una interfaz de cuaderno Databricks.

Próximos pasos

Más información Couchbase Capella:

Gracias por leer este post. Si tiene alguna pregunta o comentario, por favor conecte con nosotros en el Couchbase Foros

 

 

 

 

 

 

 

 

 

 

 

Autor

Publicado por Rick Jacobs

Rick Jacobs es el Director Técnico de Marketing de Producto en Couchbase. Su variada formación incluye experiencia en muchas de las principales organizaciones del mundo, como Computer Sciences Corporation, IBM, Cloudera, etc. Cuenta con más de 15 años de experiencia en tecnología en general, acumulada en puestos de desarrollo, consultoría, ciencia de datos, ingeniería de ventas y marketing técnico. Posee varios títulos académicos, incluido un máster en Ciencias Computacionales por la Universidad George Mason.

Dejar una respuesta