QuickStart: Couchbase with Apache Spark on Databricks

Couchbase es la base de datos documental NoSQL líder en el mundo. Ofrece un rendimiento, una flexibilidad y una escalabilidad inigualables en el perímetro, en las instalaciones y en la nube. Spark es uno de los entornos de computación en memoria más populares. Las dos plataformas pueden combinarse para ejecutar funciones de consulta, ingeniería de datos, ciencia de datos y aprendizaje automático increíblemente rápidas.

En este QuickStart, te guiaré a través de los sencillos pasos para configurar Couchbase con Databricks* y ejecutar consultas de datos de Couchbase y consultas SQL de Spark.

*Nota: Los pasos de este QuickStart se han validado con Databricks runtime 10.4 LTS.

Configurar

Requisitos previos

Para completar este QuickStart, necesitará lo siguiente:

- Un clúster Couchbase y viaje-muestra accesible al clúster Databricks. He utilizado un clúster Couchbase en una máquina AWS EC2.
- A Cuenta Databricks - hay disponibles pruebas gratuitas que requieren una cuenta de AWS, Azure o GCP.
- Couchbase conector de chispa versión 3.2.2, disponible en Maven:
  - En la pantalla de creación del clúster, en la sección Bibliotecas pestaña. Seleccione Instale nuevo y busque el paquete en Maven Central. Vea el siguiente ejemplo:

- En Instale se configurará como en el ejemplo siguiente:

Configuración

Antes de empezar, necesitamos configurar los siguientes parámetros en el cluster Databricks opciones avanzadas Configuración de Spark. Esto se puede hacer al crear un clúster (véase la impresión de pantalla a continuación):

Puede copiar y pegar la configuración de abajo y sustituir los parámetros en <> con los valores de su clúster Couchbase en el campo opciones avanzadas Configuración de Spark:

  spark.couchbase.password <password>
  spark.couchbase.implicitBucket <travel-sample>
  spark.couchbase.connectionString <hostname>
  spark.couchbase.username <username>
  spark.databricks.delta.preview.enabled true

chispa.couchbase.contraseña <contraseña>

chispa.couchbase.implicitBucket <viaje-muestra>

chispa.couchbase.connectionString <nombre de host>

chispa.couchbase.nombre de usuario <nombre de usuario>

chispa.databricks.delta.previsualizar.habilitado verdadero

En primer lugar, vamos a ejecutar las importaciones necesarias. Copie el código de ejemplo a continuación en un cuaderno en blanco conectado a un clúster con la configuración anterior

  import com.couchbase.spark._
  import org.apache.spark.sql._
  import com.couchbase.client.scala.json.JsonObject
  import com.couchbase.spark.kv.Get
  import com.couchbase.client.scala.kv.MutateInSpec
  import com.couchbase.spark.kv.MutateIn
  import com.couchbase.client.scala.kv.LookupInSpec
  import com.couchbase.spark.kv.LookupIn
  import com.couchbase.client.scala.query.QueryOptions
  import com.couchbase.spark.query.QueryOptions
  import com.couchbase.client.scala.analytics.AnalyticsOptions

importar com.couchbase.chispa._

importar org.apache.chispa.sql._

importar com.couchbase.cliente.scala.json.JsonObject

importar com.couchbase.chispa.kv.Visite

importar com.couchbase.cliente.scala.kv.MutateInSpec

importar com.couchbase.chispa.kv.MutateIn

importar com.couchbase.cliente.scala.kv.LookupInSpec

importar com.couchbase.chispa.kv.BúsquedaEn

importar com.couchbase.cliente.scala.consulta.Opciones de consulta

importar com.couchbase.chispa.consulta.Opciones de consulta

importar com.couchbase.cliente.scala.análisis.AnalyticsOptions

Ahora, vamos a obtener algunos documentos por claves desde Couchbase viaje-muestra utilizando el siguiente código:

 sc
  .couchbaseGet(Seq(Get("airline_10"), Get("airline_10642")))
  .collect()
  .foreach(result => println(result.contentAs[JsonObject]))

.couchbaseGet(Seq(Visite("aerolínea_10"), Visite("airline_10642")))

.recoja()

.foreach(resultado => println(resultado.contentAs[JsonObject]))

Genial, nos hemos conectado al clúster y hemos devuelto nuestro primer RDD (Resilient Distributed Dataset).

Podemos consultar los datos usando SQL++ (lenguaje de consulta de Couchbase basado en SQL). Ejecuta el siguiente código como ejemplo:

 sc
  .couchbaseQuery[JsonObject]("select country, count(*) as count from `travel-sample` where type = 'airport' group by country order by count desc")
  .collect()
  .foreach(println)

.couchbaseQuery[JsonObject]("select country, count(*) as count from `travel-sample` where type = 'airport' group by country order by count desc")

.recoja()

.foreach(println)

Consulta del servicio de análisis

Couchbase también ofrece un servicio de análisis para el análisis operativo y análisis en tiempo real a continuación es un ejemplo de una consulta de análisis:

val query = "SELECT ht.city,ht.state,COUNT(*) AS num_hotels FROM `travel-sample`.inventory.hotel ht GROUP BY ht.city,ht.state HAVING COUNT(*) > 30"
sc.couchbaseAnalyticsQuery[JsonObject](query).collect().foreach(println)

1 2	val consulta = "SELECT ht.ciudad,ht.estado,COUNT() AS num_hotels FROM `viajes-muestra`.inventario.hotel ht GROUP BY ht.ciudad,ht.estado HAVING COUNT() > 30" sc.couchbaseAnalyticsQuery[JsonObject](consulta).recoja().foreach(println)

Pasemos ahora a Spark SQL

Utilice el código siguiente para crear vistas temporales para líneas aéreas y aeropuertos Marcos de datos:

val airlines = spark.read.format("couchbase.query")
  .option(QueryOptions.Filter, "type = 'airline'")
  .load()
airlines.createOrReplaceTempView("airlines")
 
val airports = spark.read.format("couchbase.query")
  .option(QueryOptions.Filter, "type = 'airport'")
  .load()
airports.createOrReplaceTempView("airports")

val líneas aéreas = chispa.leer.formato("couchbase.query")

.opción(Opciones de consulta.Filtro, "tipo = 'aerolínea'")

.carga()

líneas aéreas.createOrReplaceTempView("líneas aéreas")

val aeropuertos = chispa.leer.formato("couchbase.query")

.opción(Opciones de consulta.Filtro, "tipo = 'aeropuerto'")

.carga()

aeropuertos.createOrReplaceTempView("aeropuertos")

Ahora podemos ejecutar consultas Spark SQL en las vistas, por ejemplo:

Obtener las compañías aéreas en orden ascendente:

%sql select * from airlines order by name asc limit 10

1	%sql seleccionar * de líneas aéreas pedir por nombre asc límite 10

Obtenga las compañías aéreas agrupadas por países:

%sql select country, count(*) from airlines group by country;

1	%sql seleccione país, cuente(*) de líneas aéreas grupo por país;

Y por último, visualicemos los aeropuertos por país utilizando un UDF (User Defined Function) junto con la función de mapeo de Databricks. Crear el UDF utilizando el SQL ++ a continuación:

val countrymap = (s: String) => {
 s match {
  case "France" => "FRA"
  case "United States" => "USA"
  case "United Kingdom" => "GBR"
 }
}
spark.udf.register("countrymap", countrymap)

val mapa del país = (s: Cadena) => {

s match {

caso "Francia => "FRA"

caso "Estados Unidos" => "USA"

caso "Reino Unido" => "GBR"

}

chispa.udf.regístrese en("mapa del país", mapa del país)

Seleccione los recuentos de aeropuertos por país y visualice los resultados:

%sql select countrymap(country), count(*) from airports group by country;

1	%sql seleccione mapa del país(país), cuente(*) de aeropuertos grupo por país;

Después de completar este Quickstart, su resultado debe ser similar a la visualización de abajo:

Lo que hemos conseguido

En este QuickStart, he descrito cómo utilizar el spark-connector de Couchbase con Databricks para crear RDDs, ejecutar consultas SQL de Couchbase y Spark, crear un UDF, y utilizar la función de mapeo de Databricks para visualizar los resultados. Estos pasos demuestran el proceso utilizado para acceder, analizar y visualizar datos en un clúster Couchbase desde una interfaz de cuaderno Databricks.

Próximos pasos

Más información Couchbase Capella:

- Prueba Capella suscribiéndote a un prueba gratuita de 30 días.
- Conecte su grupo de prueba al Playground o conecta un proyecto para probarlo por ti mismo.
- Visite el Portal para desarrolladores de Couchbase que toneladas de tutoriales/guías de inicio rápido y vías de aprendizaje que le ayudarán a empezar.
- Consulte la documentación para obtener más información sobre los SDK de Couchbase.

Gracias por leer este post. Si tiene alguna pregunta o comentario, por favor conecte con nosotros en el Couchbase Foros

Rick Jacobs

Comparte este artículo

Platform

Self-Managed

Services

Capabilities

Why Couchbase?

Migrate to Capella

By Use Case

By Industry

By Application Need

Popular Docs

By Developer Role

Quickstart

Resource Center

About

Partnerships

Our Services

Partners: Register a Deal

Ready to register a deal with Couchbase?

Marriott

Inicio rápido: Couchbase con Apache Spark en Databricks

Configurar

Requisitos previos

Configuración

Consulta del servicio de análisis

Pasemos ahora a Spark SQL

Lo que hemos conseguido

Próximos pasos

Recibe actualizaciones del blog de Couchbase en tu bandeja de entrada

Autor

Publicado por Rick Jacobs

Deja un comentario Cancelar respuesta

¿Listo para empezar con Couchbase Capella?

Empezar a construir

Utilizar Capella gratis

Póngase en contacto