Load CSV Data into Couchbase using Apache Spark

Últimamente he pasado mucho tiempo trabajando con herramientas de Big Data, en particular con Apache Spark. En caso de que no esté familiarizado, Apache
Spark es una herramienta increíblemente eficiente para procesar cantidades masivas de datos. Su rendimiento es significativamente mejor que el de MapReduce, y en
realidad, no es demasiado difícil de usar.

Apache Spark funciona muy bien en combinación con Couchbase a través del Couchbase Spark Connector. Vamos a ver lo que se necesita para
cargar algunos datos en bruto de valores separados por comas (CSV) en Couchbase utilizando Apache Spark.

Requisitos

No hay demasiados requisitos para poner en marcha este proyecto. Como mínimo necesitarás lo siguiente:

Apache Spark 1.6.1
JDK 1.8+
Apache Maven 3.3+
Servidor Couchbase 4.1+

La mayor parte del desarrollo tendrá lugar con el JDK 1.8 y Maven, pero cuando llegue el momento de ejecutar la aplicación, Apache Spark
ya sea a través de una instancia local o remota.

Comprender el conjunto de datos y el modelo de datos

Una buena manera de mojarse los pies en lo que respecta a Apache Spark es obtener un conjunto de datos de muestra a través del sitio web de ciencia de datos,
Kaggle. Para este ejemplo vamos a echar un vistazo al conjunto de datos de muestra llamado
Salarios SF que contiene información sobre cuánto dinero
ganan los empleados de San Francisco.

Desde el punto de vista de los datos, existe un único archivo de valores separados por comas (CSV) denominado salarios.csv con lo siguiente
columnas en él:

Id
NombreEmpleado
Título del puesto
BasePay
Pago de horas extraordinarias
OtrosPaga
Beneficios
TotalPay
TotalPagaBeneficios
Año
Notas
Agencia
Estado

Trabajar con los datos en formato CSV es casi imposible. Más aún cuando se trata de cantidades masivas. En su lugar, estos datos van a ser
almacenados como datos NoSQL para que puedan ser procesados posteriormente. No vamos a entrar en el cálculo de números y consultas aquí, pero vendrá en un
futuro artículo. En este momento sólo queremos ponerlo en formato NoSQL.

Cuando se cargue en Couchbase, cada fila del CSV tendrá un aspecto similar al siguiente:


{
    "Id": "10029",
    "EmployeeName": "FERGAL CLANCY",
    "JobTitle": "BUILDING INSPECTOR",
    "BasePay": "94529.22",
    "OvertimePay": "0",
    "OtherPay": "2502.6",
    "Benefits": "",
    "TotalPay": "97031.82",
    "TotalPayBenefits": "97031.82",
    "Year": "2011",
    "Notes": "",
    "Agency": "San Francisco",
    "Status": ""
}

{

"Id": "10029",

"NombreEmpleado": "FERGAL CLANCY",

"Cargo": "INSPECTOR DE EDIFICIOS",

"BasePay": "94529.22",

"PagoHorasExtras": "0",

"OtroPago": "2502.6",

"Beneficios": "",

"TotalPay": "97031.82",

"TotalPayBenefits": "97031.82",

"Año": "2011",

"Notas": "",

"Agencia": "San Francisco",

"Estado": ""

}

Sí, el trozo de datos anterior es un documento JSON, que es lo que soporta Couchbase. Ahora que conocemos los objetivos de los datos, podemos empezar
cargar los datos CSV en Couchbase con Apache Spark.

Transformación de los datos brutos y escritura en Couchbase

Para utilizar Apache Spark en una aplicación Java, es necesario incluir algunas dependencias. Necesitamos incluir Spark Core, Spark SQL, Spark CSV, y el módulo
Conector Spark de Couchbase. Como estamos usando Maven, todo se puede incluir a través de Maven pom.xml archivo. Para incluir
Spark Core, incluya la siguiente dependencia en su archivo Maven:



    org.apache.spark
    spark-core_2.10
    1.6.1

org.apache.chispa

chispa-núcleo_2.10

1.6.1

Dado que los datos en bruto estarán en forma de CSV, podemos utilizar el paquete de conveniencia para Spark llamado Spark CSV. La dependencia de Maven
para Spark CSV se puede añadir así:



    com.databricks
    spark-csv_2.10
    1.4.0

com.databricks

chispa-csv_2.10

1.4.0

Los datos CSV se cargarán en un Apache Spark DataFrame. Si no estás familiarizado con los DataFrames, puedes consultarlos utilizando Spark
SQL. Esto es parte de cómo introduciremos los datos en Couchbase. Para incluir Spark SQL en tu proyecto, añade la dependencia de Maven
así:



    org.apache.spark
    spark-sql_2.10
    1.6.1
    provided

org.apache.chispa

chispa-sql_2.10

1.6.1

proporcionado

Finalmente, Apache Spark necesita estar conectado a Couchbase Server. Esto se puede hacer a través del Conector Couchbase para Spark. Para
añada esta dependencia a su proyecto Maven, añada lo siguiente a su proyecto pom.xml file:



    com.couchbase.client
    spark-connector_2.10
    1.1.0

com.couchbase.cliente

chispa-conector_2.10

1.1.0

Todas las dependencias del proyecto están listas.

Para empezar a cargar datos CSV mediante código Java, primero hay que configurar Apache Spark dentro de nuestro proyecto. Esto incluye definir qué Spark
y en qué bucket de Couchbase almacenar los datos.


SparkConf conf = new SparkConf()
        .setAppName("SF Salaries")
        .setMaster("local[*]")
        .set("com.couchbase.bucket.default", "");
JavaSparkContext javaSparkContext = new JavaSparkContext(conf);

SparkConf conf = nuevo SparkConf()

.setAppName("Salarios SF")

.setMaster("local[*]")

.configure("com.couchbase.bucket.default", "");

JavaSparkContext javaSparkContext = nuevo JavaSparkContext(conf);

El nombre de la aplicación será Salarios SF y el cluster Spark maestro será la máquina local
ya que Spark se ejecutará localmente en este ejemplo. El bucket de Couchbase que se utilizará es, una vez más, el bucket por defecto.

Para crear un Spark DataFrame, se necesita un SQLContext debe crearse a partir del JavaSparkContext.


SQLContext sqlContext = new SQLContext(javaSparkContext);

SQLContext sqlContext = nuevo SQLContext(javaSparkContext);

Utilización de la SQLContext los datos CSV pueden leerse así:


DataFrame dataFrame = sqlContext.read()
    .format("com.databricks.spark.csv")
    .option("inferSchema", "true")
    .option("header", "true")
    .load("PATH_TO_CSV_FILE");

DataFrame dataFrame = sqlContext.leer()

.formato("com.databricks.spark.csv")

.opción("inferSchema", "true")

.opción("cabecera", "true")

.carga("RUTA_AL_ARCHIVO_CSV");

El proceso de lectura utilizará el paquete Spark CSV y conservará la información de cabecera que existe en la parte superior del archivo CSV.
Cuando se leen en un DataFrame, los datos CSV son ahora algo que Couchbase puede entender.

Hay que hacer un ajuste en los datos de id. Spark lo reconocerá como un entero o numérico porque este conjunto de datos sólo tiene
valores numéricos como columna. Couchbase espera un id de cadena.


dataFrame = dataFrame.withColumn("Id", df.col("Id").cast("string"));

dataFrame = dataFrame.conColumna("Id", df.col("Id").fundición("cadena"));

El DataFrame ya puede prepararse para guardarse en Couchbase.


DataFrameWriterFunctions dataFrameWriterFunctions = new DataFrameWriterFunctions(dataFrame.write());
Map

DataFrameWriterFunctions dataFrameWriterFunctions = nuevo DataFrameWriterFunctions(dataFrame.escriba a());

Mapa

Con los datos del DataFrame canalizados en el correspondiente DataFrameWriterFunctions el valor de id se puede asignar a un objeto
id del documento. Los datos en este punto se pueden guardar.


dataFrameWriterFunctions.couchbase(options);

dataFrameWriterFunctions.couchbase(opciones);

Se guardarán cantidades masivas de documentos de Couchbase en el cubo.

Ejecución del proyecto con Apache Spark

Empaqueta el proyecto en un JAR ejecutable usando Maven. El proyecto puede ser ejecutado después de ser empaquetado haciendo lo siguiente
así:


/path/to/apache/spark/bin/spark-submit --class "com.app.Main" target/project-jar-with-dependencies.jar

/ruta/a/apache/chispa/papelera/chispa-enviar --clase "com.app.Main" objetivo/proyecto-tarro-con-dependencias.tarro

Dependiendo del tamaño del conjunto de datos y de la velocidad de su ordenador o servidor, el proceso de carga puede tardar un rato.

Conclusión

Acabas de probar a cargar datos CSV sucios en Couchbase utilizando Apache Spark y el conector Spark de Couchbase. Spark fue
diseñado para poder procesar rápidamente cantidades masivas de datos en tiempo real. Combínalo con Couchbase y su arquitectura centrada en la memoria.
arquitectura y tienes un gran paquete de software.

Nic Raboy, Defensor del Desarrollador, Couchbase

Comparte este artículo

Platform

Self-Managed

Services

Capabilities

Why Couchbase?

Migrate to Capella

By Use Case

By Industry

By Application Need

Popular Docs

By Developer Role

Quickstart

Resource Center

About

Partnerships

Our Services

Partners: Register a Deal

Ready to register a deal with Couchbase?

Marriott

Cargar datos CSV en Couchbase utilizando Apache Spark

Requisitos

Comprender el conjunto de datos y el modelo de datos

Transformación de los datos brutos y escritura en Couchbase

Ejecución del proyecto con Apache Spark

Conclusión

Recibe actualizaciones del blog de Couchbase en tu bandeja de entrada

Autor

Publicado por Nic Raboy, Defensor del Desarrollador, Couchbase

Deja un comentario Cancelar respuesta

¿Listo para empezar con Couchbase Capella?

Empezar a construir

Utilizar Capella gratis

Póngase en contacto