Grandes datos

Apache Hadoop el plataforma de big data. Se dise帽贸 para obtener valor del volumen. Puede almacenar y procesar mucho de datos en restobig data. Se dise帽贸 para el an谩lisis. No se dise帽贸 para la velocidad.

Es un almac茅n. Es eficiente para a帽adir y quitar muchos art铆culos de un almac茅n. Es no eficiente para a帽adir y eliminar un solo art铆culo de un almac茅n.

Los conjuntos de datos se almacenan. La informaci贸n se genera a partir de datos hist贸ricos y se puede recuperar. Volumen puro

 

 hadoop_flow

Datos r谩pidos

Apache Storm es el plataforma de procesamiento de flujos. Se dise帽贸 para obtener valor de la velocidad. Puede procesar datos en movimientodatos r谩pidos. No fue dise帽ado para el volumen.

Es una cinta transportadora. Los art铆culos se colocan en la cinta transportadora, donde pueden procesarse hasta que se retiran de ella. Los art铆culos no permanecen en la cinta transportadora indefinidamente. Se colocan en ella. Se retiran de ella.

Los datos se canalizan. La informaci贸n se genera a partir de los datos actuales, pero no puede recup茅rala. Velocidad pura

stream_flow

 

El GAP

Sin embargo, falta algo. C贸mo acaban los art铆culos colocados en una cinta transportadora en un almac茅n?

Couchbase Server es el base de datos NoSQL empresarial. Est谩 dise帽ada para obtener valor de una combinaci贸n de volumen y velocidad (y variedad).

Se trata de una caja. Al final de la cinta transportadora, los art铆culos se a帽aden a las cajas. Es eficaz a帽adir y retirar art铆culos de una caja. Es eficaz a帽adir y retirar cajas de un almac茅n.

Los datos se almacenan y se recuperan. Volumen + Velocidad + Variedad

nosql_flow

 

La soluci贸n

Una arquitectura de big data en tiempo real incluye un procesador de flujos como Apache Storm, una base de datos NoSQL empresarial como Couchbase Server y una plataforma de big data como Apache Hadoop.

Opci贸n #1

Las aplicaciones leen y escriben datos en Couchbase Server y escribir datos en Apache Storm. Apache Storm analiza flujos de datos y escribe los resultados en Couchbase Server utilizando un plugin (es decir, bolt). Los datos se importan a Apache Hadoop desde Couchbase Server utilizando un plugin Sqoop.

gap_arch_opt_1

 

Opci贸n #2

Las aplicaciones escriben datos en Apache Storm y leen datos de Couchbase Server. Apache Storm escribe tanto los datos (entrada) como la informaci贸n (salida) en Couchbase Server. Los datos se importan a Apache Hadoop desde Couchbase Server mediante un plugin de Sqoop.

gap_arch_opt_2

 

Opci贸n #3

Las aplicaciones escriben datos en Apache Storm y leen datos de Couchbase Server. Apache Storm escribe los datos (entrada) tanto en Apache Couchbase como en Apache Hadoop. Adem谩s, Apache Storm escribe la informaci贸n (salida) tanto en Couchbase Server como en Apache Hadoop.

gap_arch_opt_3

 

Resumen

Este art铆culo describe tres arquitecturas de big data en tiempo real. Sin embargo, lo mejor de dise帽ar una arquitectura de big data en tiempo real es que es como jugar con Legos. Los componentes vienen en muchas formas y tama帽os, y depende del arquitecto o arquitectos seleccionar y conectar las piezas necesarias para construir la soluci贸n m谩s eficiente y eficaz posible. Es un reto apasionante.

脷nete a la conversaci贸n en reddit (enlace).
脷nete a la conversaci贸n en Hacker News (enlace).

Ejemplos

Vea c贸mo estos clientes empresariales est谩n aprovechando Apache Hadoop, Apache Storm y m谩s con Couchbase Server.

LivePerson - Apache Hadoop + Apache Storm + Servidor Couchbase
QuestPoint - Apache Hadoop + Servidor Couchbase
McGraw-Hill Education - Servidor Elasticsearch + Couchbase

AOL - Apache Hadoop + Servidor Couchbase
AdAction - Apache Hadoop + Servidor Couchbase

Referencia

Conectores de servidor Couchbase (enlace)

Autor

Publicado por Shane Johnson, Director de Marketing de Producto, Couchbase

Shane K Johnson fue Director de Marketing de Producto en Couchbase. Antes de Couchbase, ocup贸 varios puestos en desarrollo y evangelizaci贸n con formaci贸n en Java y sistemas distribuidos. Ha sido consultor de organizaciones de los sectores financiero, minorista, de las telecomunicaciones y de los medios de comunicaci贸n para dise帽ar e implantar arquitecturas basadas en sistemas distribuidos para datos y an谩lisis.

3 Comentarios

  1. Mermeladas Amin marzo 6, 2014 a 5:06 pm

    Gracias, muy buena lectura. Me parece que la 2陋 opci贸n es la m谩s limpia, pero todas son plausibles.

    1. Gracias. Otro enfoque ser铆a configurar Apache Storm para escribir los datos analizados (salida) en tiempo real a Couchbase Server mientras se escriben los datos en bruto (entrada) a Apache Hadoop a trav茅s de escrituras por lotes.

Dejar una respuesta