Grandes datos
Apache Hadoop el plataforma de big data. Se dise帽贸 para obtener valor del volumen. Puede almacenar y procesar mucho de datos en restobig data. Se dise帽贸 para el an谩lisis. No se dise帽贸 para la velocidad.
Es un almac茅n. Es eficiente para a帽adir y quitar muchos art铆culos de un almac茅n. Es no eficiente para a帽adir y eliminar un solo art铆culo de un almac茅n.
Los conjuntos de datos se almacenan. La informaci贸n se genera a partir de datos hist贸ricos y se puede recuperar. Volumen puro
Datos r谩pidos
Apache Storm es el plataforma de procesamiento de flujos. Se dise帽贸 para obtener valor de la velocidad. Puede procesar datos en movimientodatos r谩pidos. No fue dise帽ado para el volumen.
Es una cinta transportadora. Los art铆culos se colocan en la cinta transportadora, donde pueden procesarse hasta que se retiran de ella. Los art铆culos no permanecen en la cinta transportadora indefinidamente. Se colocan en ella. Se retiran de ella.
Los datos se canalizan. La informaci贸n se genera a partir de los datos actuales, pero no puede recup茅rala. Velocidad pura
El GAP
Sin embargo, falta algo. C贸mo acaban los art铆culos colocados en una cinta transportadora en un almac茅n?
Couchbase Server es el base de datos NoSQL empresarial. Est谩 dise帽ada para obtener valor de una combinaci贸n de volumen y velocidad (y variedad).
Se trata de una caja. Al final de la cinta transportadora, los art铆culos se a帽aden a las cajas. Es eficaz a帽adir y retirar art铆culos de una caja. Es eficaz a帽adir y retirar cajas de un almac茅n.
Los datos se almacenan y se recuperan. Volumen + Velocidad + Variedad
La soluci贸n
Una arquitectura de big data en tiempo real incluye un procesador de flujos como Apache Storm, una base de datos NoSQL empresarial como Couchbase Server y una plataforma de big data como Apache Hadoop.
Opci贸n #1
Las aplicaciones leen y escriben datos en Couchbase Server y escribir datos en Apache Storm. Apache Storm analiza flujos de datos y escribe los resultados en Couchbase Server utilizando un plugin (es decir, bolt). Los datos se importan a Apache Hadoop desde Couchbase Server utilizando un plugin Sqoop.
Opci贸n #2
Las aplicaciones escriben datos en Apache Storm y leen datos de Couchbase Server. Apache Storm escribe tanto los datos (entrada) como la informaci贸n (salida) en Couchbase Server. Los datos se importan a Apache Hadoop desde Couchbase Server mediante un plugin de Sqoop.
Opci贸n #3
Las aplicaciones escriben datos en Apache Storm y leen datos de Couchbase Server. Apache Storm escribe los datos (entrada) tanto en Apache Couchbase como en Apache Hadoop. Adem谩s, Apache Storm escribe la informaci贸n (salida) tanto en Couchbase Server como en Apache Hadoop.
Resumen
Este art铆culo describe tres arquitecturas de big data en tiempo real. Sin embargo, lo mejor de dise帽ar una arquitectura de big data en tiempo real es que es como jugar con Legos. Los componentes vienen en muchas formas y tama帽os, y depende del arquitecto o arquitectos seleccionar y conectar las piezas necesarias para construir la soluci贸n m谩s eficiente y eficaz posible. Es un reto apasionante.
脷nete a la conversaci贸n en reddit (enlace).
脷nete a la conversaci贸n en Hacker News (enlace).
Ejemplos
Vea c贸mo estos clientes empresariales est谩n aprovechando Apache Hadoop, Apache Storm y m谩s con Couchbase Server.
LivePerson - Apache Hadoop + Apache Storm + Servidor Couchbase
QuestPoint - Apache Hadoop + Servidor Couchbase
McGraw-Hill Education - Servidor Elasticsearch + Couchbase
AOL - Apache Hadoop + Servidor Couchbase
AdAction - Apache Hadoop + Servidor Couchbase
Referencia
Conectores de servidor Couchbase (enlace)
Gracias, muy buena lectura. Me parece que la 2陋 opci贸n es la m谩s limpia, pero todas son plausibles.
Gracias. Otro enfoque ser铆a configurar Apache Storm para escribir los datos analizados (salida) en tiempo real a Couchbase Server mientras se escriben los datos en bruto (entrada) a Apache Hadoop a trav茅s de escrituras por lotes.
[...] La brecha entre Big Data y Fast Data [...]