A lacuna entre Big Data e Fast Data

Big Data

Apache Hadoop o plataforma de big data. Ela foi projetada para extrair valor do volume. Ela pode armazenar e processar muito de dados em descansobig data. Ele foi projetado para análises. Não foi projetado para a velocidade.

É um depósito. É eficiente para adicionar e remover muitos itens de um depósito. É não eficiente para adicionar e remover um único item de um depósito.

Os conjuntos de dados são armazenados. As informações são geradas a partir de dados históricos, e você pode recuperá-las. Volume puro

 

 hadoop_flow

Dados rápidos

O Apache Storm é o plataforma de processamento de fluxo. Ela foi projetada para extrair valor da velocidade. Ela pode processar dados em movimento, dados rápidos. Ele não foi projetado para volume.

É uma esteira transportadora. Os itens são colocados na esteira transportadora, onde podem ser processados até serem removidos dela. Os itens fazem não permanecem na esteira transportadora indefinidamente. Eles são colocados nela. Eles são removidos da esteira.

Os itens de dados são canalizados. As informações são geradas a partir dos dados atuais, mas o usuário não pode recuperá-lo. Velocidade pura

stream_flow

 

O GAP

No entanto, há algo faltando. Como os itens colocados em uma esteira transportadora acabam em um depósito?

O Couchbase Server é o banco de dados NoSQL empresarial. Ele foi projetado para extrair valor de uma combinação de volume e velocidade (e variedade).

É uma caixa. No final da esteira transportadora, os itens são adicionados às caixas. É eficiente adicionar e remover itens de uma caixa. É eficiente adicionar e remover caixas de um depósito.

Os itens de dados são armazenados e recuperados. Volume + Velocidade + Variedade

nosql_flow

 

A solução

Uma arquitetura de Big Data em tempo real inclui um processador de fluxo, como o Apache Storm, um banco de dados NoSQL corporativo, como o Couchbase Server, e uma plataforma de Big Data, como o Apache Hadoop.

Opção #1

Os aplicativos leem e gravam dados no Couchbase Server e gravar dados no Apache Storm. O Apache Storm analisa fluxos de dados e grava os resultados no Couchbase Server usando um plug-in (ou seja, bolt). Os dados são importados para o Apache Hadoop a partir do Couchbase Server usando um plug-in Sqoop.

gap_arch_opt_1

 

Opção #2

Os aplicativos gravam dados no Apache Storm e leem dados do Couchbase Server. O Apache Storm grava os dados (entrada) e as informações (saída) no Couchbase Server. Os dados são importados para o Apache Hadoop a partir do Couchbase Server usando um plug-in do Sqoop.

gap_arch_opt_2

 

Opção #3

Os aplicativos gravam dados no Apache Storm e leem dados do Couchbase Server. O Apache Storm grava os dados (entrada) no Apache Couchbase e no Apache Hadoop. Além disso, o Apache Storm grava as informações (saída) no Couchbase Server e no Apache Hadoop.

gap_arch_opt_3

 

Resumo

Este artigo descreve três arquiteturas de Big Data em tempo real. Entretanto, o melhor de projetar uma arquitetura de Big Data em tempo real é que é como brincar com Legos. Os componentes vêm em várias formas e tamanhos, e cabe ao(s) arquiteto(s) selecionar e conectar as peças necessárias para criar a solução mais eficiente e eficaz possível. É um desafio empolgante.

Participe da conversa no reddit (link).
Participe da conversa no Hacker News (link).

Exemplos

Veja como esses clientes corporativos estão aproveitando o Apache Hadoop, o Apache Storm e muito mais com o Couchbase Server.

LivePerson - Apache Hadoop + Apache Storm + Servidor Couchbase
QuestPoint - Apache Hadoop + Couchbase Server
McGraw-Hill Education - Elasticsearch + Couchbase Server

AOL - Apache Hadoop + Servidor Couchbase
AdAction - Apache Hadoop + Servidor Couchbase

Referência

Conectores do servidor Couchbase (link)

Compartilhe este artigo
Receba atualizações do blog do Couchbase em sua caixa de entrada
Esse campo é obrigatório.

Autor

Postado por Shane Johnson, diretor de marketing de produtos da Couchbase

Shane K Johnson foi diretor de marketing de produtos da Couchbase. Antes da Couchbase, ele ocupou várias funções de desenvolvimento e evangelismo com experiência em Java e sistemas distribuídos. Ele prestou consultoria a organizações dos setores financeiro, de varejo, telecomunicações e mídia para elaborar e implementar arquiteturas que dependiam de sistemas distribuídos para dados e análises.

3 Comentários

  1. Obrigado, muito boa leitura. Parece-me que a segunda opção é a abordagem mais limpa, mas todas são plausíveis.

    1. Obrigado. Outra abordagem seria configurar o Apache Storm para gravar os dados analisados (saída) em tempo real no Couchbase Server e, ao mesmo tempo, gravar os dados brutos (entrada) no Apache Hadoop por meio de gravações em lote.

Deixe um comentário

Pronto para começar a usar o Couchbase Capella?

Iniciar a construção

Confira nosso portal do desenvolvedor para explorar o NoSQL, procurar recursos e começar a usar os tutoriais.

Use o Capella gratuitamente

Comece a trabalhar com o Couchbase em apenas alguns cliques. O Capella DBaaS é a maneira mais fácil e rápida de começar.

Entre em contato

Deseja saber mais sobre as ofertas do Couchbase? Deixe-nos ajudar.