É isso mesmo. Um moderno solução de big data requer mais do que o Hadoop. Bem-vindo aos dados, todos eles são grandes e rápidos.
Bem-vindo ao Central de Big Data
Discutir sobre Notícias Hacker
Discutir sobre Reddit
Tenho o prazer de anunciar que a Big Data Central está no ar!
Ele representa minha história de big data para o Couchbase. É sobre o papel dos bancos de dados NoSQL em um mundo de big data.
Houve uma época em que o Big Data era o Hadoop. Era a análise off-line. Esse não é mais o caso. É uma solução. É uma solução que inclui Hadoop, mas é não Hadoop. É uma solução que atende aos requisitos analíticos em tempo real e requisitos analíticos off-line. É uma solução que atende a ambos os requisitos analíticos e requisitos operacionais.
O ecossistema de Big Data agora inclui o Storm para processamento em tempo real, o Couchbase Server para acesso a dados de alto desempenho, o Hadoop para análise off-line e muito mais!
Há três desafios de big data:
- A quantidade de dados que está sendo gerada, o volume de dados.
- A taxa na qual os dados estão sendo gerados, a velocidade dos dados.
- A taxa na qual as informações devem ser geradas, a velocidade das informações.
O Hadoop trata do volume de dados. Ele pode armazenar e processar uma grande quantidade de dados, mais tarde. Ele se expande para armazenar e processar mais dados. O Hadoop não aborda a velocidade dos dados. No entanto, ele atende aos requisitos analíticos off-line.
O Couchbase Server trata da velocidade dos dados. É um banco de dados NoSQL de alto desempenho que pode armazenar uma grande quantidade de dados, agora. Ele é dimensionado para armazenar muitos dados, mais rápido. O Couchbase Server não aborda a velocidade das informações. Ele pode armazenar e processar dados em repouso. No entanto, ele atende aos requisitos operacionais.
O Storm aborda a velocidade das informações. Ele pode processar um fluxo de dados em tempo real. Ele se expande para processar fluxos de dados mais rapidamente. O Storm não trata do volume ou da velocidade dos dados. Ele não armazena dados. Ele processa dados em movimento. No entanto, ele atende aos requisitos analíticos em tempo real.
Todos os três desafios de Big Data podem ser superados com a integração do Storm, do Couchbase Server e do Hadoop. Ao integrar o Couchbase Server com o Storm, um fluxo de dados em tempo real pode ser processado e armazenados. Ao integrar o Couchbase Server ao Hadoop, muitos dados podem ser processados off-line.
Shane, muito bom o artigo sobre Big Data. Com a explosão do Big Data, as empresas se deparam com desafios de dados em três áreas diferentes. Primeiro, você sabe o tipo de resultado que deseja obter com seus dados, mas é computacionalmente difícil obtê-los. Em segundo lugar, você sabe as perguntas a serem feitas, mas tem dificuldades com as respostas e precisa fazer mineração de dados para ajudar a encontrar essas respostas. E a terceira é a área de exploração de dados, na qual você precisa revelar as incógnitas e examinar os dados em busca de padrões e relacionamentos ocultos. A plataforma de processamento de big data de código aberto HPCC Systems pode ajudar as empresas a enfrentar esses desafios, obtendo insights de conjuntos de dados massivos de forma rápida e simples. Projetada por cientistas de dados, ela é uma solução integrada completa, desde a ingestão e o processamento de dados até a entrega dos dados. Sua biblioteca de aprendizado de máquina integrada e os algoritmos de processamento de matriz podem ajudar com inteligência de negócios e análise preditiva. Mais informações em http://hpccsystems.com
Sim, para entender o Hadoop moderno, todos precisam aprender Apache Storm, Spark, MapReduce, hbase etc.
O Apache Storm é um mecanismo de código aberto que pode processar dados em tempo real usando sua arquitetura distribuída. O Storm é simples e flexível. Ele pode ser usado com qualquer linguagem de programação de sua escolha.
Vamos dar uma olhada nos vários componentes de um Storm Cluster:
1 - Nó Nimbus. O nó mestre (semelhante ao JobTracker)
2 - Nós de supervisão. Inicia/interrompe os trabalhadores e se comunica com a Nimbus por meio do Zookeeper
3 - Nós do ZooKeeper. Coordena o cluster do Storm
Tanto o Spark quanto o Storm podem operar em um cluster do Hadoop e acessar o armazenamento do Hadoop. O Storm-YARN é a implementação de código aberto do Yahoo para a convergência do Storm e do Hadoop. O Spark está fornecendo integração nativa para o Hadoop. A integração com o Hadoop é obtida por meio do YARN (NextGen MapReduce). A integração da análise em tempo real com sistemas baseados no Hadoop permite uma melhor utilização dos recursos do cluster por meio da elasticidade computacional, e o fato de estar no mesmo cluster significa que as transferências de rede podem ser mínimas.
Não posso compartilhar informações completas relacionadas ao hadoop, spark e storm, portanto, visite os links abaixo para obter tutoriais informativos.
Para tópicos a serem aprendidos ou compreendidos:- http://intellipaat.com/hadoop-…
Para tutoriais do YouTube :- https://www.youtube.com/user/i…
Obrigado por compartilhar essas informações maravilhosas....
Aprenda Hadoop on-line Para obter detalhes, acesse o link
http://www.leadonlinetraining….
Bom artigo. Gosto de ler três desafios. http://www.mindsmapped.com/big…
boa postagem Obrigado