O Couchbase é o principal banco de dados de documentos NoSQL do mundo. Ele oferece desempenho, flexibilidade e escalabilidade inigualáveis na borda, no local e na nuvem. O Spark é um dos ambientes de computação em memória mais populares. As duas plataformas podem ser combinadas para executar funções incrivelmente rápidas de consulta, engenharia de dados, ciência de dados e aprendizado de máquina.

Neste QuickStart, eu o guiarei pelas etapas simples para configurar o Couchbase com o Databricks* e executar consultas de dados do Couchbase e consultas SQL do Spark.

*Observação: as etapas deste QuickStart foram validadas com o tempo de execução do Databricks 10.4 LTS.

Configuração

Pré-requisitos

Para concluir este Início Rápido, você precisará do seguinte:

    • Um cluster do Couchbase e amostra de viagem bucket acessível ao cluster do Databricks. Usei um cluster do Couchbase em uma máquina AWS EC2.
    • A Conta da Databricks - Estão disponíveis avaliações gratuitas que exigem uma conta do AWS, Azure ou GCP.
    • O Couchbase conector de faísca biblioteca, versão 3.2.2 - disponível via Maven
      • Na tela de criação do cluster, na seção Bibliotecas guia. Selecione Instalar new e procure o pacote no Maven Central. Veja o exemplo abaixo:

    • O Instalar a configuração da biblioteca será configurada como no exemplo abaixo:


Configuração

Antes de começarmos, precisamos configurar os seguintes parâmetros no cluster do Databricks opções avançadas Configuração do Spark. Isso pode ser feito ao criar um cluster (veja a impressão de tela abaixo):

Você pode copiar e colar as configurações abaixo e substituir os parâmetros em <> com os valores de seu cluster do Couchbase na variável opções avançadas Configuração do Spark

Primeiro, vamos executar as importações necessárias. Copie o código de amostra abaixo em um notebook em branco anexado a um cluster com a configuração acima

Agora, vamos obter alguns documentos por chaves do Couchbase amostra de viagem usando o código abaixo:

Ótimo, nos conectamos ao cluster e retornamos nosso primeiro RDD (Resilient Distributed Dataset).

Podemos consultar os dados usando o SQL++ (linguagem de consulta do Couchbase baseada em SQL). Execute o código abaixo como um exemplo:

Consulta ao serviço de análise

O Couchbase também oferece um serviço de análise para análise operacional e análise em tempo real. Abaixo está um exemplo de uma consulta de análise:

Agora, vamos ver um pouco de Spark SQL

Use o código abaixo para criar exibições temporárias para companhias aéreas e aeroportos DataFrames:

Agora podemos executar consultas Spark SQL nas exibições, por exemplo:

Obter as companhias aéreas em ordem crescente:

Obtenha as companhias aéreas agrupadas por país:

E, por fim, vamos visualizar os aeroportos por país usando um UDF (Função definida pelo usuário) junto com o recurso de mapeamento do Databricks. Crie a UDF usando o SQL++ abaixo:

Selecione as contagens de aeroportos por país e visualize os resultados:

Após concluir este Início Rápido, seu resultado deverá ser semelhante à visualização abaixo:

O que realizamos

Neste QuickStart, descrevi como utilizar o Couchbase spark-connector com o Databricks para criar RDDs, executar consultas SQL do Couchbase e do Spark, criar um UDF e utilizar o recurso de mapeamento do Databricks para visualizar os resultados. Essas etapas demonstram o processo usado para acessar, analisar e visualizar dados em um cluster do Couchbase a partir de uma interface de notebook do Databricks.

Próximas etapas

Saiba mais sobre Couchbase Capella:

Obrigado por ler esta postagem! Se tiver alguma dúvida ou comentário, entre em contato conosco no Couchbase Fóruns!

 

 

 

 

 

 

 

 

 

 

 

Autor

Postado por Rick Jacobs

Rick Jacobs é o gerente técnico de marketing de produtos da Couchbase. Seu histórico variado inclui experiência em muitas das principais organizações do mundo, como Computer Sciences Corporation, IBM, Cloudera etc. Ele tem mais de 15 anos de experiência em tecnologia geral, adquirida em funções de desenvolvimento, consultoria, ciência de dados, engenharia de vendas e marketing técnico. Ele possui vários diplomas acadêmicos, incluindo um mestrado em Ciência da Computação pela George Mason University.

Deixar uma resposta