카우치베이스 카펠라

퀵스타트: 데이터브릭스에서 아파치 스파크가 포함된 카우치베이스

Couchbase는 세계 최고의 NoSQL 문서 데이터베이스입니다. 엣지, 온프레미스 및 클라우드에서 탁월한 성능, 유연성 및 확장성을 제공합니다. Spark는 가장 인기 있는 인메모리 컴퓨팅 환경 중 하나입니다. 이 두 플랫폼을 결합하여 매우 빠른 쿼리, 데이터 엔지니어링, 데이터 과학 및 머신 러닝 기능을 실행할 수 있습니다.

이 빠른 시작에서는 데이터브릭*을 사용하여 Couchbase를 설정하고 Couchbase 데이터 쿼리 및 Spark SQL 쿼리를 실행하는 간단한 단계를 안내해 드립니다.

*참고: 이 빠른 시작의 단계는 데이터브릭스 런타임 10.4 LTS에 대해 검증되었습니다.

설정

전제 조건

이 빠른 시작을 완료하려면 다음이 필요합니다:

    • 카우치베이스 클러스터와 여행 샘플 버킷에 액세스할 수 있습니다. 저는 AWS EC2 머신에서 Couchbase 클러스터를 사용했습니다.
    • A 데이터브릭스 계정 - AWS, Azure 또는 GCP 계정이 필요한 무료 평가판을 사용할 수 있습니다.
    • 카우치베이스 스파크 커넥터 라이브러리, 버전 3.2.2 - 다음을 통해 사용 가능 Maven
      • 클러스터 생성 화면에서 라이브러리 탭을 클릭합니다. 선택 설치 를 클릭하고 Maven Central에서 패키지를 검색합니다. 아래 예시를 참조하세요:

    • 그리고 설치 라이브러리 설정은 아래 예시와 같이 구성됩니다:


구성

시작하기 전에 Databricks 클러스터에서 다음 매개 변수를 구성해야 합니다. 고급 옵션 스파크 구성. 다음과 같이 할 수 있습니다. 클러스터를 생성할 때 (아래 화면 인쇄물 참조):

아래 설정을 복사하여 붙여넣고 다음에서 매개변수를 바꿀 수 있습니다. <> 의 Couchbase 클러스터 값과 함께 고급 옵션 Spark 구성

먼저 필요한 가져오기를 실행해 보겠습니다. 위의 구성으로 클러스터에 연결된 빈 노트북에 아래 샘플 코드를 복사합니다.

이제 Couchbase에서 키별로 몇 가지 문서를 가져와 보겠습니다. 여행 샘플 데이터베이스를 생성합니다:

좋아요, 클러스터에 연결하여 첫 번째 RDD(복원력 있는 분산 데이터 세트)를 반환했습니다.

SQL++(SQL 기반의 카우치베이스 쿼리 언어)를 사용하여 데이터를 쿼리할 수 있습니다. 아래 코드를 예시로 실행해 보세요:

애널리틱스 서비스 쿼리

다음은 운영 분석 및 실시간 분석을 위한 애널리틱스 서비스의 예시이며, 아래는 애널리틱스 쿼리의 예시입니다:

이제 Spark SQL에 대해 알아보겠습니다.

아래 코드를 사용하여 다음에 대한 임시 보기를 만들 수 있습니다. 항공사 그리고 공항 데이터프레임:

이제 예를 들어 뷰에서 Spark SQL 쿼리를 실행할 수 있습니다:

항공사를 오름차순으로 가져옵니다:

국가별로 항공사를 그룹화하세요:

마지막으로 다음을 사용하여 국가별 공항을 시각화해 보겠습니다. UDF (사용자 정의 함수)와 데이터브릭스 매핑 기능을 함께 사용할 수 있습니다. 아래 SQL++를 사용하여 UDF를 생성합니다:

국가별 공항 수를 선택하고 결과를 시각화합니다:

이 빠른 시작을 완료하면 아래의 시각화와 비슷한 결과가 나타납니다:

우리가 성취한 것

이 빠른 시작에서는 Databricks와 함께 Couchbase 스파크 커넥터를 활용하여 RDD를 만들고, Couchbase 및 Spark SQL 쿼리를 실행하고, UDF를 만들고, Databricks 매핑 기능을 활용하여 결과를 시각화하는 방법을 간략하게 설명해 드렸습니다. 이 단계에서는 Databricks 노트북 인터페이스에서 Couchbase 클러스터의 데이터에 액세스하고, 분석하고, 시각화하는 데 사용되는 프로세스를 보여드립니다.

다음 단계

자세히 알아보기 카우치베이스 카펠라:

이 게시물을 읽어주셔서 감사합니다! 질문이나 의견이 있으시면 다음 링크를 통해 문의해 주세요. 카우치베이스 포럼!

 

 

 

 

 

 

 

 

 

 

 

이 문서 공유하기
받은 편지함에서 카우치베이스 블로그 업데이트 받기
이 필드는 필수 입력 사항입니다.

작성자

게시자 릭 제이콥스

릭 제이콥스는 카우치베이스의 기술 제품 마케팅 매니저입니다. 그는 Computer Sciences Corporation, IBM, Cloudera 등 세계 유수의 조직에서 다양한 경력을 쌓았습니다. 그는 개발, 컨설팅, 데이터 과학, 영업 엔지니어링 및 기술 마케팅 분야에서 15년 이상 근무하며 쌓은 기술 전반에 걸친 경험을 보유하고 있습니다. 조지 메이슨 대학교에서 전산학 석사를 비롯한 여러 학위를 취득했습니다.

댓글 남기기

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

개발자 포털에서 NoSQL을 살펴보고, 리소스를 찾아보고, 튜토리얼을 시작하세요.

카펠라 무료 사용

클릭 몇 번으로 Couchbase를 직접 체험해 보세요. Capella DBaaS는 가장 쉽고 빠르게 시작할 수 있는 방법입니다.

연락하기

카우치베이스 제품에 대해 자세히 알고 싶으신가요? 저희가 도와드리겠습니다.