SQL++/N1QL 쿼리

인사이트에 대한 JSON: 미국 의료 서비스 데이터 분석.

"죽음과 세금 외에는 확실한 것은 없습니다."

이것은 데이터 세트가 아닙니다. 장미의 침대 또는 잘 다듬어진 녹색 잔디. 조금 더 심각합니다. 여기서 빠르게 배울 수 있는 것이 있는지 살펴봅시다. 데이터 세트는 다음과 같습니다.

"name" : "NCHS - 주요 사망 원인: 미국",
"속성" : "국립 보건 통계 센터",

대중 d아타셋은 다음에서 구입할 수 있습니다. https://data.cdc.gov/api/views/bi63-dtpu/rows.json?accessType=DOWNLOAD

1단계: 파일을 로컬 파일(예: health.json)로 다운로드합니다. 이 파일을 카우치베이스 클러스터의 노드 중 하나에 업로드합니다.

2단계라는 버킷으로 데이터를 가져옵니다. 버킷을 만든 후에는 기본 인덱스를 만듭니다. 쿼리를 위해 이 인덱스가 필요합니다.

/opt/couchbase/bin/cbimport json -c couchbase://127.0.0.1 -u 관리자 -p 비밀번호 -b 원인 -d 파일://health.json -g 원인:0 -f 샘플

원인에 기본 인덱스를 생성합니다;

3단계. 데이터의 구조를 검사합니다.

모든 데이터는 단일 JSON 문서로 제공됩니다. 따라서 INFER는 도움이 되지 않습니다. 구조를 수동으로 검사하고 이해해야 합니다. 이 데이터는 메타데이터에 각 엔티티의 의미와 함께 단순한 배열로 된 많은 데이터가 있는 일반적인 정부 데이터 세트입니다.

단순 배열:

 

 

 

 

 

 

 

 

여기에는 스키마 없이 단순히 데이터 배열이 포함되어 있습니다. 공개 데이터 집합의 경우 스키마는 메타 필드에 있습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

구조를 간단한 JSON 키-값 쌍으로 변환하여 좀 더 효과적으로 처리할 수 있도록 해보겠습니다. 이 마법이 어떻게 일어났는지 자세히 알아보세요. 이 문서에서.

 

 

 

 

 

 

 

 

과제1: 한 주에서 연도별로 가장 많이 사망한 원인을 찾습니다.

WITH 절의 공통 테이블 표현식(CTE)은 복잡한 json 데이터를 플랫 JSON으로 변환합니다(csdata). 이 작업을 동적으로 수행하거나, 이 작업을 한 번 수행한 후 버킷에 다시 INSERT할 수 있습니다. 뉴욕 아기 이름. 이 글에서는 CTE를 사용합니다.

 

 

 

 

 

 

 

 

이 경우 캘리포니아의 모든 사망자는 주로 인구로 인해 가장 많이 발생합니다.

과제 2. 2016년 한 해 동안 각 주의 주요 사망 원인을 알아보세요.

쿼리 2: 이전 쿼리의 결과 집합을 사용한 다음 FIRST_VALUE() 창 함수를 사용하여 상위 원인을 확인합니다. OVER BY 절에서 상태별로 파티션을 나누면 상태별 파티션을 얻을 수 있고, OVER BY 절 내에서 ORDER BY dx.totdeaths를 사용하면 모든 상태의 상위 원인을 얻을 수 있습니다.

 

 

 

 

 

 

 

 

작업 3.  1999년부터 2016년까지 주별로 가장 큰 이유가 연도별로 어떻게 변화했는지 알아보세요.

쿼리 3:  모든 연도(199-2016)에 대한 보고서를 생성한 다음 주, 연도별로 그룹화하고 최고 이유에 대한 최대값(최고 수)을 구하여 최고 이유를 결정하면 최종적으로 최고 이유를 얻을 수 있습니다.

다음은 일부 결과입니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

이를 시각화하면 다음과 같은 히스토그램이 나타납니다.

 

 

이 문서 공유하기
받은 편지함에서 카우치베이스 블로그 업데이트 받기
이 필드는 필수 입력 사항입니다.

작성자

게시자 케샤브 머시

케샤브 머시는 Couchbase R&D의 부사장입니다. 이전에는 MapR, IBM, Informix, Sybase에서 근무했으며 데이터베이스 설계 및 개발 분야에서 20년 이상의 경력을 쌓았습니다. IBM Informix에서 SQL 및 NoSQL R&D 팀을 이끌었습니다. Couchbase에서 두 번의 President's Club 상을, IBM에서 두 번의 뛰어난 기술 업적상을 수상했습니다. 인도 마이소르 대학교에서 컴퓨터 과학 및 공학 학사 학위를 받았으며, 24개의 미국 특허를 보유하고 있습니다.

댓글 남기기

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

개발자 포털에서 NoSQL을 살펴보고, 리소스를 찾아보고, 튜토리얼을 시작하세요.

카펠라 무료 사용

클릭 몇 번으로 Couchbase를 직접 체험해 보세요. Capella DBaaS는 가장 쉽고 빠르게 시작할 수 있는 방법입니다.

연락하기

카우치베이스 제품에 대해 자세히 알고 싶으신가요? 저희가 도와드리겠습니다.