SQL++/N1QL 쿼리

인사이트에 대한 JSON: 미국 의료 서비스 데이터 분석.

"죽음과 세금 외에는 확실한 것은 없습니다."

이것은 데이터 세트가 아닙니다. 장미의 침대 또는 잘 다듬어진 녹색 잔디. 조금 더 심각합니다. 여기서 빠르게 배울 수 있는 것이 있는지 살펴봅시다. 데이터 세트는 다음과 같습니다.

"name" : "NCHS - 주요 사망 원인: 미국",
"속성" : "국립 보건 통계 센터",

대중 d아타셋은 다음에서 구입할 수 있습니다. https://data.cdc.gov/api/views/bi63-dtpu/rows.json?accessType=DOWNLOAD

1단계: 파일을 로컬 파일(예: health.json)로 다운로드합니다. 이 파일을 카우치베이스 클러스터의 노드 중 하나에 업로드합니다.

2단계라는 버킷으로 데이터를 가져옵니다. 버킷을 만든 후에는 기본 인덱스를 만듭니다. 쿼리를 위해 이 인덱스가 필요합니다.

/opt/couchbase/bin/cbimport json -c couchbase://127.0.0.1 -u 관리자 -p 비밀번호 -b 원인 -d 파일://health.json -g 원인:0 -f 샘플

원인에 기본 인덱스를 생성합니다;

3단계. 데이터의 구조를 검사합니다.

모든 데이터는 단일 JSON 문서로 제공됩니다. 따라서 INFER는 도움이 되지 않습니다. 구조를 수동으로 검사하고 이해해야 합니다. 이 데이터는 메타데이터에 각 엔티티의 의미와 함께 단순한 배열로 된 많은 데이터가 있는 일반적인 정부 데이터 세트입니다.

단순 배열:

 

 

 

 

 

 

 

 

여기에는 스키마 없이 단순히 데이터 배열이 포함되어 있습니다. 공개 데이터 집합의 경우 스키마는 메타 필드에 있습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

구조를 간단한 JSON 키-값 쌍으로 변환하여 좀 더 효과적으로 처리할 수 있도록 해보겠습니다. 이 마법이 어떻게 일어났는지 자세히 알아보세요. 이 문서에서.

 

 

 

 

 

 

 

 

과제1: 한 주에서 연도별로 가장 많이 사망한 원인을 찾습니다.

WITH 절의 공통 테이블 표현식(CTE)은 복잡한 json 데이터를 플랫 JSON으로 변환합니다(csdata). 이 작업을 동적으로 수행하거나, 이 작업을 한 번 수행한 후 버킷에 다시 INSERT할 수 있습니다. 뉴욕 아기 이름. 이 글에서는 CTE를 사용합니다.

 

 

 

 

 

 

 

 

이 경우 캘리포니아의 모든 사망자는 주로 인구로 인해 가장 많이 발생합니다.

과제 2. 2016년 한 해 동안 각 주의 주요 사망 원인을 알아보세요.

쿼리 2: 이전 쿼리의 결과 집합을 사용한 다음 FIRST_VALUE() 창 함수를 사용하여 상위 원인을 확인합니다. OVER BY 절에서 상태별로 파티션을 나누면 상태별 파티션을 얻을 수 있고, OVER BY 절 내에서 ORDER BY dx.totdeaths를 사용하면 모든 상태의 상위 원인을 얻을 수 있습니다.

 

 

 

 

 

 

 

 

작업 3.  1999년부터 2016년까지 주별로 가장 큰 이유가 연도별로 어떻게 변화했는지 알아보세요.

쿼리 3:  모든 연도(199-2016)에 대한 보고서를 생성한 다음 주, 연도별로 그룹화하고 최고 이유에 대한 최대값(최고 수)을 구하여 최고 이유를 결정하면 최종적으로 최고 이유를 얻을 수 있습니다.

다음은 일부 결과입니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

이를 시각화하면 다음과 같은 히스토그램이 나타납니다.

 

 

이 문서 공유하기
받은 편지함에서 카우치베이스 블로그 업데이트 받기
이 필드는 필수 입력 사항입니다.

작성자

게시자 케샤브 머시

케샤브 머시는 Couchbase R&D의 부사장입니다. 이전에는 MapR, IBM, Informix, Sybase에서 근무했으며 데이터베이스 설계 및 개발 분야에서 20년 이상의 경력을 쌓았습니다. IBM Informix에서 SQL 및 NoSQL R&D 팀을 이끌었습니다. Couchbase에서 두 번의 President's Club 상을, IBM에서 두 번의 우수 기술 업적상을 수상했습니다. 인도 마이소르 대학교에서 컴퓨터 과학 및 공학 학사 학위를 받았으며, 10개의 미국 특허를 보유하고 있고 3개의 미국 특허를 출원 중입니다.

댓글 남기기

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

개발자 포털에서 NoSQL을 살펴보고, 리소스를 찾아보고, 튜토리얼을 시작하세요.

카펠라 무료 사용

클릭 몇 번으로 Couchbase를 직접 체험해 보세요. Capella DBaaS는 가장 쉽고 빠르게 시작할 수 있는 방법입니다.

연락하기

카우치베이스 제품에 대해 자세히 알고 싶으신가요? 저희가 도와드리겠습니다.