소개

카우치베이스 전체 텍스트 검색 (FTS)는 인덱싱 및 쿼리를 위한 훌륭한 도구입니다. 지리공간 데이터. 이 글에서는 지리공간 검색 사용 사례를 제시하고 Couchbase 전체 텍스트 검색 서비스를 사용하여 위치 데이터 검색을 수행할 수 있는 다양한 방법을 보여드리겠습니다. 여기서는 Couchbase Server Enterprise Edition 6.6(실행 중인 도커에서 로컬로)를 사용하여 샘플 지리공간 데이터 집합에 FTS 인덱스를 만든 다음 인덱스에 대해 지리공간 쿼리를 실행합니다.

이 사례가 흥미로운 이유는 공간 데이터베이스를 사용하고 있지 않다는 점입니다. 공간 데이터베이스란 무엇인가요? NoSQL 문서 데이터베이스인 Couchbase Server와 달리, 공간 데이터베이스는 고급 인스턴스에서 선, 관심 지점 또는 3D 토폴로지 같은 기하학적 공간을 설명하는 데이터에 특별히 최적화되어 있습니다. 앞으로 살펴보겠지만, Couchbase의 전체 텍스트 검색 기능은 보다 전문적인 솔루션에서 기대할 수 있는 것만큼이나 지리공간 데이터를 처리하고 쿼리하는 데 유용합니다.

사용 사례

우리 가족은 항상 방문과 탐험을 즐겼습니다. 그레이트 스모키 마운틴 국립공원 (또는 국립공원관리청의 약자인 GRSM)에 관심이 있고, 언젠가는 그곳으로 이사하고 싶을지도 모릅니다. 하지만 국립공원에 살 수는 없으니 공원 근처의 여러 도시와 마을을 고려하고 평가하고 방문할 수 있는 도시 목록을 만들어야 합니다. 

주요 목표는 국립공원과 가까운 곳에 위치하는 것이지만, 마을의 규모(인구)와 같은 다른 요소도 고려할 것입니다.

샘플 데이터 세트

GRSM 사용 사례를 지원하기 위해 다음의 공개 데이터 집합을 사용하기로 했습니다. 지리적 이름 전 세계 여러 국가의 주, 도시, 마을 및 기타 랜드마크가 포함되어 있습니다. 제가 다운로드한 미국 데이터 파일 를 사용하여 "채워진 장소" 데이터만 카우치베이스로 가져와서( 기능 코드 'PPL', 'PPLA', 'PPLA2', 'PPLA3′, 'PPLA4', 'PPLC') 중 인구가 0이 아닌 도시/마을을 대상으로 합니다. 그 결과 30,734개의 문서가 있는 Couchbase 버킷 '도시'가 만들어졌습니다.  

각 도시의 문서 데이터 모델에는 이름, 주, 인구, 고도, 그리고 가장 중요한 위도와 경도와 같이 제 GRSM 사용 사례에서 관심 있는 몇 가지 속성이 포함되어 있습니다. 다음은 몇 가지 샘플 JSON 문서입니다:

도시::4699066

 

도시::4649251

색인 만들기

카우치베이스의 도시 버킷에 도시 데이터를 로드하면, 당면한 'GRSM 근처 거주' 사용 사례에 적합한 FTS 인덱스를 만들 수 있습니다. 여기서는 필요한 인덱스 생성의 주요 내용을 간략하게 다루고, 전체 인덱스 정의는 아래 부록에 나와 있습니다. (FTS 인덱스 생성에 대한 자세한 설명은 다음을 참조하세요. 주제에 대한 내 블로그 게시물.)

색인 생성 키 포인트 

  • 이름: city_geo
  • 버킷: 도시
  • 유형 식별자: "구분 기호까지 문서 ID"를 입력하고 구분 기호로 "::"를 입력합니다(위 샘플 문서의 키에 유의하세요).
  • 유형 매핑을 입력합니다: 
    • "기본값"을 선택 취소합니다.
    • '도시' 유형 문서에 대한 매핑을 만들어 이러한 지정된 필드만 색인화합니다: 
      • name: 이 필드에 키워드 분석기를 사용하겠습니다(나중에 이름을 기준으로 정렬할 예정이므로). 이 필드로 검색하는 것 외에도 인덱스를 테스트하고 이 필드별로 정렬할 수 있도록 index, store, _all, 용어 벡터 및 docvalues를 확인하겠습니다. 
      • 상태입니다: 검색 결과에서 검색할 수 있도록 이 텍스트 필드를 저장합니다. 
      • 인구: 유형을 숫자로 설정하고 나중에 모집단을 기준으로 결과를 정렬할 수 있도록 인덱스, 저장소 및 문서 값을 확인합니다. 
      • 고도: 유형을 숫자로 설정하고 이 값이 검색 결과에 포함되도록 저장소만 체크합니다.
      • geo: 유형을 지오포인트로 설정하고(각 문서는 'geo' 하위 문서에 'lat' 및 'lon' 속성이 있으므로) index, store 및 _all을 확인합니다. 

create the city_geo search index

인덱싱 프로세스가 100% 완료될 때까지 기다리겠습니다:

index processing complete

이제 Couchbase UI에서 인덱스를 빠르게 테스트하여 인덱스가 예상대로 작동하는지 확인해 보겠습니다. 결과는 좋아 보입니다!

testing the city_geo index

지리공간 검색

이제 데이터 집합이 로드되고 색인이 생성되었으므로 이제 주제의 핵심을 파악하고 색인에 대해 몇 가지 위치 기반 정보 쿼리를 실행할 수 있습니다. 데모를 위해, 저는 카우치베이스 검색 서비스 REST API 와 함께 cURL을 통해 검색 쿼리를 실행할 수도 있지만, 검색 쿼리는 카우치베이스 SDK 를 애플리케이션 또는 서비스의 일부로 사용할 수 있습니다. N1QL 쿼리는 다음도 지원합니다. SQL 메서드를 사용한 전체 텍스트 검색 코딩할 필요 없이 

다음을 사용하여 가독성을 위해 REST API 응답의 형식을 지정하겠습니다. jq오픈 소스 명령줄 JSON 프로세서입니다.

검색 방법 1: 포인트 및 반경

우리는 종종 특정 지점 근처 또는 특정 거리 내에 무엇이 있는지 알고 싶어합니다. 제 사용 사례에서는 GRSM 국립공원 근처에 어떤 도시와 마을이 있는지 알고 싶습니다... 아마도 50마일 이내를 출발점으로 삼고 싶을 것입니다. 이 첫 번째 지리적 공간 검색 방법을 "지점 및 반경", "지점 및 거리" 또는 "반경 기반"이라고 합니다.  

제 "포인트"는 다음과 같습니다. 새로운 격차테네시주와 노스캐롤라이나주의 경계에 있는 스모키 산맥을 넘어가는 고개이자 애팔래치아 트레일의 시작점이자 인기 있는 전망대입니다. 저희 가족이 GRSM을 방문할 때 꼭 들러야 하는 곳이에요. 뉴파운드 갭에서 50마일 이내에 있는 마을/도시를 찾아보겠습니다. 

area for point and radius geospatial search

다음은 반경 기반 쿼리입니다: 

 

그 결과 79개 도시가 뉴파운드 갭과의 거리별로 정렬되었습니다. 여기에 처음 15개의 결과를 포함했습니다: 

검색 방법 2: 바운딩 박스

79개는 고려해야 할 도시와 마을이 너무 많으니 다른 방법을 생각해 봅시다. 수년 동안 국립공원을 방문하면서 대략적으로 테네시주 녹스빌과 노스캐롤라이나주 웨인즈빌 사이에 살고 싶다는 것을 알고 있습니다. 이 두 위치가 주어지면 '경계 상자' 또는 '사각형 기반' 지리공간 검색 방법을 사용하여 내 GeoNames 데이터 집합에 대해 쿼리할 수 있습니다.  

녹스빌과 완예스빌 근처의 장소 좌표를 검색 매개변수로 제공하면 직사각형의 왼쪽 위와 오른쪽 아래 모서리로 사용됩니다. 해당 사각형 내에 위치한 모든 도시가 쿼리에서 반환됩니다.  

selected area for bounding box geospatial search

다음은 직사각형 기반 쿼리입니다: 

 

그 결과 21개 도시가 이름별로 정렬되어 있습니다: 

검색 방법 3: 다각형

몇 가지 추가 조사 끝에 저는 세비어 카운티 내에 거주하되 40번 주간 고속도로 남쪽과 국립공원 경계선 북쪽에 살고 싶다고 결정했습니다.  

selected area for polygon-based geospatial search

이렇게 하려면 FTS 인덱스에 대해 다각형 기반 검색을 실행해야 합니다. 이 세 번째 방법은 최근 Couchbase Server 6.5.1에 추가되었습니다. 이제 지리공간 검색 쿼리의 영역을 원과 직사각형 외에 다각형으로 지정할 수 있습니다. 다각형은 일련의 위도-경도 좌표로 표현되며, 각 좌표는 다각형의 한 모서리의 위치를 결정합니다.  

위의 세비어 카운티 지도(연한 빨간색 선이 카운티 경계)에서 관심 있는 지역에 대략적으로 해당하는 다각형을 겹쳐 놓고 다각형의 점의 좌표를 캡처했습니다. 이 좌표를 사용하여 지리공간 다각형 기반 쿼리를 구성하겠습니다:

 

그 결과 6개 도시가 인구 오름차순으로 정렬된 매우 관리하기 쉬운 목록이 표시됩니다: 

요약 및 다음 단계

이 세 가지 검색 방법을 통해 카우치베이스는 애플리케이션에 포함할 수 있는 포괄적인 위치 기반 정보 검색 기능을 제공합니다. 지오포인트 데이터로 인덱스를 만들고 지오스페이스 포인트 또는 지오스페이스 다각형 기반 쿼리를 실행하는 것이 좋습니다. 다음 중 하나를 사용하여 쉽게 이 작업을 수행할 수 있습니다. 샘플 데이터 세트여행 샘플을 사용하여 위치 기반 데이터를 많이 확보할 수 있습니다.  

한 단계 더 나아가 JSON 데이터를 다음과 같이 시각화합니다. 실시간 출력 와 같은 웹 기반 지리공간 기술 플랫폼을 사용하여 문서 데이터베이스 검색 요청에서 맵박스 또는 ESRI. 수평적 확장, 일반 키 값 저장소, 데이터 일관성 등을 지원하는 분산 데이터베이스 관리 시스템에서 데이터를 관리하면 이점을 얻을 수 있습니다.

위치 기반 정보 검색은 카우치베이스의 전체 텍스트 검색 기능 중 하나에 불과합니다. 다음에서 쿼리를 사용해 볼 수도 있습니다. 배열 및 스코어링, 패싯 및 부스팅이 포함된 자연어 쿼리를 지원합니다. 이 주제에 대한 자세한 내용은 아래 참조 섹션의 애플리케이션 개발자 문서 및 교육 링크를 참조하세요.  

참조

 

부록

인덱스 생성 cURL 명령 및 JSON 정의:

 

작성자

게시자 Brian Kane, 솔루션 엔지니어, Couchbase

Brian Kane은 Couchbase의 솔루션 엔지니어로 1996년부터 애플리케이션 개발 및 데이터베이스 기술 분야에서 일하고 있습니다. 현재 텍사스주 휴스턴에 거주하고 있습니다.

댓글 남기기