전체 텍스트 검색

보조 색인 또는 전체 텍스트 색인?

애플리케이션은 기본 키-값 연산, 보조 인덱스(조회수) 또는 전체 텍스트 검색을 사용할지 결정해야 합니다. 개발자는 새로운 앱 기능에 보조 인덱스를 사용할지, 아니면 전체 텍스트 검색을 사용할지 어떻게 결정해야 할까요? 이 블로그에서는 보조 인덱스와 전체 텍스트 인덱스의 차이점을 설명하여 현재 시나리오에 따라 Couchbase에서 데이터에 액세스하기 위해 어떤 것을 사용해야 하는지 알 수 있도록 합니다.

카우치베이스 서버의 뷰는 자바스크립트에서 다음을 사용하여 정의됩니다. 지도 함수를 사용하여 문서에서 데이터를 가져오고, 선택 사항인 감소 함수를 사용하여 지도 함수에서 방출된 데이터를 집계할 수 있습니다. 맵 함수에서 인덱스를 작성할 속성을 지정할 수 있습니다. 뷰는 결국 색인화되고 쿼리는 저장된 문서와 관련하여 결국 일관성을 유지합니다. 

시각적으로 보조 인덱스의 데이터 구조는 다음과 같습니다. 

SecondaryIndex

보조 인덱스에 B-트리 데이터 구조를 사용하면 빠른 키 기반 조회(이 경우 '항목 이름') 및 범위 쿼리가 최적화됩니다. 예를 들어, 제품 카탈로그 앱을 구축하면서 'A'로 시작하는 모든 제품 이름을 'F'까지 나열하고 싶다고 가정해 보겠습니다. '항목 이름'에 대한 Couchbase의 보조 인덱스를 사용하면 B-tree 데이터 노드의 일부만 액세스하면 됩니다.  

그렇다면 왜 Couchbase의 전체 텍스트 검색 기능을 사용해야 할까요?

'빨간색' 키워드가 있는 스토어의 모든 제품(예: '빨간색 스웨터', '빨간색 바지' 또는 색상 속성이 '빨간색'인 제품 등)을 나열하고 싶다고 가정해 보겠습니다. A 전체 텍스트 색인 는 문서 용어를 문서 ID 목록에 매핑하므로 특정 용어가 포함된 문서 ID 목록을 빠르게 다시 가져올 수 있습니다. 

Couchbase 서버는 전체 텍스트 검색 엔진인 Elasticsearch와 통합됩니다. Elasticsearch용 Couchbase 어댑터를 사용하면 문서가 Elasticsearch에 실시간으로 복제됩니다. Elasticsearch는 각 문서를 구문 분석하고 전체 텍스트 인덱스를 구축하여 앱에서 모든 문서를 검색할 수 있도록 합니다.

 InvertedIndex

위의 그림은 전체 텍스트 인덱스가 문서에서 찾은 문서 용어를 문서 ID에 매핑하는 방법을 보여줍니다. 이 데이터 구조는 애드혹 검색 쿼리에 적합하므로 예를 들어 '스웨터'를 찾고 있다면 빨간색 및 파란색 스웨터와 관련된 문서 ID를 얻을 수 있습니다.

이제 보조 인덱스와 전체 텍스트 인덱스에 대해 이해하셨으니 앱에서 언제 전체 텍스트 검색을 사용해야 하는지, 언제 보조 인덱스 사용을 고려해야 하는지 살펴봅시다. 

다음을 사용해야 합니다. 전체 텍스트 검색 언제 :

–  웹 페이지 콘텐츠, 블로그 게시물, 디지털 기사, 콘텐츠 메타데이터와 같은 대량의 텍스트 데이터를 검색하려는 경우입니다. 전체 텍스트 검색 인덱스를 사용하면 일부 관련성 순위를 매기는 형식 외에도 모든 속성에 걸쳐 전체 데이터 세트에 걸쳐 검색할 수 있습니다.

 - 앱에 용어 기반 검색이 필요합니다.

다음을 사용해야 합니다. 보조 검색 언제 :

 –  앱에 반복해서 실행되는 쿼리가 있습니다.
 –  를 사용하면 애플리케이션에 따라 어떤 속성을 쿼리할지 정확히 알 수 있습니다. 쿼리에 정확히 일치하는 쿼리 또는 범위 쿼리가 있는 경우. 예를 들어 항목 번호 '1000'을 가져오거나 '바지' 유형과 사이즈가 5~10 사이인 모든 문서 목록을 원한다고 가정해 보겠습니다. 
따라서 Couchbase에서 다음 앱 기능을 구축하고 보조 인덱스를 사용할지 아니면 전체 텍스트 검색 인덱스를 사용할지 결정할 때, 특정 사용 사례에 가장 적합한 인덱스를 선택할 때 위의 몇 가지 지침을 적용해보세요. 인덱스와 Couchbase 전체 텍스트 검색과 Elasticsearch 사용에 대해 더 자세히 알아보고 싶으시다면 이 글을 참조하세요, 지금 등록하고 예정된 웨비나를 놓치지 마세요..
행복한 코딩!
이 문서 공유하기
받은 편지함에서 카우치베이스 블로그 업데이트 받기
이 필드는 필수 입력 사항입니다.

작성자

게시자 돈 핀토, 수석 제품 관리자, Couchbase

돈 핀토는 Couchbase의 수석 제품 관리자로 현재 Couchbase Server의 기능을 발전시키는 데 주력하고 있습니다. 데이터 기술에 대한 열정이 대단한 그는 과거에 기술 블로그와 백서 등 Couchbase Server에 관한 여러 기사를 저술한 바 있습니다. Couchbase에 입사하기 전에는 IBM에서 수년간 근무하며 DB2 정보 관리 그룹에서 소프트웨어 개발자의 역할을 수행했고, 가장 최근에는 Microsoft의 SQL Server 팀에서 프로그램 관리자로 근무했습니다. Don은 캐나다 토론토 대학교에서 컴퓨터 공학 석사 학위와 컴퓨터 공학 학사 학위를 받았습니다.

댓글 하나

  1. 검색 방법을 선택하는 방법에 대한 훌륭한 개요입니다. 감사합니다.

  2. 또 다른 핵심 차별화 요소는 다음과 같습니다:
    - 전체 텍스트 검색 결과는 일반적으로 사람이 사용할 수 있도록 만들어졌습니다.
    - 보조 인덱스 결과는 기계/프로그램에서 사용하기 위한 것입니다.

댓글 남기기

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

개발자 포털에서 NoSQL을 살펴보고, 리소스를 찾아보고, 튜토리얼을 시작하세요.

카펠라 무료 사용

클릭 몇 번으로 Couchbase를 직접 체험해 보세요. Capella DBaaS는 가장 쉽고 빠르게 시작할 수 있는 방법입니다.

연락하기

카우치베이스 제품에 대해 자세히 알고 싶으신가요? 저희가 도와드리겠습니다.