벡터 검색

Couchbase 8.0: 하이퍼스케일 AI 애플리케이션을 위한 통합 데이터 플랫폼

AI는 최신 애플리케이션을 구축하고 실행하는 방식을 재편하고 있습니다. 실시간 추천부터 상담원 지원까지, 팀에는 새로운 성능 및 유연성 요구 사항을 충족할 수 있는 데이터 플랫폼이 필요합니다. 바로 Couchbase 8.0 는 운영, 분석 및 벡터 기반 워크로드를 하나로 통합하는 통합 플랫폼으로, 개발자가 더 빠르고 스마트하며 비용 효율적인 AI 기반 애플리케이션을 구축할 수 있도록 설계되었습니다.

카우치베이스 서버 8.0의 정식 출시

오늘은 자체 관리형 및 완전 관리형 Capella 배포를 위한 최신 릴리즈인 Couchbase Server 8.0을 소개합니다. 400개가 넘는 기능과 변경 사항이 포함된 Couchbase 8.0은 벡터 인덱싱, 벡터 검색 사용 및 성능, 클러스터 보안, 확장성 및 안정성에서 획기적인 혁신을 제공합니다. 이러한 새로운 기능은 Couchbase를 차세대 AI 기반 애플리케이션 및 에이전트 시스템에 필요한 AI 데이터 백본으로 전환하는 데 도움이 됩니다.

에이전트 시스템은 운영 애플리케이션입니다.

저희는 오랫동안 에이전트 시스템을 운영 애플리케이션으로 보는 것이 가장 좋다고 주장해 왔습니다. 에이전트 시스템에는 Couchbase 및 Capella와 같은 플랫폼의 응답성, 가용성, 분산된 규모 및 성능이 필요하기 때문입니다. 또한 특수 목적의 데이터베이스 모음으로 구동되는 운영 애플리케이션을 조립하는 것은 좋지 않은 생각이라고 주장해 왔습니다. AI로 그렇게 하는 것은 재앙이 될 수 있습니다.

최고의 다목적 벡터 데이터베이스를 확인하세요.

오늘, 저희는 다목적 플랫폼에 내장되어야 하는 데이터베이스 기능의 또 다른 범주를 추가합니다. Couchbase 8.0은 최고의 다목적 벡터 데이터베이스인 동시에 환상적인 JSON, KV 캐싱, 검색, 이벤트, 모바일 및 분석 다목적 데이터베이스 플랫폼이 되었습니다.


10억 개, 그 이상으로 확장되는 벡터 검색


AI 기반 애플리케이션은 올바른 컨텍스트를 즉시 찾는 데 달려 있습니다. 이는 대규모로 빠르고 정확한 벡터 검색을 의미합니다. 새로운 하이퍼스케일 벡터 인덱스(HVI) 이제 속도, 정확성, 비용 사이에서 타협하지 않고도 Couchbase 8.0에서 이러한 작업을 수행할 수 있습니다.

수십억 규모의 독립적인 테스트에서 HVI는 최대 다음과 같은 성능을 제공했습니다. 초당 19,000건의 쿼리 처리 와 함께 28밀리초 지연 시간 의 합리적인 리콜 정확도로 조정했을 때 66%입니다. 주요 클라우드 데이터베이스와 비교했을 때, Couchbase는 다음과 같이 실행되었습니다. 3,000배 더 빠릅니다.  그리고 높은 리콜 정확도(적당한 하드웨어에서 93%)를 위해 조정값을 높였을 때, Couchbase는 350회 초당 더 많은 쿼리를 처리할 수 있습니다.

새로운 하이퍼스케일 벡터 인덱스는 이미 뛰어난 쿼리 처리량, 리콜 정확도, 밀리초 지연 시간으로 10억 개 이상의 벡터를 쉽게 확장할 수 있는 것으로 테스트되었습니다. 이는 고객이 AI 애플리케이션 내에서 정확도와 신뢰도를 향상시키는 데 도움이 될 뿐만 아니라 GenAI를 더 저렴하게 사용할 수 있도록 지원합니다. 특히 사용자가 LLM(대규모 언어 모델)에 무엇을 요청할지 예측하기 어려운 경우, RAG 및 에이전트 사용 사례의 총 소유 비용을 절감할 수 있습니다.

하이퍼스케일 벡터 인덱스는 HNSW, IVF 또는 DiskANN을 사용하는 대신 그래프와 클러스터 기반 알고리즘의 장점을 결합한 새로운 하이브리드 알고리즘으로 구동되며, Microsoft의 Vamana 논문과 IVF를 결합한 새로운 알고리즘을 기반으로 합니다. 이 설계의 장점은 분산형 인메모리 처리와 파티셔닝된 디스크 처리를 모두 활용하여 용량, 처리량, 지연 시간 및 리콜 측면에서 동급 최고의 성능을 제공한다는 것입니다. 챗봇과 같이 개발자가 프롬프트에 제공되는 콘텐츠를 완전히 제어할 수 없는 상태에서 대규모 데이터 코퍼스를 벡터화해야 하는 경우에 선호되는 인덱스입니다. 이 구현에는 많은 장점이 있으며, 앞으로 자세히 살펴보겠습니다. 하지만 오늘은 그냥 보여드리고자 합니다.

 

하이퍼스케일 벡터 인덱스 벤치마크 경쟁

신선한 정면 대결에서 벡터 성능 벤치마크 CouchBase와 MongoDB Atlas 사이의 새로운 하이퍼스케일 벡터 인덱스는 일반적인 중간 크기의 벡터 세트와 128차원의 10억 개의 벡터 데이터 세트에 대해 초당 쿼리 수(QpS)로 측정된 탁월한 벡터 검색 성능을 달성했습니다. 테스트에는 VDBBench 방법론 및 툴킷을 사용하여 초당 쿼리 수(QpS), 응답 대기 시간(밀리초), 리콜 정확도 비율을 측정했습니다.

이 테스트는 스캔하는 중심 클러스터의 폭(10개에서 100개까지)을 다양화함으로써 벡터 리콜 정확도에 대한 검색 성능과 지연 시간을 조정할 수 있습니다. 센트로이드는 유사한 벡터의 클러스터입니다. 센트로이드를 더 적게 스캔하면 초당 쿼리 수(QpS)는 증가하지만 벡터 정확도는 낮아질 수 있습니다. 더 많은 센트로이드를 스캔하면 정확도가 향상되지만 지연 시간도 증가할 수 있습니다.

벤치마크 결과에 따르면 Couchbase의 하이퍼스케일 벡터 인덱스는 낮은 정확도(66%)로 조정했을 때 초당 19,000개가 조금 넘는 쿼리를 28밀리초의 지연 시간으로 처리할 수 있는 것으로 나타났습니다. 이는 3,100배 빠른 속도 는 동일한 테스트와 설정으로 57%의 리콜 정확도로 초당 6개의 쿼리만 실행할 수 있었던 MongoDB Atlas보다 더 높은 성능을 보였습니다.

리콜 정확도를 높이도록 구성했을 때, MongoDB의 성능은 초당 쿼리 수 2건으로 떨어졌고 지연 응답 시간은 40초 이상으로 급증했습니다. Couchbase는 700 QpS 이상의 성능과 369밀리초 미만의 지연 시간을 기록했습니다. 리콜 정확도는 Atlas가 89%로 Couchbase의 93%보다 높았습니다. 수십억 개의 벡터 규모로 운영할 경우, Couchbase의 하이퍼스케일 벡터 인덱스는 더 열심히, 더 빠르게, 더 스마트하게 작동하며 비용은 더 적게 듭니다.

하이퍼스케일 벡터 인덱스는 카우치베이스의 기존 인덱스 서비스를 확장한 것으로, 기존 배포 옵션, 규모, 분산 파티셔닝, 성능 특성을 그대로 계승합니다.

복합 벡터 인덱스(CVI)

개발자가 미리 필터링되고 좁혀진 벡터 결과 집합을 밀리초 속도로 정의하려는 상황을 위해 복합 벡터 인덱스도 추가했습니다.

복합 벡터 인덱스는 기존 보조 인덱스 함수(GSI)의 일부로, 벡터와 문자열, 숫자, 부울 등 기타 지원되는 데이터 유형을 결합한 인덱스를 구축할 수 있습니다. 이는 벡터 요청의 초점을 좁히는 데 도움이 되며 개발자가 LLM 계약 내에서 프롬프트의 내용을 제어할 때 유용합니다. 따라서 카우치베이스에서 특정 벡터를 요청하기 전에 필터링 기준을 적용하고 정확도를 저하시키지 않으면서 LLM 토큰 소비를 최소화할 수 있습니다.

카우치베이스는 온프레미스, 아카펠라, 모바일에서 벡터 검색을 배포합니다. 또 누가 그렇게 하나요?

이 새롭고 확장성이 뛰어난 벡터 인덱싱 옵션은 기존의 검색 서비스에서 제공하는 하이브리드 벡터 검색 기능에 추가되었습니다. 이제 Couchbase는 다음을 제공하는 유일한 데이터베이스 플랫폼입니다. 유연하고 확장성이 뛰어난 벡터 검색 옵션은 온프레미스, Kubernetes의 자체 관리 시스템 및 완전 관리형 Capella 배포를 위한 것입니다. 여기에 모바일 벡터 검색을 추가하면 최종 사용자가 어디에 있든 AI 세계의 어디에 있든 서비스를 제공하는 AI 애플리케이션의 중추가 되는 방법을 확인할 수 있습니다.


Couchbase 8.0에는 또 어떤 기능이 있나요?

Couchbase의 모든 서비스가 크게 개선되었습니다. 각 Couchbase 서비스에 대한 변경 사항을 살펴보겠습니다:

데이터 서비스

      • 고객이 관리하는 키에 대한 KMS 통합을 통한 미사용 시 기본 암호화. 데이터 서비스는 각 카우치베이스 서비스 중 가장 먼저 암호화된 서비스입니다. 쿼리, 인덱스 및 검색과 같은 다른 서비스도 후속 릴리스에서 암호화될 예정입니다.
      • 키 관리 상호 운용성 프로토콜(KIMP) 지원
      • 자동 키 로테이션을 통한 중앙 집중식 정책 제어 기능 포함
      • 90% 마그마 메모리 할당량 감소(100MB)
      • 1024개 대신 128개 v버킷의 더 작은 클러스터 맵 옵션
      • 새로운 버킷 워밍업 옵션(백그라운드, 차단, 없음)으로 캐시가 따뜻해지면 노드 활성화가 빨라집니다.
      • 멤캐시드 버킷 유형이 제거되어 버전 6.5부터 더 이상 사용되지 않습니다.

쿼리 서비스

      • 명령줄 셸, SQL++ 및 Capella iQ 액세스 자격 증명을 사용하는 쿼리 워크벤치를 통해 Couchbase Server에서 쿼리에 대한 자연어 입력을 지원합니다. 질문하기, “AI 사용” 명령 또는 “natural_“.
      • 쿼리 워크로드 리포지토리 및 보고는 스냅샷과 보고서를 유지 관리하여 쿼리 문제 해결을 용이하게 합니다. 사용자 정의 컬렉션은 경과 시간, CPU 및 메모리 사용량, KV 가져오기, 실행 등을 수집합니다.
      • 쿼리 특성 변화에 따라 이상적인 쿼리 계획 생성을 위한 최적화 통계 자동 업데이트
      • 벡터 인덱스 생성을 위한 새로운 SQL++ 키워드 및 절을 포함합니다, 벡터 인덱스 만들기 선택 사항 포함, 파티션 기준어디 조항과 WITH 절을 사용하여 벡터별 매개변수를 설정할 수 있습니다, 차원, 설명, 유사성 메트릭, Train_listNum_replicas.
      • 벡터 선택을 위한 새로운 SQL++ 함수, 약_벡터_거리
      • 벡터 인덱스는 쿼리 워크벤치 GUI, 아카펠라 UI, 쿼리 서비스에 대한 REST API, SDK, 그리고 LlamaIndex 및 LangChain과 같은 모델 프레임워크를 통해 사용할 수 있습니다.

색인 서비스

벡터 인덱스 생성을 위한 새로운 기능 설정

      • 알고리즘: GSI 복합의 경우 IVF, 하이퍼스케일의 경우 IVF + 바마나(하이브리드)
      • SQL++: 인덱스 생성/변경/삭제 SQL++, REST API 및 SDK를 통해
      • 양자화: 메모리 사용량 감소를 위해 PQ, SQ 변형을 선택할 수 있는 인덱스 튜닝
      • 유사도 거리: 코사인, 도트 곱, L2, 유클리드 등 다양한 애플리케이션 요구 사항 충족
      • 분할 인덱스: 수십억 개의 벡터로의 확장성 및 세분화된 인덱싱 요구사항에 적합

벡터 검색을 위한 새로운 기능 옵션

      • 간단한 검색 쿼리: 벡터 필드를 사용한 기본 ANN 스캔 주문 기준
      • 복합 인덱스의 사전 필터링 및 하이퍼스케일 인덱스의 인라인 필터링은 다음과 같습니다. 포함 검색 공간을 줄이기 위한 열
      • 색인기로 푸시다운: 성능 향상을 위해 문서를 필터링하고 제한하는 경우
      • 투영: 벡터 거리와 같은 투영법 지원
      • 순위 재조정 결과: 성능 절충을 통해 리콜률 향상

검색 서비스

      • 검색 쿼리에서 참조할 수 있는 사용자 정의 동의어
      • 검색 서비스별로 색인화할 문서 필터링하기
      • 더 나은 하이브리드 검색 결과를 위한 베스트매치(BM25) 점수 매기기
      • 검색 서비스에서 읽기 복제 파티션이 추가되어 쿼리 처리량 향상
      • 검색 벡터 색인 성능이 두 배로 향상되었습니다. avx2 명령어 세트를 사용하여 더 나은 SIMD(단일 명령어, 다중 데이터) 지원을 통해

이벤트 서비스

      • 규모, 속도, 보안을 위해 재설계된 이벤트 서비스, 획기적인 결과물
      • 실행 범위 또는 버킷 수준에서 이벤트 옵션 설정하기
      • 범위별로 이벤트 발생 서비스 노드 구성하기
      • 내부 통신을 위한 TLS 노드 간 암호화

클러스터 관리자

      • 임시 버킷 및 응답하지 않는 디스크의 자동 페일오버
      • 새로운 대상 노드를 도입하지 않고도 비-KV 다차원 스케일링(MDS) 서비스를 조정하세요.
      • 클러스터에서 SDK 클라이언트 메트릭을 집계하여 모니터링 및 문제 해결을 용이하게 합니다.
      • 사용자 계정 잠금/잠금 해제 및 활동 모니터링
      • 업그레이드 경로에는 버전 7.2 이상이 필요하며, 이전 버전은 먼저 7.2.3으로 업그레이드해야 합니다.

데이터센터 간 복제(XDCR)

      • 새 버킷 속성, “EnableCrossClusterVersioning”를 활성화하도록 설계되었습니다:
        • 동기화 게이트웨이 또는 카펠라 앱 서비스에서 모바일 버킷을 사용한 양방향 복제
        • 인바운드 복제에 대한 타깃 클러스터 인식으로 관리 용이성 향상
        • 충돌 기간 동안 양쪽 끝에서 수정된 문서에 대한 충돌 로깅
      • 클러스터 간 데이터 일관성을 확인하는 XDCR 진단 유틸리티

백업

      • 8.1 GA 이전 시점 복구 미리보기
        • 데이터 손실 기간을 몇 시간, 몇 분 또는 몇 초 단위로 사용자가 정의한 타이밍으로 줄입니다.
      • 백업 보존 기간 및 만료 설정을 통해 백업의 만료일 설정하기
      • cbbackupmgr로 명명 충돌 자동 해결

개발자를 위해 구축되어 기업의 신뢰를 받음

Couchbase 8.0은 속도, 확장성, 유연성을 단일 플랫폼에 결합하여 온프레미스, 인카펠라 DBaaS, 엣지 등 어디서나 실행할 수 있습니다. 미래의 AI 기반 환경을 구축하는 개발자와 중요한 애플리케이션을 실행하기 위해 이 플랫폼에 의존하는 기업을 위해 설계되었습니다.

“우리 고객은 정확한 키워드뿐만 아니라 의미와 맥락에 따라 관련성 높은 콘텐츠를 찾을 수 있습니다. Capella의 고객으로서 우리는 Couchbase 8.0과 확장성 및 TCO 이점을 통해 AI 기반 비디오 플랫폼에 이상적인 솔루션이 될 것으로 기대하고 있습니다.”라고 Seenit의 CTO인 Ian Merrington은 말합니다.

카우치베이스 8.0은 이제 일반적으로 사용 가능. 새로운 기능 살펴보기 를 살펴보고 오늘날 팀들이 차세대 AI 및 에이전트 시스템을 구축하는 데 어떻게 사용하고 있는지 알아보세요.

관련 리소스를 확인하세요:

이 문서 공유하기
받은 편지함에서 카우치베이스 블로그 업데이트 받기
이 필드는 필수 입력 사항입니다.

작성자

게시자 Jeff Morris, 제품 마케팅 부사장

Jeff Morris는 Couchbase의 제품 및 솔루션 마케팅 담당 부사장입니다. 그는 30년 넘게 소프트웨어 개발 도구, 데이터베이스, 분석 도구, 클라우드 서비스 및 기타 오픈 소스 제품을 마케팅해 왔습니다. 그는 빠르고 유연하며 친숙하고 합리적인 가격의 서비스형 클라우드 데이터베이스를 찾는 사람이라면 누구라도 Couchbase를 확인하면 더 이상 고민할 필요가 없다고 말합니다.

댓글 하나

  1. 벡터 확장성 분야에서 이러한 업적을 달성한 카우치베이스에게 축하를 보냅니다. 저희는 이 기능을 테스트하고 플랫폼 고객에게 제공할 수 있기를 고대하고 있습니다!

댓글 남기기

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

개발자 포털에서 NoSQL을 살펴보고, 리소스를 찾아보고, 튜토리얼을 시작하세요.

카펠라 무료 사용

클릭 몇 번으로 Couchbase를 직접 체험해 보세요. Capella DBaaS는 가장 쉽고 빠르게 시작할 수 있는 방법입니다.

연락하기

카우치베이스 제품에 대해 자세히 알고 싶으신가요? 저희가 도와드리겠습니다.