모범 사례 및 튜토리얼

PDF RAG 데모: Couchbase Shell로 간소화된 AI 워크플로 구축하기

이전에는 사용자가 '채팅'을 할 수 있는 Python 앱을 통해 Couchbase RAG 기능을 사용하는 방법을 보여드렸습니다. PDF로 또는 와 X. 구축은 간단하지만 더 간단하게 구축할 수 있을까요? 최근에 Couchbase Shell을 많이 사용해봤는데 비슷한 작업을 할 수 있을 것 같습니다.

범위 및 컬렉션 설정

이미 다음 사항에 대해 잘 알고 계시리라 생각합니다. 카우치베이스 셸 (cbsh)를 실행하고 클러스터와 모델을 구성합니다.

범위와 컬렉션을 생성하고 선택한 다음 기본 인덱스를 만듭니다:

PDF를 청크 텍스트로 변환

PDF를 텍스트로 변환할 수 있는 다양한 도구가 있습니다. 대부분의 Linux 배포판에서 다음을 찾을 수 있습니다. pdftotext.

이렇게 하면 경로가 같지만 파일 이름에 .txt 확장자입니다.

함께 Nushell (cbsh는 Nushell 기반) 분할 명령 덕분에 텍스트를 쉽게 분할할 수 있습니다. 문제는 파일을 분할하는 데 필요한 올바른 구분 기호를 찾는 것입니다. 다행히 여러 줄 문자열을 지원하므로 파일에서 두 단락 사이의 텍스트를 복사하여 붙여넣었습니다. 하지만 정규식을 사용하면 좀 더 정교한 작업을 할 수 있습니다. 이것이 블로그 자료와 프로덕션의 차이점입니다 😇.

이렇게 하면 텍스트 문자열 테이블을 얻을 수 있습니다. 이를 Couchbase로 가져오려면 텍스트 필드, 콘텐츠 JSON 객체, 무작위로 생성된 UUID를 추가하고 결과를 업서트합니다.

다음 단계는 임베딩 또는 텍스트의 벡터 표현을 만드는 것입니다:

그런 다음 벡터 검색 인덱스를 만듭니다. 여기서는 PDF라고 하며 필드를 색인화합니다. 텍스트 벡터를 사용하여 1536 차원 벡터를 생성하고 l2_norm 를 유사도 알고리즘의 기본값으로 설정합니다.

모노폴리의 규칙을 가져와서 감옥에서 빠져나오는 방법을 묻고 있습니다. 원래 예제에서는 컨텍스트가 있는 답변과 없는 답변이 있었습니다.

그리고 컨텍스트와 함께:

모든 것을 스크립트에 넣어서 단순화해 보겠습니다. 다음은 다음과 같은 내용입니다. myScript.nu:

스크립트 파일을 소싱한 다음 해당 함수를 호출할 수 있습니다:

여기에서는 Python RAG 데모에서 얻은 것과 동일한 종류의 결과를 볼 수 있지만 이번에는 Couchbase Shell을 사용합니다. 앱을 배포하거나 Python을 알 필요가 없으므로 조작, 변경 또는 확장하기가 더 쉬울 것입니다. 하지만 파이썬과 랭체인으로 달성할 수 있는 것보다는 유연성이 떨어질 것입니다.

관심이 있으시다면 계속 지켜봐 주세요. 더 많은 AI 및 Couchbase Shell 콘텐츠가 준비 중입니다!

이 문서 공유하기
받은 편지함에서 카우치베이스 블로그 업데이트 받기
이 필드는 필수 입력 사항입니다.

작성자

게시자 로랑 도귄

Laurent는 파리에 사는 괴짜 금속공학도입니다. 주로 Java로 코드를 작성하고 AsciiDoc으로 구조화된 텍스트를 작성하며 데이터, 리액티브 프로그래밍 및 기타 유행어에 대해 자주 이야기합니다. 또한 Clever Cloud와 Nuxeo의 개발자 옹호자로 활동하며 해당 커뮤니티가 더 크고 강력하게 성장할 수 있도록 자신의 시간과 전문성을 바쳤습니다. 현재 Couchbase에서 개발자 관계를 운영하고 있습니다.

댓글 남기기

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

개발자 포털에서 NoSQL을 살펴보고, 리소스를 찾아보고, 튜토리얼을 시작하세요.

카펠라 무료 사용

클릭 몇 번으로 Couchbase를 직접 체험해 보세요. Capella DBaaS는 가장 쉽고 빠르게 시작할 수 있는 방법입니다.

연락하기

카우치베이스 제품에 대해 자세히 알고 싶으신가요? 저희가 도와드리겠습니다.