벡터 검색으로 애플리케이션을 구축하지 않더라도 벡터 검색을 정기적으로 접할 가능성이 높습니다. 이전에 '좋아요'를 누른 콘텐츠를 기반으로 추천 콘텐츠를 발견하는 것은 벡터 임베딩의 일반적인 사용 사례이며, 많은 사람들이 미디어 소비자로서 활용하고 있습니다. 하지만 벡터 검색이 토요일 저녁에 볼 만한 새 영화를 알려주는 것 이상의 역할을 할 수 있다는 사실을 깨닫지 못할 수도 있습니다. 좋아하는 블로그 게시물의 댓글 섹션으로 스크롤을 내리기 전에 벡터 검색이 어떻게 도움이 되는지 알아보세요.

벡터 검색의 일상적인 활용

먼저, 벡터 검색에 대해 이야기할 때 무엇을 말하는지 잠시 상기해 보겠습니다. 벡터 임베딩은 텍스트, 비디오, 이미지, 오디오 등 주어진 데이터 세트의 의미론적, 문맥적 의미를 포착하는 숫자의 목록입니다. 이는 인간의 언어와 방대한 양의 정보에 대해 학습된 임베딩 모델을 사용하여 가능합니다. 벡터 검색이란 이러한 벡터 임베딩을 검색하여 관련 결과 및 기타 사용 사례에 도달하는 것을 말합니다.

벡터 임베딩은 우리가 보고 싶은 다음 멋진 베이킹 쇼를 보여주는 것 이상으로 많은 것을 할 수 있기 때문에 이제 우리가 논의할 내용을 공유했으니 실제 주제에 대해 자세히 알아보겠습니다.

벡터 검색은 콘텐츠를 읽기 시작하기도 전에 콘텐츠의 품질을 확실하게 파악할 수 있습니다.

실제 사례: 블로그 댓글 분석

우리 모두는 기사의 댓글 섹션이 난장판이 된 경험이 있습니다. 댓글은 서로 관련이 거의 없고, 댓글을 달아야 하는 기사와 관련이 없으며, 빨리 부자가 되는 방법이나 기타 유사한 사기에 대한 스팸 게시물로 가득 차 있습니다. 하지만 때로는 댓글 섹션이 도움이 될 수 있습니다. 댓글은 종종 독자가 자신의 지식과 관점을 추가하여 원래의 글을 넘어 대화를 이어갈 수 있습니다. 제가 읽은 많은 기술 블로그 게시물에서 댓글 작성자가 원래 글이 게시된 이후 더 최신의 해결책을 제시하여 버그를 수정하거나 특정 라이브러리로 작업하는 방법을 연구할 때 귀중한 시간을 절약해 준 적이 있습니다.

어떤 댓글 섹션이 전자의 범주에 해당하여 피해야 하는 경우와 후자의 범주에 해당하여 확인해야 하는 경우를 어떻게 알 수 있나요?

블로그 게시물의 댓글 섹션을 벡터 임베딩으로 변환한 다음 댓글의 문맥적, 의미적 유사성을 서로 비교하여 점수를 매기면 해당 질문에 답하는 데 많은 통찰력을 얻을 수 있습니다. 

하지만 어떻게 시도해 볼 수 있을지 궁금하신가요? 바로 여러분을 위한 Chrome 확장 프로그램을 만들었습니다! 이 확장 프로그램을 사용하면 콘텐츠 추천을 넘어 품질 관리까지 벡터 검색의 유용성을 경험할 수 있습니다.

이 확장 기능은 블로그 댓글에 적용되지만, 이 아이디어는 블로그 게시물의 품질 관리에서 더 나아간 것입니다. 사기 탐지는 어떨까요? 유럽에서 가장 큰 은행 중 하나인 Revolut은 바로 그 일을 매일 신용 카드 고객을 대상으로 합니다.

Chrome 확장 프로그램 구축

직접 사용해보고 싶으신가요? 다음은 페이지를 아래로 스크롤하기 전에 벡터 검색이 블로그 게시물 댓글의 전반적인 품질을 결정하는 방법을 알아볼 수 있는 Chrome 확장 프로그램 실행 단계별 가이드입니다.

이 확장 기능은 대량 생산용으로 제작된 것이 아니므로 사용하려면 기술적 노하우가 필요합니다. 즉, GitHub 및 명령줄 작업에 어느 정도 익숙하다면 매우 유용할 것입니다. 코드를 작성할 필요가 없습니다. 모든 것이 이미 작성되어 있습니다.

확장 프로그램은 확장 프로그램 자체와 데이터를 처리하는 백엔드 웹 서버의 두 부분으로 구성됩니다. 결과를 얻으려면 서버가 실행 중이어야 하므로 두 가지 모두에 대해 작업해 보겠습니다.

백엔드 서버 설정

다음으로 이동합니다. 이 깃허브 리포지토리 를 클릭하고 리포지토리를 컴퓨터에 복제합니다. 리포지토리가 있는 경우 GitHub CLI 명령줄에서 다음을 실행할 수 있습니다:

GH 레포 복제 후무손레일/댓글-스팸-분석기-백엔드

내용을 확인했으면 터미널의 디렉토리로 이동하여 샘플 환경 변수 파일의 이름을 다음과 같이 변경합니다. .env.sample.env. 이 파일에는 OpenAI와 Couchbase 모두에 대한 기밀 자격 증명이 포함되어 있으므로 GitHub와 같은 공개 웹사이트에서 해당 파일을 공유하지 마세요.

    1. 가서 OpenAI API 케y를 다운로드하여 환경 파일에 추가합니다. 
    2. 만들기 새 클러스터 그리고 버킷 완전 관리형 서비스형 데이터베이스 플랫폼인 Couchbase Capella에서 사용할 수 있습니다. Capella는 이 확장 기능에 사용하기에 완벽한 무료 영구 계정 옵션을 제공합니다. 환경 파일에 클러스터 및 버킷 이름을 추가합니다.
    3. 아직 만들지 않았다면 Couchbase Capella 연결 자격 증명을 가져오거나 다음과 같이 하세요. 새 자격 증명 만들기 를 클릭합니다. 환경 파일에 연결 자격 증명을 추가합니다.
    4. 가져오기 카우치베이스 카펠라 연결 문자열. 환경 파일에 연결 문자열을 추가합니다.

환경 파일이 정의된 상태에서 다음을 실행하여 서버의 종속성을 설치합니다. npm 설치 를 실행하여 서버를 시작한 다음, 명령줄에서 npm 시작.

이제 백엔드 서버가 실행 중이며 댓글 데이터 처리를 시작하여 댓글을 벡터 임베딩으로 변환하고 품질 퍼센트 점수를 제공할 준비가 되었습니다.

브라우저 확장 프로그램 설치 및 사용

마지막으로 브라우저 확장 프로그램을 설치하고 실행해 보겠습니다.

이전 단계와 마찬가지로 먼저 다음 단계로 이동합니다. 이 깃허브 리포지토리 를 클릭하고 리포지토리를 복제합니다. GitHub CLI를 사용하는 경우 터미널에서 다음 명령을 실행할 수도 있습니다:

GH 레포 클론 후무손레일/댓글-스팸 분석기

프로젝트의 디렉토리에서 다음을 실행하여 종속성을 설치합니다. npm 설치 를 클릭한 다음 npm 빌드 를 클릭해 확장 프로그램을 빌드하세요. 이제 확장 프로그램을 웹 브라우저에 추가할 준비가 되었습니다.

Chrome에서 다음 주소로 이동합니다. chrome://extensions 을 클릭하고 개발자 모드. 를 클릭합니다. 로드 언패킹 버튼을 클릭하고 개발자 모드를 활성화한 후 파일 시스템에서 확장자의 디렉터리를 선택하면 나타납니다. 

이 확장 프로그램은 인기 있는 개발자 블로그의 모든 블로그 게시물과 함께 작동하도록 제작되었습니다, https://dev.to/. 사이트에서 블로그 게시물을 연 다음 브라우저 메뉴에서 확장 프로그램 탭을 클릭하고 댓글 품질 분석기 확장 프로그램을 로드하세요.

확장 프로그램을 처음 실행하면 백엔드 서버의 URL을 묻는 메시지가 표시됩니다. 로컬에서 실행 중이므로 다음을 입력합니다. http://localhost:3000 를 클릭하고 제출을 누릅니다. 그런 다음 분석을 클릭하고 결과가 처리될 때까지 몇 초간 기다릴 수 있습니다. 처리가 완료되면 의미 및 문맥적 유사성에 따라 결정된 해당 블로그 글의 댓글 품질에 대한 백분율 점수를 볼 수 있습니다. 문맥 및 의미적으로 유사한 댓글이 많을수록 해당 댓글이 해당 주제에 더 많이 관련되어 있다는 것을 의미합니다.

다음 동영상을 재생하여 실제로 작동하는 모습을 확인하세요:

실제 애플리케이션 및 그 이상

이 Chrome 확장 프로그램은 벡터 검색으로 달성하고 구축할 수 있는 것 중 빙산의 일각에 불과합니다! 벡터 검색으로 혁신적인 사용 사례를 구축하는 방법에 대해 더 자세히 알아보고 영감을 얻고 싶으신가요? 이 글에서 더 자세히 알아보세요:

작성자

게시자 벤 그린버그, 수석 개발자 에반젤리스트

댓글 남기기