Python 기반 머신 러닝 모델에서 분석 인사이트를 얻는 데 지연이 발생한다는 고객과의 대화를 통해, 저희는 실시간으로 더 빠른 인사이트를 제공하는 Python에서 Couchbase Analytics로의 원활한 파이프라인을 만들기 시작했습니다.
소개
출시와 함께 카우치베이스 서버 7.0에서 탐색할 수 있는 새로운 기능을 출시하게 되어 기쁘게 생각합니다. 개발자 미리보기 모드파이썬 UDF와 카우치베이스 애널리틱스의 통합.
머신러닝은 조직이 고객의 니즈를 이해하는 방식을 근본적으로 변화시켰습니다. 예측 분석(고객 이탈, 고객 감정 등) 및 재무 모델링과 같은 고급 분석 영역에서는 실시간에 가까운 대규모 데이터 처리와 그로부터 가치 있는 인사이트를 추출하는 것에 대한 의존도가 점점 더 커지고 있습니다.
이 블로그에서는 Couchbase 인스턴스를 설정하고, 원격 AnalyticsML 리포지토리에 동기화하고, 필요한 디렉터리를 만들고, 필요한 코드 샘플을 실행하는 과정을 안내합니다.
이 블로그의 대상은 Couchbase Server, 머신 러닝, Python 및 Couchbase Analytics 서비스의 교차점에 자연스럽게 관심이 있는 모든 분입니다. 독자가 이해할 것으로 예상되는 몇 가지 개념이 제시되어 있지만 걱정하지 마세요. 빠르게 이해할 수 있도록 링크를 포함할 테니까요. 전반적으로, 조금이라도 관심이 있는 사람이라면 누구나 이 튜토리얼을 통해 ML 알고리즘을 사용하여 Couchbase에 상주하는 데이터에 집중하여 즉각적인 인사이트를 얻을 수 있는 방법을 살펴볼 수 있기를 바랍니다.
전제 조건 및 가정:
지식/이해:
-
- 카우치베이스 서버: https://docs.couchbase.com/server/current/learn/architecture-overview.html
- 도커에 카우치베이스 서버 설치하기: https://docs.couchbase.com/server/current/install/getting-started-docker.html#multi-node-cluster-one-host
- 카우치베이스 애널리틱스: https://docs.couchbase.com/server/current/analytics/introduction.html
- Sci-kit Learn을 사용한 감정 분석: https://scikit-learn.org/stable/tutorial/basic/tutorial.html
환경 구성:
또한 아래 단계를 따르기 위해서는 제대로 작동하는 Couchbase 구현이 필요합니다:
-
- 기존 Python v3.8 이상 IDE(이 블로그에서는 VSCode를 사용하겠습니다).
- 컴퓨터에 설치된 도커 데스크톱
-
1그리고 코드 샘플 will be 형식 에 표시 무엇 should be 포함 in 당신의 샘플
- 명령줄 샘플의 형식은 다음과 같습니다. 이탤릭체 를 입력하여 입력해야 하는 항목을 나타냅니다.
- Python 예제에는 필요한 모든 라이브러리가 식별되어 있습니다(sklearn은 scikit-learn에서 가져옴). 해당 라이브러리가 없는 경우 'pip3 설치'
- 이 블로그에 사용된 두 데이터 세트는 kaggle에서 (https://www.kaggle.com/stefanoleone992/rotten-tomatoes-movies-and-critic-reviews-dataset). 이 파일은 다소 큰 파일이므로 링크를 통해 다운로드할 수 있습니다.
카우치베이스 서버 설정하기:
이 섹션에서는 Couchbase Server를 설치하고 구성합니다.
- 터미널 명령줄에서 노드('cb-analytics' 및 'cb')를 생성합니다:
-
1도커 실행 -d --이름 cb-분석 카우치베이스:7.0.2
-
1도커 실행 -d --이름 cb -p 8091-8096:8091-8096 -p 11210-11211:11210-11211 카우치베이스
-
- 인스턴스가 성공적으로 시작되었는지 확인합니다:
- 도커 로그 DB1
- 컨테이너가 시작되었다면 출력은 다음과 같이 시작해야 합니다:
-
1시작 카우치베이스 서버 -- 웹 UI 사용 가능 에서 http://:8091
-
- cb 및 cb-analytics의 로컬 IP 주소를 확인하세요:
-
1도커 검사 --형식 '{{ .NetworkSettings.IPAddress }}' cb
-
1도커 검사 --형식 '{{ .NetworkSettings.IPAddress }}' cb-분석
-
5. 5. http:// localhost:8091 를 클릭하여 카우치베이스 인스턴스 설정을 시작하고 '새 클러스터 설정r'을 클릭하고 정상적으로 설정 마법사를 진행합니다:
- 카우치베이스 서버 이름은 다음과 같습니다. 'cb' 및 'CB-분석' 사용자 이름으로 '관리자' 및 비밀번호 '비밀번호'
- 첫 번째 Couchbase Server 노드(cb)에서 클러스터가 초기화된 후, 다음 단계는 cb-analytics의 Couchbase Server 노드를 클러스터에 추가하는 것입니다.
- Couchbase 웹 콘솔에서 서버 탭으로 이동하여 서버 추가를 클릭합니다. 그러면 '서버 노드 추가' 대화 상자가 열립니다.
- 호스트 이름/IP 주소 필드에 이전에 cb에 대해 캡처한 IP 주소를 입력합니다. 서버 추가를 클릭하여 클러스터 구성에 노드를 추가합니다.
- cb 및 cb-analytics가 클러스터 구성에 성공적으로 추가되면 재밸런싱을 클릭하여 클러스터에서 새 노드를 활성화합니다.
- 버킷 두 개를 생성합니다. 하나는 'movies'용이고 다른 하나는 'movie_reviews'용입니다:
- 이제 단일 호스트의 컨테이너에서 실행되는 멀티노드 Couchbase 클러스터가 생겼습니다. 두 개의 버킷과 Couchbase 인스턴스를 실행할 준비가 되었습니다(자세한 내용이 필요한 경우, 여기 단계에 대해 자세히 알아보기).
경고: 카우치베이스 서버는 개발자 미리 보기 모드여야 합니다. 카우치베이스 서버를 이 모드로 설정하는 것은 복구할 수 없는 변경이므로 프로덕션 환경이나 중요한 시스템에서는 이 변경을 수행하지 않는 것이 좋습니다.
개발자 프리뷰 모드에서 Couchbase Server를 설정하려면 명령줄에서 다음을 실행해야 합니다.
1 |
/opt/카우치베이스/bin/카우치베이스-cli 활성화-개발자-미리 보기 -c localhost:8091 -u 관리자 \ -p 비밀번호 --활성화 |
파일 시스템 설정하기:
- 이 연습 및 교육 데이터 세트의 파일은 다음 링크에서 찾을 수 있습니다. 깃허브 리포지토리
- 콘텐츠를 다른 활동(예: 예제/AnalyticsML)과 분리하기 위해 작업할 폴더를 만들어야 하며, 그 폴더 안에 '파이프라인'.
Docker에서 필요한 Couchbase 서버 환경을 설정하기만 하면 됩니다. 2부에서는 필요한 코드 샘플을 설정하고 함수를 가져온 후 마지막으로 Couchbase Analytics에서 감성 분석 기능을 실행해 보겠습니다.
카우치베이스 애널리틱스에 대해 더 자세히 알고 싶으신가요? 여기에서 ConnectONLINE 세션 전체를 시청하세요:
감사
덕분에 아누즈 코타리, 지난 여름에 이 서비스를 처음 시작하고 시작하게 해준 Couchbase 애널리틱스 서비스의 여름 제품 관리 인턴이었습니다. 덕분에 이드리스 모티왈라, 카우치베이스 애널리틱스 서비스 수석 제품 관리자, 그리고 이안 맥슨보다 기능적인 블로그를 만들기 위해 편집 작업을 해준 Couchbase 분석 서비스의 소프트웨어 엔지니어에게 감사를 표합니다.