Conectores

Turbine seu aplicativo RAG com o Couchbase Vector Search e o Unstructured.io

Hoje, temos o prazer de anunciar o lançamento do Couchbase e do Unstructured.io que agiliza o processo de ingestão de dados não estruturados em seu pipeline RAG criado com base no Couchbase como o armazenamento de vetores. Com esse conector, agora você pode converter documentos não estruturados e pouco estruturados em arquivos JSON e prepará-los para o consumo por aplicativos RAG por meio da geração de embeddings vetoriais em apenas algumas linhas de código.

Por que a ingestão de dados não estruturados é importante para os desenvolvedores? 

Uma quantidade esmagadora de dados corporativos não é estruturada e é improvável que isso mude em um futuro próximo. A presença de dados em formatos não estruturados tem implicações para os desenvolvedores que vão além do tempo e do custo. Isso significa que a tomada de decisões nas empresas é baseada na quantidade limitada de dados estruturados e consumíveis, em vez de todos os dados que residem neles. Além disso, isso significa que uma grande variedade de fluxos de trabalho empresariais (internos e voltados para o cliente) exige intervenção manual, o que os torna mais caros, mais lentos e mais propensos a erros. É provável que esse problema se torne mais grave à medida que as pegadas de dados corporativos aumentem.

Como os dados não estruturados são aproveitados pelos desenvolvedores?

Uma das maneiras mais eficazes de aproveitar dados não estruturados é ingeri-los em um pipeline RAG, tornando os dados disponíveis para recuperação por meio de pesquisas de vetores. Isso tem uma ampla gama de aplicações em vários setores. Os aplicativos RAG podem ser aproveitados para aumentar a eficiência operacional, facilitando o acesso a documentos mais relevantes, o que resulta em tempos de resolução mais rápidos e custos mais baixos. Alguns dos casos de uso que podem ser resolvidos são: 

    1. Permitir que as equipes de suporte ao cliente de todos os setores encontrem documentos relevantes para a solução de problemas
    2. Permitir que os profissionais da área médica extraiam artigos relevantes e registros de pacientes armazenados em bancos de dados de documentos para auxiliar no diagnóstico e no planejamento do tratamento
    3. Sistemas de recomendação que aproveitam os dados do cliente para sugerir o produto mais adequado

Figura 1. Pipeline de ingestão de dados não estruturados com unstructured.io e Capella VectorDB

Qual é a maneira atual de processar dados não estruturados?

A maneira atual de realizar isso (ingestão de dados não estruturados para aplicativos RAG) com o Couchbase Capella exigiria que os desenvolvedores escrevessem aplicativos para se conectar a um extrator de dados não estruturados, analisassem sua saída, dividissem-na em partes e a enviassem para um modelo de incorporação para gerar vetores que, em seguida, teriam de ser enviados para um banco de dados de vetores no Couchbase Capella. 

Como o nosso conector aprimora o método atual de ingestão de dados não estruturados? 

Os conectores unstructured.io - Couchbase simplificam o processo de conexão dos dois elementos primários do pipeline de ingestão mencionados anteriormente, facilitando:

    • Converta dados de texto não estruturados em documentos JSON estruturados
    • Gerar os vetores correspondentes
    • Insira-os no Couchbase Capella

O conector de fonte ajuda a buscar dados do Couchbase Capella antes de serem divididos em pedaços (e, opcionalmente, vetorizados), enquanto o conector de destino ajuda a ingerir dados processados do unstructured.io no Couchbase Capella.

O Capella é um banco de dados vetorial de alto desempenho que permite configurar, indexar e consultar rapidamente um banco de dados vetorial. Veja como você pode aproveitar os conectores para começar a processar seus documentos com apenas algumas linhas de código. 

Etapa 1: Pré-requisitos

Antes de começar a usar o conector, você precisará atender a alguns pré-requisitos. Você precisará de:

Etapa 2: Defina a origem de seus dados não estruturados e o destino

Depois que os pré-requisitos estiverem estabelecidos, você poderá definir a origem dos documentos que deseja processar e usar como entradas para o pipeline RAG de produção. O conector oferece suporte à ingestão de várias fontes: Couchbase, diretórios locais, buckets S3 e outros serviços de armazenamento. Unstructured.io suporta uma ampla variedade de formatos de documentos não estruturados incluindo PDFs, arquivos de imagem (JPEG, PNG), documentos de texto (DOCX, DOC), e-mails, planilhas e formatos de arquivo de apresentação (PPT). 

Da mesma forma, defina o local intermediário que será usado para armazenar a saída gerada pelo unstructured.io antes que o texto seja vetorizado. Pode ser uma coleção em um banco de dados escalável e de alto desempenho no Couchbase ou em qualquer outro serviço de armazenamento que você esteja usando atualmente. Em seguida, você pode definir a coleção do banco de dados Vector no Couchbase, onde os documentos JSON que contêm o texto original, os metadados e o vetor de incorporação correspondente serão armazenados. 

Etapa 3: Defina sua estratégia de fragmentação e selecione um modelo de incorporação para a geração de incorporação de vetores

Depois que os locais de entrada e saída forem definidos, você poderá selecionar uma das estratégias de fragmentação suportado por unstructured.io e escolher um modelo de incorporação de sua escolha. O Unstructured.io suporta modelos de incorporação de vários provedores, como Huggingface, OpenAI e Bedrock, entre outros. 

Etapa 4: Execute seu aplicativo!

Teste seu aplicativo. Você deverá ser capaz de visualizar os novos documentos JSON estruturados inseridos em sua coleção Capella após todas as etapas de processamento executadas via unstructured.io. Abaixo está um exemplo dos arquivos que convertemos de um PDF para JSON e ingerimos em uma coleção do Couchbase Capella. Para obter um guia passo a passo, juntamente com o código sobre como fazer isso, confira nosso tutorial completo aqui. Você também pode usar nosso notebook para acompanhar o processo.

Exemplo de documento não estruturado:

Saída de unstructured.io:

Documentos ingeridos no Capella:

Agora, você pode executar seu aplicativo para processar documentos de texto não estruturados, identificar os componentes, extraí-los como documentos JSON e gerar embeddings vetoriais antes de inseri-los em sua coleção Capella.

Recursos



 

Compartilhe este artigo
Receba atualizações do blog do Couchbase em sua caixa de entrada
Esse campo é obrigatório.

Author

Posted by Vishwa Yeruru - Gerente sênior de produtos

Deixe um comentário

Pronto para começar a usar o Couchbase Capella?

Iniciar a construção

Confira nosso portal do desenvolvedor para explorar o NoSQL, procurar recursos e começar a usar os tutoriais.

Use o Capella gratuitamente

Comece a trabalhar com o Couchbase em apenas alguns cliques. O Capella DBaaS é a maneira mais fácil e rápida de começar.

Entre em contato

Deseja saber mais sobre as ofertas do Couchbase? Deixe-nos ajudar.