Pesquisa de vetores

Integrar a inferência LLM rápida do Groq com a pesquisa vetorial do Couchbase

Com tantos LLMs sendo lançados, muitas empresas estão se concentrando em aumentar as velocidades de inferência de modelos de linguagem grandes com hardware especializado e otimizações para poder dimensionar os recursos de inferência desses modelos. Uma dessas empresas que está fazendo grandes avanços nesse espaço é a Groq.

Nesta postagem do blog, exploraremos o Groq e como integrar os recursos rápidos de inferência LLM do Groq com o Couchbase Vector Search para criar aplicativos RAG rápidos e eficientes. Também compararemos o desempenho de diferentes soluções LLM, como OpenAI e Gemini, e como elas se comparam às velocidades de inferência do Groq.

O que é o Groq?

A Groq, Inc. é uma empresa americana de tecnologia especializada em inteligência artificial, particularmente conhecida por seu desenvolvimento da Unidade de Processamento de Linguagem (LPU), um circuito integrado de aplicativo específico (ASIC) projetado para acelerar as tarefas de inferência de IA. Ele foi projetado especificamente para aprimorar Modelos de linguagem grandes (LLMs) com recursos de inferência de latência ultrabaixa. As APIs do Groq Cloud permitem que os desenvolvedores integrem LLMs de última geração, como o Llama3 e o Mixtral 8x7B, em seus aplicativos.

O que isso significa para os desenvolvedores? Significa que as APIs do Groq podem ser perfeitamente integradas a aplicativos que exigem processamento de IA em tempo real com necessidades de inferência rápida.

Como começar a usar as APIs do Groq

Para aproveitar o poder das APIs do Groq, a primeira etapa é gerar uma chave de API. Esse é um processo simples que começa com a inscrição no console do Groq Cloud.


Depois de se inscrever, navegue até a página Chaves de API seção. Aqui, você terá a opção de criar uma nova chave de API.

A chave de API permitirá que você integre modelos de linguagem grandes e de última geração, como Llama3 e Mixtral em seus aplicativos. Em seguida, integraremos o modelo de bate-papo do Groq com LangChain em nosso aplicativo.

Usando o Groq como LLM

Você pode aproveitar a API do Groq como um dos provedores de LLM no LangChain:

Quando você instanciar o ChatGroq você pode passar a temperatura e o nome do modelo. Você pode dar uma olhada no objeto modelos atualmente suportados no Groq.

Criação de aplicativo RAG com Couchbase e Groq

O objetivo é criar um aplicativo de bate-papo que permita aos usuários fazer upload de PDFs e conversar com eles. Usaremos o Couchbase Python SDK e o Streamlit para facilitar o upload de PDFs para o Couchbase VectorStore. Além disso, exploraremos como usar o RAG para responder a perguntas baseadas em contexto a partir de PDFs, tudo isso com a tecnologia Groq.

Você pode seguir as etapas mencionadas em este tutorial sobre como configurar um aplicativo Streamlit RAG alimentado pelo Couchbase Vector Search. Neste tutorial, usamos o Gemini como LLM. Substituiremos a implementação do Gemini pelo Groq.

Comparação do desempenho do Groq

Neste blog, também comparamos o desempenho de diferentes provedores de LLM. Para isso, criamos um menu suspenso para que o usuário possa selecionar o provedor de LLM que deseja usar para o aplicativo RAG. Neste exemplo, estamos usando Gemini, OpenAI, Ollama e Groq como os diferentes provedores de LLM. Há um grande lista de provedores de LLM suportados pelo LangChain

Para destacar a velocidade de inferência rápida do Groq, criamos uma maneira de calcular o tempo de inferência para a resposta LLM. Isso mede e registra o tempo gasto para cada geração de resposta. Os resultados são exibidos em uma tabela na barra lateral, mostrando o modelo usado e o tempo gasto para cada consulta, comparando diferentes provedores de LLM, como OpenAI, Ollama, Gemini e Groq; por meio dessas comparações, verificou-se que o LLM da Groq forneceu consistentemente os tempos de inferência mais rápidos. Essa referência de desempenho permite que os usuários vejam a eficiência de vários modelos em tempo real.


Como você pode ver nos resultados, a velocidade de inferência do Groq é a mais rápida em comparação com os outros provedores de LLM.

Conclusão

A LangChain é uma excelente estrutura de código aberto que oferece muitas opções possíveis para armazenamentos de vetores e LLM de sua escolha para criar aplicativos com tecnologia de IA. O Groq está na vanguarda por ser um dos mecanismos de inferência LLM mais rápidos e combina bem com aplicativos alimentados por IA que precisam de inferência rápida e em tempo real. Assim, com o poder de inferência rápida do Groq e do Couchbase Vector Search, você pode criar aplicativos RAG prontos para produção e dimensionáveis.

Compartilhe este artigo
Receba atualizações do blog do Couchbase em sua caixa de entrada
Esse campo é obrigatório.

Autor

Postado por Shivay Lamba, desenvolvedor evangelista

Deixe um comentário

Pronto para começar a usar o Couchbase Capella?

Iniciar a construção

Confira nosso portal do desenvolvedor para explorar o NoSQL, procurar recursos e começar a usar os tutoriais.

Use o Capella gratuitamente

Comece a trabalhar com o Couchbase em apenas alguns cliques. O Capella DBaaS é a maneira mais fácil e rápida de começar.

Entre em contato

Deseja saber mais sobre as ofertas do Couchbase? Deixe-nos ajudar.