Há uma boa chance de você encontrar a pesquisa vetorial regularmente, mesmo que não esteja criando aplicativos com ela. A descoberta de recomendações de conteúdo com base em conteúdos anteriores que foram apreciados é um caso de uso comum de embeddings vetoriais e que muitos de nós utilizamos como consumidores de mídia. No entanto, talvez você não saiba que a pesquisa vetorial pode fazer muito mais do que nos dizer qual filme novo assistir em um sábado à noite. Antes de rolar até a seção de comentários da sua publicação favorita no blog, descubra como a pesquisa vetorial pode ajudá-lo a decidir se vale a pena perder seu tempo.
Aplicações cotidianas da pesquisa vetorial
Primeiro, vamos nos lembrar do que estamos falando quando nos referimos à pesquisa vetorial. Uma incorporação de vetor é uma lista de números que capturam o significado semântico e contextual de um determinado conjunto de dados, seja ele texto, vídeo, imagens ou áudio. Isso é possível usando modelos de incorporação que são treinados em linguagem humana e em grandes quantidades de informações. Quando falamos de pesquisa vetorial, estamos falando de pesquisar essas incorporações vetoriais para chegar a resultados relevantes e outros casos de uso.
Ótimo, agora que temos um entendimento compartilhado sobre o que estamos discutindo, vamos nos aprofundar no tópico em questão, porque os vector embeddings podem fazer muito mais por nós do que apenas nos mostrar o próximo grande programa de culinária que vamos querer assistir.
A pesquisa vetorial pode, com grande certeza, nos dar uma ideia da qualidade do conteúdo antes mesmo de começarmos a lê-lo.
Exemplo prático: análise de comentários em blogs
Todos nós já passamos por seções de comentários em artigos que ficaram fora de controle. Os comentários têm pouco a ver uns com os outros, não estão relacionados ao artigo ao qual supostamente estão respondendo e estão repletos de postagens de spam sobre esquemas de enriquecimento rápido ou outros golpes semelhantes. Entretanto, às vezes, as seções de comentários podem ser úteis. Muitas vezes, os comentários podem levar uma conversa além do artigo original, com os leitores acrescentando seus próprios conhecimentos e pontos de vista. Li muitas publicações de blogs técnicos em que os comentaristas ofereceram soluções mais atualizadas desde que o artigo original foi publicado e me pouparam um tempo valioso ao pesquisar como corrigir um bug ou trabalhar com uma determinada biblioteca.
Como sabemos quando uma seção de comentários se enquadra na primeira categoria e deve ser evitada, ou quando se enquadra na segunda categoria e devemos verificá-la?
Converter a seção de comentários de uma publicação de blog em embeddings vetoriais e, em seguida, pontuar a similaridade contextual e semântica dos comentários entre si pode nos dar muitas informações para responder a essa pergunta.
Mas está se perguntando como você pode tentar fazer isso? Criei uma extensão do Chrome só para você! Essa extensão lhe dará a oportunidade de experimentar a utilidade da pesquisa vetorial muito além das recomendações de conteúdo e do controle de qualidade.
Embora a extensão funcione para comentários em blogs, essa ideia vai além do controle de qualidade de publicações em blogs. Que tal a detecção de fraudes? O Revolut, um dos maiores bancos da Europa, está fazendo exatamente isso para seus clientes de cartão de crédito todos os dias.
Criando a extensão do Chrome
Quer dar uma olhada? Aqui está um guia passo a passo para executar essa extensão do Chrome e ver como a pesquisa de vetores pode determinar a qualidade geral dos comentários de publicações de blog antes mesmo de você rolar a página para baixo.
Como uma nota de isenção de responsabilidade, essa extensão requer conhecimento técnico para ser usada, pois não foi criada para produção em massa. Ou seja, ter alguma familiaridade com o trabalho com o GitHub e a linha de comando será muito útil. Você não precisa escrever nenhum código. Tudo está escrito para você.
A extensão vem em duas partes: a própria extensão e um servidor da Web de back-end que processa os dados. Você precisa ter o servidor em execução para obter resultados, portanto, vamos trabalhar em ambos.
Configuração do servidor backend
Navegue até este repositório do GitHub em seu navegador da Web e clone o repositório em seu computador. Se você tiver o CLI do GitHub você pode executar o seguinte em sua linha de comando:
gh repo clone hummusonrails/comments-spam-analyzer-backend
Quando tiver o conteúdo, vá para o diretório em seu terminal e renomeie o arquivo de variáveis de ambiente de amostra de .env.sample para .env. O arquivo conterá suas credenciais confidenciais para o OpenAI e o Couchbase, portanto, certifique-se de não compartilhar esse arquivo em nenhum site público como o GitHub.
-
- Vá buscar seu Chave da API da OpenAIy do portal do OpenAI e adicione-o ao arquivo de ambiente.
- Criar um novo grupo e balde no Couchbase Capella, o banco de dados totalmente gerenciado como uma plataforma de serviço. O Capella oferece uma opção de conta gratuita para sempre, que é perfeita para usar nessa extensão. Adicione os nomes do cluster e do bucket ao seu arquivo de ambiente.
- Obtenha suas credenciais de conexão do Couchbase Capella, caso ainda não as tenha criado, ou criar novas credenciais na interface do usuário. Adicione as credenciais de conexão ao seu arquivo de ambiente.
- Obtenha seu Cadeia de conexão do Couchbase Capella. Adicione a string de conexão ao seu arquivo de ambiente.
Com seu arquivo de ambiente definido, instale as dependências do servidor executando npm install na linha de comando e, em seguida, inicie o servidor executando npm start.
Seu servidor de back-end agora está em funcionamento e pronto para começar a processar os dados dos comentários, convertendo-os em incorporações de vetores e fornecendo a você uma pontuação de porcentagem de qualidade.
Instalar e usar a extensão do navegador
Por último, mas certamente não menos importante, vamos colocar a extensão do navegador em funcionamento.
Como na etapa anterior, primeiro navegue até este repositório do GitHub e clonar o repositório. Se você tiver a CLI do GitHub, também poderá executar o seguinte comando no terminal:
gh repo clone hummusonrails/comments-spam-analyzer
No diretório do projeto, instale as dependências executando npm install e depois compilação npm para criar a extensão. Sua extensão agora está pronta para ser adicionada ao navegador da Web.
Dentro do Chrome, navegue até chrome://extensions e ativar Modo de desenvolvedor. Clique no botão Carga não embalada que será exibido depois que você ativar o modo de desenvolvedor e selecionar o diretório da extensão em seu sistema de arquivos.
A extensão foi criada para funcionar com qualquer publicação de blog no popular blog de desenvolvedores, https://dev.to/. Tudo o que você precisa fazer é abrir uma postagem de blog do site e, em seguida, abrir a extensão clicando na guia Extensões no menu do navegador e escolhendo a opção Analisador de qualidade de comentários que você acabou de carregar.
Na primeira vez em que você executar a extensão, ela solicitará o URL do seu servidor de back-end. Como você está executando-a localmente, digite http://localhost:3000 e pressione Enviar. Em seguida, você pode clicar em Analisar e aguardar alguns segundos para que os resultados sejam processados. Depois de processados, você verá uma pontuação percentual da qualidade dos comentários nesse post do blog, conforme determinado pela similaridade semântica e contextual. A ideia é que quanto mais os comentários forem contextual e semanticamente semelhantes entre si, mais relevantes serão os comentários para o tópico em questão.
Assista ao vídeo a seguir para vê-lo em ação:
Aplicativos do mundo real e muito mais
Essa extensão do Chrome é apenas a ponta do iceberg do que você pode realizar e criar com a pesquisa vetorial! Quer saber mais e se inspirar em como você pode criar casos de uso inovadores com a pesquisa vetorial? Dê uma olhada nestes artigos para ler mais: