Es muy probable que te encuentres con búsquedas vectoriales a menudo, aunque no estés creando aplicaciones con ellas. Descubrir recomendaciones de contenido basadas en contenidos que nos han gustado anteriormente es un caso de uso común de las incrustaciones vectoriales, y uno que muchos de nosotros utilizamos como consumidores de medios de comunicación. Sin embargo, es posible que no te des cuenta de que la búsqueda vectorial puede hacer mucho más que decirnos qué nueva película ver un sábado por la noche. Antes de desplazarse hasta la sección de comentarios de su entrada de blog favorita, descubra cómo la búsqueda vectorial puede ayudarle a decidir si merece la pena su tiempo.
Aplicaciones cotidianas de la búsqueda vectorial
En primer lugar, tomémonos un momento para recordar de qué estamos hablando cuando hablamos de búsqueda vectorial. Una incrustación vectorial es una lista de números que capturan el significado semántico y contextual de un determinado conjunto de datos, ya sea texto, vídeo, imágenes o audio. Esto es posible utilizando modelos de incrustación que se entrenan con lenguaje humano y grandes cantidades de información. Cuando hablamos de búsqueda vectorial, nos referimos a la búsqueda en esas incrustaciones vectoriales para llegar a resultados relevantes y otros casos de uso.
Bien, ahora que tenemos una idea común de lo que estamos hablando, entremos de lleno en el tema que nos ocupa, porque las incrustaciones vectoriales pueden hacer mucho más por nosotros que mostrarnos el próximo programa de repostería que vamos a querer ver.
La búsqueda vectorial puede darnos con gran certeza una idea de la calidad del contenido antes incluso de empezar a leerlo.
Ejemplo práctico: analizar los comentarios de un blog
Todos hemos experimentado secciones de comentarios en artículos que se han desbocado. Los comentarios tienen poco que ver unos con otros, no están relacionados con el artículo al que supuestamente responden y están llenos de spam sobre estafas del tipo "hágase rico rápidamente" u otras similares. Sin embargo, a veces las secciones de comentarios pueden ser útiles. A menudo, los comentarios pueden llevar la conversación más allá del artículo original, ya que los lectores añaden sus propios conocimientos y puntos de vista. He leído muchas entradas de blogs técnicos en las que los comentaristas ofrecían soluciones más actualizadas desde que se publicó el artículo original y me han ahorrado un tiempo valioso a la hora de buscar cómo solucionar un error o trabajar con una biblioteca determinada.
¿Cómo sabemos cuándo una sección de comentarios entra en la primera categoría y debe evitarse, o cuándo entra en la segunda y debemos revisarla?
Convertir la sección de comentarios de una entrada de blog en incrustaciones vectoriales y luego puntuar la similitud contextual y semántica de los comentarios entre sí puede darnos muchas pistas para responder a esa pregunta.
Sin embargo, ¿te preguntas cómo podrías intentarlo? He creado una extensión de Chrome para ti. Esta extensión te dará la oportunidad de experimentar la utilidad de la búsqueda vectorial más allá de las recomendaciones de contenido y en el control de calidad.
Aunque la extensión funciona para los comentarios de los blogs, esta idea va más allá del control de calidad de las entradas de los blogs. ¿Qué tal la detección de fraudes? Revolut, uno de los mayores bancos de Europa, es haciendo exactamente eso para sus clientes de tarjetas de crédito todos los días.
Creación de la extensión de Chrome
¿Quieres probarlo? Aquí tienes una guía paso a paso para ejecutar esta extensión de Chrome y comprobar cómo la búsqueda vectorial puede determinar la calidad general de los comentarios de una entrada de blog antes de que te desplaces por la página.
Como nota de descargo de responsabilidad, esta extensión requiere conocimientos técnicos para su uso, ya que no está construido para la producción en masa. Es decir, tener cierta familiaridad con el trabajo con GitHub y la línea de comandos será muy útil. No necesitas escribir ningún código. Todo está escrito para usted.
La extensión consta de dos partes: la propia extensión y un servidor web backend que procesa los datos. Necesitas que el servidor funcione para obtener resultados, así que vamos a trabajar en ambos.
Configuración del servidor backend
Vaya a este repositorio de GitHub en tu navegador web y clona el repositorio en tu ordenador. Si dispone del GitHub CLI puede ejecutar lo siguiente desde su línea de comandos:
gh repo clone hummusonrails/comments-spam-analyzer-backend
Una vez que tenga el contenido, vaya al directorio en su terminal y cambie el nombre del archivo de variables de entorno de muestra de .env.muestra a .env. El archivo contendrá tus credenciales confidenciales tanto para OpenAI como para Couchbase, así que asegúrate de no compartir ese archivo en ningún sitio web público como GitHub.
-
- Ve a buscar tu API de OpenAI key del portal OpenAI y añádelo al archivo de entorno.
- Crear un nuevo clúster y cubo en Couchbase Capella, la plataforma de base de datos como servicio totalmente gestionada. Capella ofrece una opción de cuenta gratuita para siempre, que es perfecta para usar en esta extensión. Añade los nombres de cluster y bucket a tu archivo de entorno.
- Obtenga sus credenciales de conexión a Couchbase Capella si aún no las ha creado, o bien crear nuevas credenciales desde la interfaz de usuario. Añade las credenciales de conexión a tu archivo de entorno.
- Busca tu Cadena de conexión Couchbase Capella. Añada la cadena de conexión a su archivo de entorno.
Con su archivo de entorno definido, instale las dependencias del servidor ejecutando npm instalar desde la línea de comandos y, a continuación, inicie el servidor ejecutando npm iniciar.
Su servidor backend ya está en marcha y listo para empezar a procesar los datos de los comentarios, convertirlos en incrustaciones vectoriales y proporcionarle una puntuación porcentual de calidad.
Instalar y utilizar la extensión del navegador
Por último, pero no por ello menos importante, vamos a poner en marcha la extensión del navegador.
Al igual que en el paso anterior, vaya primero a este repositorio de GitHub y clona el repositorio. Si tienes la CLI de GitHub también puedes ejecutar el siguiente comando desde tu terminal:
gh repo clone hummusonrails/comments-spam-analyzer
Desde el directorio del proyecto, instale las dependencias ejecutando npm instalar y luego npm build para crear la extensión. Su extensión ya está lista para ser añadida a su navegador web.
Dentro de Chrome, vaya a chrome://extensions y activar Modo Desarrollador. Haga clic en el botón Carga desembalada que aparecerá una vez que haya activado el modo de desarrollador y seleccione el directorio de la extensión en su sistema de archivos.
La extensión se ha diseñado para funcionar con cualquier entrada de blog del popular blog de desarrolladores, https://dev.to/. Todo lo que tiene que hacer es abrir una entrada de blog del sitio y, a continuación, abrir la extensión haciendo clic en la pestaña Extensiones del menú de su navegador y eligiendo la opción Analizador de calidad de comentarios que acaba de cargar.
La primera vez que ejecutes la extensión te preguntará la URL de tu servidor backend. Dado que lo está ejecutando localmente, introduzca https://localhost:3000 y pulse Enviar. A continuación, haga clic en Analizar y espere unos segundos a que se procesen los resultados. Una vez procesados, verás una puntuación porcentual de la calidad de los comentarios de esa entrada de blog determinada por su similitud semántica y contextual. La idea es que cuanto más similares sean los comentarios entre sí desde el punto de vista semántico y contextual, más relacionados estarán con el tema en cuestión.
Reproduce el siguiente vídeo para verlo en acción:
Aplicaciones en el mundo real y más allá
Esta extensión de Chrome es sólo la punta del iceberg de lo que puedes lograr y construir con la búsqueda vectorial. ¿Quieres saber más e inspirarte sobre cómo puedes crear casos de uso innovadores con la búsqueda vectorial? Consulte estos artículos para obtener más información: