Tras el apoyo a Analytics colecciones externas para Amazon Web Services (AWS) Simple Storage Service (S3) en el Lanzamiento de Couchbase Server 6.6Couchbase se complace en anunciar la próxima compatibilidad y disponibilidad general de Azure Blob Storage para colecciones externas de Analytics. Esto permitirá a los clientes combinar datos de fuentes externas (por ejemplo, AWS S3 y Azure Blob Storage) con datos locales (Analytics Collections), así como con datos remotos de Couchbase (Recogidas analíticas a distancia).

Caso práctico del cliente

Algunos clientes utilizan Azure Blob Storage para reducir los costes de almacenamiento y almacenar grandes volúmenes de datos (por ejemplo, varios años de datos históricos, datos empresariales offline para aprendizaje automático, revisiones de productos, etc.). Han expresado su deseo de combinar, consultar y utilizar los datos de Azure Blob Storage en tiempo real para poner estos datos a disposición de los usuarios empresariales para el análisis de datos. Lea aquí más información sobre otros Casos prácticos de análisis

¿Cómo funcionan las colecciones externas de Analytics?

Esta sección se trató anteriormente en Blog de conjuntos de datos externos de AWS S3 Analytics. Si ya ha utilizado colecciones externas de Analytics mediante S3, esta parte ya le resultará familiar.

Las colecciones de External Analytics proporcionan la capacidad de consultar y analizar dinámicamente datos que residen en fuentes externas (por ejemplo, AWS S3 y Azure Blob Storage), permitiendo a los usuarios combinar fácilmente datos en tiempo real tanto desde dentro como desde fuera de sus nodos de Couchbase Analytics. Esto se consigue en tres sencillos pasos:

    1. Establecer un enlace externo utilizando un Llamada a la API REST, interfaz de línea de comandos (CLI)o Couchbase Server Workbench.
    2. Cree una colección Analytics externa en el enlace externo.
    3. Consultar la colección Analytics mediante SQL++ para análisis (o utilice Tableau con Couchbase Analytics Conector Tableau).

Veamos un ejemplo sencillo. iMaz, una empresa de comercio electrónico, vende productos de consumo online. Sus datos de pedidos, productos y usuarios se almacenan en un clúster de Couchbase con servicios de datos y análisis (en conjuntos separados de nodos del clúster). Utilizan el servicio Analytics para ejecutar consultas ad hoc y complejas para analizar su negocio. iMaz también almacena las reseñas de sus productos en Azure Blob Storage, y les gustaría combinar y analizar los 3 productos más valorados utilizando el servicio Couchbase Analytics.

Muestra de datos del producto:

Muestra de datos de revisión:

Repasemos cada uno de los tres pasos anteriores con un ejemplo de código de configuración junto con un archivo SQL consulta. Aquí tiene también un vídeo de demostración:

Paso 1: Configurar los enlaces

Crearemos un enlace Azure Blob Storage utilizando una etiqueta Llamada a la API REST o utilizando el Couchbase Server Workbench. Tendremos que proporcionar:

    • Nombre de host del servicio de análisis
    • Credenciales de usuario de Analytics
    • Nombre del enlace Azure Blob Storage, en este caso myAzureLink
    • Nombre del ámbito (anteriormente conocido como dataverse), en este caso Por defecto 
    • Tipo de enlace (AzureBlob)
    • Credenciales (sólo se permite una):
      • Anónimo (sin credenciales)
      • Clave compartida, o
      • Firma de acceso compartido, o
      • Id. de identidad gestionada, o
      • Secreto de cliente de Azure Active Directory, o
      • Certificado de cliente de Azure Active Directory (y contraseña del certificado de cliente si está protegido por contraseña)

A continuación se muestra una instantánea de cómo crear el enlace AzureBlob utilizando el método de autenticación Shared Key utilizando Couchbase Server Workbench:

Create AzureBlob links form for Couchbase Setup AzureBlob links form for Couchbase

Para obtener más información sobre los métodos de autenticación compatibles con Azure Blob, consulte Enlace Azure Blob.

Paso 2: Crear una colección externa de Analytics

Una vez creados los enlaces externos, se pueden crear colecciones Analytics externas utilizando sentencias DDL que hagan referencia a los nombres de los enlaces creados anteriormente. A continuación se muestra la sentencia DDL para crear la colección Analytics en el enlace Azure Blob Storage creado anteriormente:

Donde los ajustes anteriores reflejan lo siguiente:

    • azureproductreviews: es el nombre de la colección externa de Analytics.
    • cb-analytics-7-0-0-demo: es el nombre del contenedor Azure Blob del que está leyendo la colección externa de Analytics.
    • myAzureLink: es el nombre del enlace en el que se crea la colección externa (creada en el paso anterior).
    • reseñas: es el prefijo utilizado para leer los datos. Por lo tanto, sólo los archivos bajo el prefijo reseñas se leerá el prefijo.
    • formato: es la propiedad que indica a Analytics que los datos que se están leyendo son del tipo json.
    • incluir (o excluir): es la propiedad que indica a Analytics que aplique el filtro a los archivos, de modo que sólo se incluyan los nombres de archivo que cumplan la condición del filtro,

Como se muestra más arriba, una vez creados los enlaces, la creación de la colección Analytics externa es independiente del tipo de enlace. Se pueden crear varias colecciones Analytics en el mismo enlace externo para que apunten a distintos contenedores de datos externos.

En la actualidad, la función de recopilación externa de Analytics admite la función JSON, CSV (valores separados por comas), y TSV (valores separados por tabuladores), incluidos los comprimidos. GZIP (nombres de archivo terminados en .gz o .gzip). Tanto el formato CSV como el TSV requieren que se especifique una definición de tipo en línea (más información al respecto más adelante). En futuras versiones se admitirán otros formatos de archivo, como parquet.

Encontrará más información sobre las definiciones de tipos en línea en aquí.

Paso 3: Consulta con SQL

Como último paso, podemos ejecutar la consulta SQL++ que se muestra a continuación. Une la colección de análisis de productos existente de Couchbase Analytics Service con los datos de reseñas de productos de Azure Blob Storage para recuperar los 3 productos mejor valorados.

Aquí están los Resultados de la consulta JSON:

Esto es genial - ahora somos capaces de combinar y analizar los datos externos ubicados en Azure Blob Storage utilizando el Servicio de Análisis Couchbase. Fíjate en los pocos pasos que hemos necesitado para poder analizar nuestros datos; no hubo ETL y los datos estaban disponibles de inmediato. Además, si los datos cambian, veremos esos cambios cuando volvamos a ejecutar la consulta, ya que se accede a los datos externos bajo demanda en el momento de la ejecución de la consulta.

Puede que ahora te estés preguntando: "¿Cómo habría funcionado esto si el formato del archivo de reseñas de Azure Blob Storage hubiera sido de tipo CSV en lugar de JSON?". La respuesta es sencilla; simplemente habría definido su colección externa de Analytics en consecuencia. A continuación, mostramos cómo quedaría la sentencia create external Analytics collection de arriba para soportar CSV:

Observe cómo la sentencia create incluye ahora información de tipo en línea. El tipo es necesario para indicar a Analytics cómo interpretar los datos CSV (por ejemplo, no sólo como cadenas) para transformarlos internamente en forma JSON.

La consulta SQL++ sigue siendo exactamente la misma. Así es, requiere ningún cambio¡! Las colecciones de análisis externos son fáciles de configurar, flexibles y sencillas de utilizar gracias a la potencia del lenguaje SQL++. Los usuarios pueden desarrollar consultas ad hoc complejas para la exploración interactiva de datos, responder a nuevas preguntas de negocio y combinar datos externos con datos de Enlaces remotos para involucrar también a otras fuentes de datos Couchbase.

Beneficios

Estas son algunas de las principales ventajas de utilizar colecciones externas de Analytics:

    1. Enriquecimiento de datos. Los datos de Couchbase pueden ahora enriquecerse con información adicional obtenida de datos que residen en almacenes de datos externos.
    2. Acceso dinámico a los datos. Los datos más actuales se pueden recuperar, transmitir, combinar y analizar dinámicamente desde cualquier contenedor S3 o Azure Blob Storage (DP) en cualquier región durante la ejecución de consultas de Analytics.
    3. Procesamiento paralelo de consultas. Los usuarios pueden configurar y organizar el acceso a los datos externos mediante la arquitectura de procesamiento de consultas de procesamiento paralelo masivo (MPP) de Analytics para obtener una respuesta rápida a las consultas que implican datos externos.

Próximos pasos

Espero que estés entusiasmado con esta nueva funcionalidad de Couchbase Analytics 7.1. Las colecciones de External Analytics desbloquean el valor de los datos externos en vivo y archivados que residen en almacenes de datos externos. Los usuarios pueden combinar y analizar datos en tiempo real, procedentes de AWS S3, Azure Blob Storage y el servicio Couchbase Analytics. Esto permite realizar análisis de datos más rápidos y exhaustivos y tomar decisiones ágiles.

Más información sobre las colecciones externas de Analytics DDL.

Couchbase external Analytics collections

Aquí tienes más recursos que te ayudarán a empezar:

Agradecimientos

Este artículo ha sido escrito en colaboración con Idris Motiwala. Idris es Director Principal de Producto, Analítica en Couchbase con más de 20 años de experiencia en diseño, desarrollo y ejecución de productos de software tanto en Fortune 500 como en startups liderando equipos en transformación digital, nube y analítica. Idris tiene una Maestría en Gestión de Tecnología y certificaciones en gestión de productos .

Autor

Publicado por Hussain Towaileb, Ingeniero de Software

Hussain Towaileb es ingeniero de software y trabaja en Couchbase Analytics. Se centra en enlaces externos y conjuntos de datos externos.

Dejar una respuesta