The Fastest Way to Identify PII Stored in your Database: A Simple Example Using N1QL, Nodejs and Docker

Una petición frecuente de los clientes es una manera de identificar PII dentro de sus bases de datos. He pensado en mostrar un breve ejemplo de cómo hacerlo.

Historia de usuario: "Quiero identificar números de tarjetas de crédito y de la seguridad social sin cifrar dentro de los documentos para asegurarme de que los desarrolladores no están almacenando cosas que no deberían en la base de datos".

Antecedentes: N1QL tiene un "tokenizador"a partir de la versión 4.6. Combine esto con funciones regex en N1QL, índices secundarios específicos y disponemos de un potente conjunto de herramientas para identificar patrones dentro de la base de datos.

Ejemplo de solución: He creado una consulta para identificar números de la seguridad social sin cifrar almacenados en un bucket (el bucket "por defecto" en este caso). Busco cualquier patrón de dígitos que coincida con xxx-xx-xxxx o xxxxxxxxx. La función TOKENS me permite tratar un documento como una matriz de cadenas. Usé la bandera "specials" para decirle a N1QL que mantenga estas cadenas intactas. Si no utilizo esta opción, se eliminarán los espacios y los guiones y se ignorarán los elementos que sigan a estos caracteres. Luego busco cualquier expresión regular que coincida con un elemento dentro de la matriz de tokens.

SELECT * FROM default
 WHERE ANY v IN
 TOKENS(default, {"specials":true}) SATISFIES
 REGEXP_LIKE(TOSTRING(v),'(\\d{3}-\\d{2}-\\d{4})|(\\b\\d{9}\\b)')
END

SELECT * FROM default

WHERE ANY v IN

TOKENS(default, {"specials":true}) SATISFIES

REGEXP_LIKE(TOSTRING(v),'(\\d{3}-\\d{2}-\\d{4})|(\\b\\d{9}\\b)')

END

La identificación de números de tarjetas de crédito sin cifrar almacenados en un cubo utiliza el mismo enfoque:

SELECT * FROM default
 WHERE ANY v IN
 TOKENS(default, {"specials":true}) SATISFIES
 REGEXP_LIKE(TOSTRING(v),'(\\d{4}-\\d{4}-\\d{4}-\\d{4}))|(\\b\\d{16}\\b)')
END

SELECT * FROM default

WHERE ANY v IN

TOKENS(default, {"specials":true}) SATISFIES

REGEXP_LIKE(TOSTRING(v),'(\\d{4}-\\d{4}-\\d{4}-\\d{4}))|(\\b\\d{16}\\b)')

END

Para acelerar el tiempo de procesamiento, utilizo índices secundarios optimizados en memoria (MOI) para las consultas anteriores. Cada mutación en Couchbase se envía asíncronamente al proyector del índice. Los MOI tienen la ventaja añadida de actualizar la información contenida en el índice cada 20 ms. Los índices también hacen uso de la tokenización.

CREATE INDEX `find_pii_ssn` ON `default`(
 (DISTINCT (ARRAY `v` FOR `v` IN
 TOKENS(self, {"specials": true}) END)))
 WHERE ANY `v` IN
 TOKENS(self, {"specials": true}) SATISFIES REGEXP_LIKE(TO_STRING(`v`), "(\\d{3}-\\d{2}-\\d{4})|(\\b\\d{9}\\b)")
 END

CREATE INDEX `find_pii_ssn` ON `default`(

(DISTINCT (ARRAY `v` FOR `v` IN

TOKENS(self, {"specials": true}) END)))

WHERE ANY `v` IN

TOKENS(self, {"specials": true}) SATISFIES REGEXP_LIKE(TO_STRING(`v`), "(\\d{3}-\\d{2}-\\d{4})|(\\b\\d{9}\\b)")

END

...y para tarjetas de crédito no encriptadas

CREATE INDEX `find_pii_ccn` ON `default`(
 (DISTINCT (ARRAY `v` FOR `v` IN
 TOKENS(self, {"specials": true}) END)))
 WHERE any `v` IN
 TOKENS(self, {"specials": true}) SATISFIES REGEXP_LIKE(TO_STRING(`v`), "(\\d{4}-\\d{4}-\\d{4}-\\d{4}))|(\\b\\d{16}\\b)")
 END

CREATE INDEX `find_pii_ccn` ON `default`(

(DISTINCT (ARRAY `v` FOR `v` IN

TOKENS(self, {"specials": true}) END)))

WHERE any `v` IN

TOKENS(self, {"specials": true}) SATISFIES REGEXP_LIKE(TO_STRING(`v`), "(\\d{4}-\\d{4}-\\d{4}-\\d{4}))|(\\b\\d{16}\\b)")

END

Pruébalo: Docker es mi forma favorita de crear un entorno de desarrollo. Un repositorio fácil de usar para los ejemplos anteriores está en github: n1ql-query-nodejs . Utiliza docker-compose para construir dos servicios:

Un servicio de clúster Couchbase de nodo único.
Un servicio nodejs para aprovisionar el clúster Couchbase con 250.000 perfiles de usuario e índices para varios ejemplos, incluida la búsqueda de PII sin cifrar.

Todd Greenstein

Comparte este artículo

Platform

Self-Managed

Services

Capabilities

Why Couchbase?

Migrate to Capella

By Use Case

By Industry

By Application Need

Popular Docs

By Developer Role

Quickstart

Resource Center

About

Partnerships

Our Services

Partners: Register a Deal

Ready to register a deal with Couchbase?

Marriott

La forma más rápida de identificar PII almacenados en su base de datos: Un ejemplo sencillo usando N1QL, Nodejs y Docker

Recibe actualizaciones del blog de Couchbase en tu bandeja de entrada

Autor

Publicado por Todd Greenstein

Deja un comentario Cancelar respuesta

¿Listo para empezar con Couchbase Capella?

Empezar a construir

Utilizar Capella gratis

Póngase en contacto