JSON is Case Sensitive. You Don't Have to Be.

Un RoSe en cualquier otro caso olería igual de dulce. William Shakespeare

Debes haber aprendido normas de capitalización en su escuela de gramática, pero la búsqueda en el mundo real no es tan sensible a las mayúsculas. Charles de Gaulle utiliza minúsculas para la "de" intermedia, Tony La Russa utiliza mayúsculas para "La" - puede haber razones etimológicas para ello, pero es poco probable que su agente de servicio al cliente lo recuerde. Las bases de datos tienen varias sensibilidades. SQL, por defecto, no distingue entre mayúsculas y minúsculas en los identificadores y palabras clave, pero sí en los datos. JSON distingue entre mayúsculas y minúsculas tanto en los nombres de campo como en los datos. Lo mismo ocurre con N1QL. JSON puede tener lo siguiente. N1QL select-join-proyectará cada campo y valor como un campo y valor distintos.

SELECT {"City": "San Francisco", "city": "san francisco", "citY": "saN fanciscO"}

[
  {
    "$1": {
      "City": "San Francisco",
      "citY": "saN fanciscO",
      "city": "san francisco"
    }
  }
]

SELECCIONE {"Ciudad": "San Francisco", "ciudad": "san francisco", "citY": "saN fanciscO"}

[

{

"$1": {

"Ciudad": "San Francisco",

"citY": "saN fanciscO",

"ciudad": "san francisco"

}

]

En este artículo hablaremos de cómo hacer frente a distinción entre mayúsculas y minúsculas en los datos. Sus referencias de campo siguen siendo distingue entre mayúsculas y minúsculas. Si usa el caso incorrecto para el nombre del campo, N1QL asume que este es un campo faltante y asigna el valor FALTANTE a ese campo.

Consideremos un predicado simple en N1QL para buscar todas las permutaciones de casos.

WHERE name in [“joe”, “joE”, “jOe”, “Joe”, “JoE”, “JOe”, “JOE”]

1	DONDE nombre en ["joe", "joE", "jOe", "Joe", "JoE", "JOe", "JOE"]

Esto requiere siete búsquedas diferentes en el índice. "John" requiere más búsquedas en el índice y "Fitzerald" aún más. Existe una forma estándar de hacerlo. Basta con crear un índice bajando el caso del campo y el literal.

WHERE LOWER(name) = “joe”

1	DONDE BAJO(nombre) = "joe"

Esta búsqueda puede hacerse más rápida creando el índice con la expresión correcta.

CREATE INDEX i1 ON customer(LOWER(name));

1	CREAR ÍNDICE i1 EN cliente(BAJO(nombre));

Asegúrese de que su consulta está recogiendo el índice correcto y empuja el predicado a la exploración del índice. Y esa es la idea. Las consultas que tienen predicados empujados a la exploración del índice se ejecutan mucho más rápido que las consultas que no. Esto es cierto para los predicados y cierto empuje agregado también.

EXPLAIN SELECT * FROM `customer` WHERE LOWER(name) = "joe";

      {
        "#operator": "IndexScan3",
        "index": "i1",
        "index_id": "c117bdf583c2e276",
        "index_projection": {
          "primary_key": true
        },
        "keyspace": "customer",
        "namespace": "default",
        "spans": [
          {
            "exact": true,
            "range": [
              {
                "high": "\"joe\"",
                "inclusion": 3,
                "low": "\"joe\""
              }
            ]
          }
        ],

EXPLICAR SELECCIONE * DESDE cliente DONDE BAJO(nombre) = "joe";

{

"#operator": "IndexScan3",

"índice": "i1",

"index_id": "c117bdf583c2e276",

"proyección_índice": {

"clave_primaria": verdadero

"espacio clave": "cliente",

"espacio de nombres": "por defecto",

"vanos": [

{

"exacto": verdadero,

"rango": [

{

"alto": "\"joe\"",

"inclusión": 3,

"bajo": "\"joe\""

}

]

}

Insensibilidad a los casos en un escenario de índice compuesto.

WHERE LOWER(name) = “joe” 
AND zip = 94821 
AND salary > 500 
AND join_date <= “2017-01-01” 
AND LOWER(county) LIKE “san%”

DONDE BAJO(nombre) = "joe"

Y zip = 94821

Y salario > 500

Y fecha_unión <= "2017-01-01"

Y BAJO(condado) COMO "san%"

CREATE INDEX i2 ON customer(LOWER(name), 
                            zip, 
                            LOWER(county), 
                            join_date, 
                            salary)

CREAR ÍNDICE i2 EN cliente(BAJO(nombre),

cremallera,

BAJO(condado),

join_date,

salario)

Insensibilidad a mayúsculas y minúsculas en funciones Array.

Funciones de cadena como SPLIT(), SUFFIXES(), muchas de las funciones de matriz y funciones del objeto sí devuelven matrices. Entonces, ¿cómo utilizarlos sin distinguir entre mayúsculas y minúsculas?

Seguimos el mismo principio que antes. Crea primero una expresión para minusvalorar los valores antes de procesarlos mediante estas funciones.

SELECT SPLIT("Good Morning, Joe") as splitresult;
    "splitresult": [
      "Good",
      "Morning,",
      "Joe"
    ]

SELECT SPLIT(LOWER(“Good Morning, Joe”));
    "splitresult": [
      "good",
      "morning,",
      "joe"
    ]

SELECCIONE DIVIDIR("Buenos días, Joe") como splitresult;

"splitresult": [

"Bien",

"Buenos días",

"Joe"

]

SELECCIONE DIVIDIR(BAJO("Good Por la mañana, Joe"));

"splitresult": [

"bueno",

"mañana,",

"joe"

]

Ahora, lo que realmente quieres es filtrar en base a un valor dentro de la cadena.

WHERE  LOWER(xyz) LIKE “%good%”;

1	DONDE BAJO(xyz) COMO "%good%";

Este es probablemente el peor predicado en SQL - en términos de rendimiento.

SELECT * FROM customer
WHERE  x IN SPLIT(LOWER(xyz)) SATISFIES x = “good” END

1 2	SELECCIONE * DESDE cliente DONDE x EN DIVIDIR(BAJO(xyz)) SATISFACE x = "bueno" FIN

Ahora, ¿qué índice crearías para esto? CONSEJO es muy útil.

CREATE INDEX adv_DISTINCT_split_lower_xyz ON `customer`
           (DISTINCT ARRAY `x` FOR x in split(lower((`xyz`))) END)

1 2	CREAR ÍNDICE adv_DISTINCT_split_lower_xyz EN cliente (DISTINTO ARRAY `x` PARA x en dividir(inferior((`xyz`))) FIN)

Como de costumbre, verifique su explicación.

        {
            "#operator": "DistinctScan",
            "scan": {
                "#operator": "IndexScan3",
                "index": "adv_DISTINCT_split_lower_xyz",
                "index_id": "552ab6c643616fbc",
                "index_projection": {
                    "primary_key": true
                },
                "keyspace": "customer",
                "namespace": "default",
                "spans": [
                    {
                        "exact": true,
                        "range": [
                            {
                                "high": "\"good\"",
                                "inclusion": 3,
                                "low": "\"good\""
                            }
                        ]
                    }
                ],

{

"#operator": "DistinctScan",

"escanear": {

"#operator": "IndexScan3",

"índice": "adv_DISTINCT_split_lower_xyz",

"index_id": "552ab6c643616fbc",

"proyección_índice": {

"clave_primaria": verdadero

"espacio clave": "cliente",

"espacio de nombres": "por defecto",

"vanos": [

{

"exacto": verdadero,

"rango": [

{

"alto": "\"good\"",

"inclusión": 3,

"bajo": "\"good\""

}

]

}

Si desea utilizar UNNEST y una cláusula WHERE sencilla, utilice esta consulta. Verifique siempre su explicación para asegurarse de que los predicados son empujados a la exploración del índice.

SELECT * FROM customer  
              UNNEST SPLIT(LOWER(xyz)) AS x 
WHERE   x = "good"

SELECCIONE * DESDE cliente

UNNEST DIVIDIR(BAJO(xyz)) AS x

DONDE x = "bueno"

Uso de fichas

La función TOKENS() simplifica la obtención de las minúsculas tomando esa opción como argumento. Véase el artículo Más que LIKE: Búsqueda eficiente en JSON con N1QL para más detalles y ejemplos

Expresiones complejas.

SELECT * 

FROM customer
WHERE lower(fname) || lower(mname) || lower(lname) = “JoeMSmith”

SELECCIONE *

DESDE cliente

DONDE inferior(fname) || inferior(mname) || inferior(lname) = "JoeMSmith"

¿Cómo podemos optimizarlo? Index Advisor al rescate. Otra vez.

CREATE INDEX adv_lower_fname_concat_lower_mname_concat_lower_lname 
  ON `customer`(lower((`fname`))||lower((`mname`))||lower((`lname`)))

1 2	CREAR ÍNDICE adv_lower_fname_concat_lower_mname_concat_lower_lname EN `cliente`(inferior((`nombre`))\|\|\|inferior((`nombre`))\|\|\|inferior((`nombre`)))

Explicar para confirmar el plan:

       {
            "#operator": "IndexScan3",
            "index": "adv_lower_fname_concat_lower_mname_concat_lower_lname",
            "index_id": "aaa14cbdf14e9cd8",
            "index_projection": {
                "primary_key": true
            },
            "keyspace": "customer",
            "namespace": "default",
            "spans": [
                {
                    "exact": true,
                    "range": [
                        {
                            "high": "\"JoeMSmith\"",
                            "inclusion": 3,
                            "low": "\"JoeMSmith\""
                        }
                    ]
                }
            ],
            "using": "gsi"
        },

{

"#operator": "IndexScan3",

"índice": "adv_lower_fname_concat_lower_mname_concat_lower_lname",

"index_id": "aaa14cbdf14e9cd8",

"proyección_índice": {

"clave_primaria": verdadero

"espacio clave": "cliente",

"espacio de nombres": "por defecto",

"vanos": [

{

"exacto": verdadero,

"rango": [

{

"alto": "\"JoeMSmith\"",

"inclusión": 3,

"bajo": "\"JoeMSmith\""

}

]

}

"usando": "gsi"

Búsqueda de textos completos

Como te habrás dado cuenta, se trata de un problema de procesamiento y consulta de texto. El FTS puede escanear, almacenar y buscar texto de varias maneras. La búsqueda insensible a mayúsculas y minúsculas es una de ellas. Veamos el plan para una simple consulta de búsqueda.

select * from customer
where search (name, "joe")

  "~children": [
        {
            "#operator": "PrimaryScan3",
            "index": "#primary",
            "index_projection": {
                "primary_key": true
            },
            "keyspace": "customer",
            "namespace": "default",
            "using": "gsi"
        },
        {
            "#operator": "Fetch",
            "keyspace": "customer",
            "namespace": "default"
        },
        {
            "#operator": "Parallel",
            "~child": {
                "#operator": "Sequence",
                "~children": [
                    {
                        "#operator": "Filter",
                        "condition": "search((`customer`.`name`), \"joe\")"
                    },
                    {
                        "#operator": "InitialProject",
                        "result_terms": [
                            {
                                "expr": "self",
                                "star": true
                         }
                        ]
                    }
                ]
            }
        }
    ]
}

seleccione * de cliente

donde busque en (nombre, "joe")

"~niños": [

{

"#operator": "PrimaryScan3",

"índice": "#primary",

"proyección_índice": {

"clave_primaria": verdadero

"espacio clave": "cliente",

"espacio de nombres": "por defecto",

"usando": "gsi"

{

"#operator": "Fetch",

"espacio clave": "cliente",

"espacio de nombres": "por defecto"

{

"#operator": "Paralelo",

"~niño": {

"#operator": "Secuencia",

"~niños": [

{

"#operator": "Filtro",

"condición": "search((`cliente`.`nombre`), \"joe\")"

{

"#operator": "ProyectoInicial",

"result_terms": [

{

"expr": "yo",

"estrella": verdadero

}

]

}

]

}

]

}

Este NO es el plan que quieres... ¡Esto es usar un escáner primario!

Después de crear el índice de texto en el cliente cubo, las cosas van mucho mejor:

select * from customer
where search (name, "joe")

{
    "#operator": "Sequence",
    "~children": [
        {
            "#operator": "IndexFtsSearch",
            "index": "trname",
            "index_id": "3bdb61e5010e8838",
            "keyspace": "customer",
            "namespace": "default",
            "search_info": {
                "field": "\"`name`\"",
                "outname": "out",
                "query": "\"joe\""
            },
            "using": "fts"
        },

seleccione * de cliente

donde busque en (nombre, "joe")

{

"#operator": "Secuencia",

"~niños": [

{

"#operator": "IndexFtsSearch",

"índice": "trname",

"index_id": "3bdb61e5010e8838",

"espacio clave": "cliente",

"espacio de nombres": "por defecto",

"search_info": {

"campo": "\"`nombre`\"",

"outname": "fuera",

"consulta": "\"joe\""

"usando": "fts"

El analizador estándar por defecto baja todos los tokens y por lo tanto encontrará todos los "joe "s : JOE, joe, Joe, JOe, etc. Puede definir un analizador personalizado y proporcionar instrucciones específicas para minusvalorar los tokens. He aquí un ejemplo.

 "mapping": {
   "analysis": {
    "analyzers": {
     "mylower": {
      "token_filters": [
       "to_lower"
      ],
      "tokenizer": "unicode",
      "type": "custom"
     }
    }
   },

"mapeo": {

"análisis": {

"analizadores": {

"mylower": {

"token_filters": [

"to_lower"

"tokenizer": "unicode",

"tipo": "personalizado"

}

Así es como se añade en la interfaz de usuario. Ver blog fino 8 formas de personalizar los índices de búsqueda de texto completo de Couchbase para más detalles sobre las distintas formas de personalizar el índice FTS.

Keshav Murthy

Comparte este artículo

Platform

Self-Managed

Services

Capabilities

Why Couchbase?

Migrate to Capella

By Use Case

By Industry

By Application Need

Popular Docs

By Developer Role

Quickstart

Resource Center

About

Partnerships

Our Services

Partners: Register a Deal

Ready to register a deal with Couchbase?

Marriott

JSON distingue entre mayúsculas y minúsculas. Usted no tiene que hacerlo.

Insensibilidad a los casos en un escenario de índice compuesto.

Insensibilidad a mayúsculas y minúsculas en funciones Array.

Uso de fichas

Expresiones complejas.

Búsqueda de textos completos

Recibe actualizaciones del blog de Couchbase en tu bandeja de entrada

Autor

Publicado por Keshav Murthy

Deja un comentario Cancelar respuesta

¿Listo para empezar con Couchbase Capella?

Empezar a construir

Utilizar Capella gratis

Póngase en contacto