Taming the Gerrymander with Geospatial Search

Conceptos básicos

Antes de seguir leyendo, tómese unos minutos y lea el excelente post sobre búsqueda geoespacial en Couchbase, publicado por mi amigo y colega Brian Kane: https://www.couchbase.com/blog/geospatial-search-how-do-i-use-thee-let-me-count-the-ways/

Adelante; esperaré.

Ahora que has vuelto, sabrás que una forma estupenda de aprovechar el motor de búsqueda de texto completo de Couchbase es pasarle una serie de vértices que identifiquen un polígono (normalmente irregular) que describa una región geográfica. El ejemplo de Brian utiliza diez pares de puntos lat/long:

"polygon_points": [
  "35.987374, -83.658937",
  "35.971769, -83.654212",
  "35.887168, -83.793874",
  "35.686403, -83.678068",
  "35.704374, -83.505435",
  "35.769145, -83.275637",
  "35.868423, -83.290819",
  "35.919168, -83.350486",
  "35.948053, -83.510420",
  "35.990925, -83.568382"
]

"polygon_points": [

"35.987374, -83.658937",

"35.971769, -83.654212",

"35.887168, -83.793874",

"35.686403, -83.678068",

"35.704374, -83.505435",

"35.769145, -83.275637",

"35.868423, -83.290819",

"35.919168, -83.350486",

"35.948053, -83.510420",

"35.990925, -83.568382"

]

Estos puntos delimitan aproximadamente una región de Tennessee, al sur de la autopista, al norte del límite del Parque Nacional y dentro de un único condado... suficientemente bueno para el análisis requerido, y fácil de pegar en tu solicitud. Teniendo esto en cuenta, el motor de índice de búsqueda de texto completo (FTS) de Couchbase puede devolver fácilmente todos los elementos de datos necesarios asociados con puntos dentro (o fuera) del perímetro. (Brian da un gran ejemplo de esto en su post).

La llave inglesa (o quizá, el distrito con forma de llave inglesa)

Pero, ¿y si su región poligonal es extremadamente detallada y compleja, y requiere tal vez miles de pares de puntos lat/long para describirla? ¿Disponemos de ejemplos de este tipo? Sí. Gracias a la ardua labor de las legislaturas de los cincuenta estados y/o sus sustitutos, tenemos muchos ejemplos de regiones de este tipo en forma de distritos del Congreso de los Estados Unidos. Y gracias a Couchbase N1QL y a la búsqueda geoespacial FTS, tenemos los medios para gestionar los datos con facilidad.

El distrito medio del Congreso de EE.UU. requiere 8.694 vértices para definirse. Esto se debe a razones prácticas (se espera que todos los distritos tengan aproximadamente el mismo número de ciudadanos), políticas (los partidos en el poder pueden deformar los límites de los distritos para que los votantes los mantengan así, lo que se denomina "gerrymandering") y geográficas (muchos de ellos se basan en parte en ríos, lagos, costas oceánicas, montañas y otros límites naturales). El distrito geográficamente más complejo (es decir, el que requiere el mayor número de vértices para ser descrito) es el 5º distrito electoral de Virginia, que necesita la friolera de 40.145 pares de latitud y longitud para ser descrito (y parece un T. Rex rampante al revés). El más sencillo, que sólo requiere 422, es el 36º Distrito Electoral de Nueva York, que parece un submarino escabulléndose del lago Erie.

Los datos

Claramente, entonces, vamos a querer almacenar y recuperar nuestros puntos geográficos de una base de datos si queremos implementar consultas contra ellos a gran escala. Y debido a que los puntos se encuentran probablemente en forma de una matriz incrustada, un documento JSON en Couchbase es justo el billete. Abajo hay un ejemplo de tal documento:

{
"geometry": {
"type": "Polygon",
"coordinates": [
{
  "geometry": {
    "type": "Polygon",
    "coordinates": [
      [
        [-93.911307,44.546513999999995],
        [-93.91024,44.548004999999996],
        [-93.909904,44.548300999999995],
        [-93.90922599999999,44.548843999999995],
        [etc., etc., for hundreds or thousands of pairs]
        [-93.911307,44.546513999999995]
      ]
    ]
  },
"type": "Feature",
"properties": {
"INTPTLAT": "+44.4789680",
"FUNCSTAT": "N",
"INTPTLON": "-092.8530418",
"LSAD": "C2",
"GEOID": "2702",
"AWATER": 243358361,
"CD116FP": "02",
"CDSESSN": "116",
"MTFCC": "G5200",
"NAMELSAD": "Congressional District 2",
"STATEFP": "27",
"ALAND": 6314464923
}
}

{

"geometry": {

"type": "Polygon",

"coordinates": [

{

"geometry": {

"type": "Polygon",

"coordinates": [

[

[-93.911307,44.546513999999995],

[-93.91024,44.548004999999996],

[-93.909904,44.548300999999995],

[-93.90922599999999,44.548843999999995],

[etc., etc., for hundreds or thousands of pairs]

[-93.911307,44.546513999999995]

]

"type": "Feature",

"properties": {

"INTPTLAT": "+44.4789680",

"FUNCSTAT": "N",

"INTPTLON": "-092.8530418",

"LSAD": "C2",

"GEOID": "2702",

"AWATER": 243358361,

"CD116FP": "02",

"CDSESSN": "116",

"MTFCC": "G5200",

"NAMELSAD": "Congressional District 2",

"STATEFP": "27",

"ALAND": 6314464923

}

¿Por qué los datos tienen esta forma, te preguntarás, con los puntos del polígono incrustados en un array de un solo elemento sin nombre, incrustado en otro de "coordenadas", incrustado en un objeto de "geometría"? La respuesta sencilla es que a veces simplemente se trabaja con los datos que se tienen. (Se basa en la fuente pública que pude encontrar, una que era notablemente fácil de importar a Couchbase. Tal vez escriba un post aparte describiendo ese proceso). Y aunque los datos son un poco engorrosos, el lenguaje N1QL, como veremos más adelante, facilita la recuperación de lo que necesitamos.

El otro conjunto de datos que nos ocupa constituye la parte principal de nuestro ejemplo. Se trata de una lista de millones de votantes registrados (no te preocupes, he falsificado los nombres y las direcciones), junto con la afiliación a un partido y el historial de voto de cada uno. Un documento de muestra tiene este aspecto:

{
  "City": "Adelanto",
  "doctype": "Voter",
  "Name": "Ryan Johnson",
  "County": "San Bernardino",
  "Party": "Democrat",
  "Reg": [{"Year": 2018},
          {"Voted": "In person","Year": 2016},
          {"Year": 2014},
          {"Voted": "In person","Year": 2012},
          {"Year": 2010},
          {"Voted": "In person","Year": 2008},
          {"Year": 2006},
          {"Voted": "In person","Year": 2004},
          {"Year": 2002},
          {"Voted": "In person","Year": 2000},
          {"Year": 1998},
          {"Voted": "In person","Year": 1996}],
  "Addr": "221 Cindy Inlet Suite 064",
  "Zip": "92301",
  "Geo": {"lat": 34.6149071942612,"lon": -117.51442556265236}
}

{

"City": "Adelanto",

"doctype": "Voter",

"Name": "Ryan Johnson",

"County": "San Bernardino",

"Party": "Democrat",

"Reg": [{"Year": 2018},

{"Voted": "In person","Year": 2016},

{"Year": 2014},

{"Voted": "In person","Year": 2012},

{"Year": 2010},

{"Voted": "In person","Year": 2008},

{"Year": 2006},

{"Voted": "In person","Year": 2004},

{"Year": 2002},

{"Voted": "In person","Year": 2000},

{"Year": 1998},

{"Voted": "In person","Year": 1996}],

"Addr": "221 Cindy Inlet Suite 064",

"Zip": "92301",

"Geo": {"lat": 34.6149071942612,"lon": -117.51442556265236}

}

Caso práctico y configuración

Por último, nuestro caso práctico: Dado un elector individual por teléfono, ¿cómo puede un miembro del Congreso determinar rápidamente si la persona es o no miembro de su distrito electoral? Resolveremos el problema con FTS y N1QL.

Primero debemos preparar el índice FTS. En nuestro caso, indexaremos todos los documentos en función del campo de tipo Tipo. Indexaremos el Nombre como palabra clave, y el campo Geo como geopunto. Esto es lo que se ve en mi consola:

(El post de Brian profundiza en los pasos a seguir para construir un índice).

Una vez construido este índice, podremos pasarle una serie de puntos poligonales y recibir una serie de aciertos. Siguiendo el ejemplo de Brian, he probado esto usando un curl:

curl -s -XPOST -H "Content-Type: application/json" -u Administrator:password https://localhost:8094/api/index/ftsVoterGeo/query -d '
{
  "fields": ["Name"],
  "size": 50,
  "query": {
    "field": "Geo",
    "polygon_points": [
      "33.4328, -114.7322",
      "33.5253, -114.6561",
      "33.6178, -114.5883",
      "34.6173, -117.4220"
    ]
  }
}' | jq '("result_count: "+ (.total_hits | tostring)), (.hits[]| (.id + " " + .fields.Name))'

curl -s -XPOST -H "Content-Type: application/json" -u Administrator:password https://localhost:8094/api/index/ftsVoterGeo/query -d '

{

"fields": ["Name"],

"size": 50,

"query": {

"field": "Geo",

"polygon_points": [

"33.4328, -114.7322",

"33.5253, -114.6561",

"33.6178, -114.5883",

"34.6173, -117.4220"

]

}

}' | jq '("result_count: "+ (.total_hits | tostring)), (.hits[]| (.id + " " + .fields.Name))'

Esto me demuestra que una búsqueda en una simple región poligonal puede devolver y devolverá una lista de nombres. En teoría, podríamos detenernos ahí y dejar que la aplicación (o incluso el usuario) buscara entre los resultados para ver si encuentra el nombre del votante en cuestión. Pero podemos hacerlo mejor. Dejemos que el motor de búsqueda acote la búsqueda. Lo haremos mediante una búsqueda "conjunta". (Piense en un conjunto como un AND lógico y un disyunto como un OR lógico). A continuación se muestra el ejemplo de curl:

curl -s -XPOST -H "Content-Type: application/json" -u Administrator:password https://localhost:8094/api/index/ftsVoterGeo/query -d '
{
  "fields": ["Name"],
  "size": 50,
  "query":
  {
    "conjuncts":
      [
        {
        "field": "Geo",
        "polygon_points": [
           "33.4328, -114.7322",
           "33.5253, -114.6561",
           "33.6178, -114.5883",
           "34.6173, -117.4220"
        ]
        },
        {
        "field": "Name",
        "match": "Anne Murray"
        }
      ]
  }
}' | jq '("result_count: "+ (.total_hits | tostring)), (.hits[]| (.id + " " + .fields.Name))'

curl -s -XPOST -H "Content-Type: application/json" -u Administrator:password https://localhost:8094/api/index/ftsVoterGeo/query -d '

{

"fields": ["Name"],

"size": 50,

"query":

{

"conjuncts":

[

{

"field": "Geo",

"polygon_points": [

"33.4328, -114.7322",

"33.5253, -114.6561",

"33.6178, -114.5883",

"34.6173, -117.4220"

]

{

"field": "Name",

"match": "Anne Murray"

}

]

}

}' | jq '("result_count: "+ (.total_hits | tostring)), (.hits[]| (.id + " " + .fields.Name))'

Puedes leer esto como "Si el geopunto está dentro de los límites del polígono y el nombre coincide con el nombre del votante, devuelve el acierto". Funciona a las mil maravillas, así que sabemos que nuestro índice FTS está correctamente definido.

La extracción

Ahora tenemos que probar la recuperación de los límites de un distrito individual de la base de datos. El primer paso consiste en una simple inspección de los datos que vamos a utilizar, quizá de un solo distrito:

select properties.NAMELSAD, districts.geometry.coordinates from districts
      use keys 'district::87';

1 2	select properties.NAMELSAD, districts.geometry.coordinates from districts use keys 'district::87';

Esto devuelve un resultado como este:

[
    {
        "NAMELSAD": "Congressional District 8",
        "coordinates": [
            [
                [
                    -119.651375,
                    38.286637999999996
                ],
                [
                    -119.650185,
                    38.287234
                ],

[

{

"NAMELSAD": "Congressional District 8",

"coordinates": [

[

-119.651375,

38.286637999999996

[

-119.650185,

38.287234

...y así sucesivamente durante otros 1,3 MB de un conjunto de resultados. No es de extrañar que no queramos cortar y pegar esto.

Nuestro objetivo, recuerda, es acabar con algo parecido a esto:

[
   "33.4328, -114.7322",
   "33.5253, -114.6561",
   "33.6178, -114.5883",
   "34.6173, -117.4220"
]

[

"33.4328, -114.7322",

"33.5253, -114.6561",

"33.6178, -114.5883",

"34.6173, -117.4220"

]

Así es como acabamos:

select value concat(tostring(c[1]),", ",tostring(c[0])) points
from (
      select value districts.geometry.coordinates[0] from districts
      use keys 'district::87'
      )[0] c;

select value concat(tostring(c[1]),", ",tostring(c[0])) points

from (

select value districts.geometry.coordinates[0] from districts

use keys 'district::87'

)[0] c;

Esto es un trabalenguas, así que vamos a desentrañarlo. Recuerde que estamos trabajando con los datos que tenemos, en lugar de lo que idealmente podríamos querer, y los puntos del polígono que estamos buscando están incrustados en una matriz de un solo elemento sin nombre, incrustado en otro de "coordenadas", incrustado en un objeto de "geometría". Tenemos que desenrollarlos uno a uno. En primer lugar, vamos a eliminar la envoltura de la matriz sin nombre. Para ello, basta con solicitar que sólo se devuelva el único (primer o "zeroth") miembro de la matriz:

select districts.geometry.coordinates[0] from districts
      use keys 'district::87'

1 2	select districts.geometry.coordinates[0] from districts use keys 'district::87'

El objeto JSON devuelto por esta consulta tiene el siguiente aspecto:

[
    {
        "$1": [
            [
                -119.651375,
                38.286637999999996
            ],
            [
                -119.650185,
                38.287234
            ],
            [
                -119.650139,
                38.287678
            ],

[

{

"$1": [

[

-119.651375,

38.286637999999996

[

-119.650185,

38.287234

[

-119.650139,

38.287678

Podemos convertirlo en un array (en lugar de un objeto JSON) utilizando select value:

select value districts.geometry.coordinates[0] from districts
      use keys 'district::87'

1 2	select value districts.geometry.coordinates[0] from districts use keys 'district::87'

Ahora tenemos el array muy grande que buscamos, aún envuelto en el único elemento de otro array:

[
    [
        [
            -119.651375,
            38.286637999999996
        ],
        [
            -119.650185,
            38.287234
        ],
        [
            -119.650139,
            38.287678
        ],
        [
            -119.650154,
            38.288041

[

-119.651375,

38.286637999999996

[

-119.650185,

38.287234

[

-119.650139,

38.287678

[

-119.650154,

38.288041

Seleccionemos de ese conjunto de devoluciones:

select * from (
select value districts.geometry.coordinates[0] from districts
use keys 'district::87')[0] c

select * from (

select value districts.geometry.coordinates[0] from districts

use keys 'district::87')[0] c

Esto da lugar a un montón de pequeños objetos que podemos plegar a nuestra voluntad:

[
    {
        "c": [
            -119.651375,
            38.286637999999996
        ]
    },
    {
        "c": [
            -119.650185,
            38.287234
        ]
    },

[

{

"c": [

-119.651375,

38.286637999999996

]

{

"c": [

-119.650185,

38.287234

]

Ahora que podemos abordarlos vamos a convertir los tipos y realizar nuestra concatenación:

select concat(tostring(c[1]),", ",tostring(c[0])) points from (
select value districts.geometry.coordinates[0] from districts
      use keys 'district::87')[0] c

select concat(tostring(c[1]),", ",tostring(c[0])) points from (

select value districts.geometry.coordinates[0] from districts

use keys 'district::87')[0] c

Los objetos resultantes tienen este aspecto:

[
  {
    "points": "38.286637999999996, -119.651375"
  },
  {
    "points": "38.287234, -119.650185"
  },
  {
    "points": "38.287678, -119.650139"
  },

[

{

"points": "38.286637999999996, -119.651375"

{

"points": "38.287234, -119.650185"

{

"points": "38.287678, -119.650139"

Ahora usa select value para recibirlos como un array:

select value concat(tostring(c[1]),", ",tostring(c[0])) points from (
select value districts.geometry.coordinates[0] from districts
      use keys 'district::87')[0] c

select value concat(tostring(c[1]),", ",tostring(c[0])) points from (

select value districts.geometry.coordinates[0] from districts

use keys 'district::87')[0] c

Y tenemos los resultados que buscábamos:

[
  "38.286637999999996, -119.651375",
  "38.287234, -119.650185",
  "38.287678, -119.650139",
  "38.288041, -119.650154",
  "38.288593999999996, -119.649699",

[

"38.286637999999996, -119.651375",

"38.287234, -119.650185",

"38.287678, -119.650139",

"38.288041, -119.650154",

"38.288593999999996, -119.649699",

La facilidad de los CTE

El último truco que nos queda es un buen truco. Necesitamos una forma de referenciar el array que contiene los geopuntos como componente de una sentencia SQL más amplia. Afortunadamente, N1QL nos proporciona los medios para hacerlo en forma de Expresiones de Tabla Comunes (CTE). Las CTE, que se añaden a una consulta mediante la función con se evalúan una vez por bloque de consulta y pueden introducirse antes de una selección. Esto es exactamente lo que buscamos:

with geopoints as
(
select value concat(tostring(c[1]),", ",tostring(c[0])) points
from ((select value d.geometry.coordinates[0] from districts d use keys 'district::87')[0]) c
)

with geopoints as

(

select value concat(tostring(c[1]),", ",tostring(c[0])) points

from ((select value d.geometry.coordinates[0] from districts d use keys 'district::87')[0]) c

)

Ahora tenemos acceso a un conjunto de retorno evaluado "geopuntos" al que se puede hacer referencia en posteriores (o múltiples posteriores) sentencias SQL. Perfecto. Aquí se utiliza en la consulta final:

with geopoints as
(
select value concat(tostring(c[1]),", ",tostring(c[0])) points
from ((select value d.geometry.coordinates[0] from districts d use keys 'district::87')[0]) c
)

select Name
from voters AS v
where v._type = "Voter" AND search(v.Geo,
{
  "query":
  {
    "conjuncts":
      [
        {
        "field": "Geo",
        "polygon_points": geopoints
        },
        {
        "field": "Name",
        "match": "Anne Murray"
        }
      ]
  }
}
);

with geopoints as

(

select value concat(tostring(c[1]),", ",tostring(c[0])) points

from ((select value d.geometry.coordinates[0] from districts d use keys 'district::87')[0]) c

)

select Name

from voters AS v

where v._type = "Voter" AND search(v.Geo,

{

"query":

{

"conjuncts":

[

{

"field": "Geo",

"polygon_points": geopoints

{

"field": "Name",

"match": "Anne Murray"

}

]

}

);

Aquí está: Un sencillo bloque de código de una sola pantalla que recupera los límites complejos de un distrito y los aprovecha como parte de una búsqueda geoespacial impulsada por N1QL. Pruebe esta técnica y supere sus propios retos geográficos.

Muchas gracias a Brian Kane por su post original y a Dmitry Lychagin por su ayuda para desentrañar las matrices anidadas.

Peter Reale

Comparte este artículo

Platform

Self-Managed

Services

Capabilities

Why Couchbase?

Migrate to Capella

By Use Case

By Industry

By Application Need

Popular Docs

By Developer Role

Quickstart

Resource Center

About

Partnerships

Our Services

Partners: Register a Deal

Ready to register a deal with Couchbase?

Marriott

Domar el gerrymander con la búsqueda geoespacial

Conceptos básicos

La llave inglesa (o quizá, el distrito con forma de llave inglesa)

Los datos

Caso práctico y configuración

La extracción

La facilidad de los CTE

Recibe actualizaciones del blog de Couchbase en tu bandeja de entrada

Author

Posted by Peter Reale, Senior Solutions Engineer, Couchbase

Deja un comentario Cancelar respuesta

¿Listo para empezar con Couchbase Capella?

Empezar a construir

Utilizar Capella gratis

Póngase en contacto