Flexible Query & Indexing for Flexible JSON Model.

JSON 피클에 있을 때는 N1QL을 사용하세요. - Confucius

JSON 데이터 모델의 경우, 대략적으로 컬렉션을 테이블로, JSON 문서를 비정규화된 행으로, 필드 이름을 열로 생각하라는 조언이 있습니다. 이 모든 것은 권장 사항을 엄격하게 준수하는 경우 Couchbase 및 MongoDB와 같은 데이터베이스에 적용됩니다. 사용자가 단순히 키-값 쌍 모델을 따르지 않는 데에는 여러 가지 이유가 있습니다. 항상 주요 이유는 다음과 같습니다.

1. JSON은 너무 장황한.
2. 키가 동적인 맵/해시맵 데이터 구조를 변환하려고 합니다.
3. 필드 이름이 일반적으로 타임스탬프로 인코딩된 시계열 데이터입니다.
4. 사전 기반 인코딩
5. 기존 문서 형식 및 표준은 재설계를 허용하지 않습니다.

데이터베이스와 쿼리 언어가 해당 상황을 처리하지 못하면 정교한 재설계를 거쳐야 합니다. 단순히 정보에 액세스하는 것뿐만 아니라 JSON에 대한 쿼리를 효율적으로 만들려면 어떻게 해야 하나요? 색인해야 할 필드의 이름조차 모르시나요? 다행히도 Couchbase N1QL에는 유연한 메타데이터를 처리할 수 있는 다양한 쿼리 및 인덱스 기능이 있습니다.

이러한 사용 사례를 고려해 보겠습니다.

사용 사례 1: 가치 혁신.

다음은 JSON 문서 샘플입니다.

{
    "cname": "Jane Smith",
    "dob" : "1990-01-30",
    "phones" : [
    "+1 510-523-3529", "+1 650-392-4923"
    ],
    "billing": [
      {
        "type": "visa",
        "cardnum": "5827-2842-2847-3909",
        "expiry": "2019-03"
      }, 
      {
        "type": "master",
        "cardnum": "6274-2542-5847-3949",
        "expiry": "2018-12"
      }
    ]
}

{

"cname": "Jane Smith",

"dob" : "1990-01-30",

"phones" : [

"+1 510-523-3529", "+1 650-392-4923"

"billing": [

{

"type": "visa",

"cardnum": "5827-2842-2847-3909",

"expiry": "2019-03"

{

"type": "master",

"cardnum": "6274-2542-5847-3949",

"expiry": "2018-12"

}

]

}

JSON 데이터 모델은 간단히 키-값 쌍의 집합으로 설명됩니다. 각 키는 문자열이며, 해당 키의 계층 수준과 값이 스칼라, 객체 또는 배열일 수 있다는 점에서 고유합니다. 엄격한 정의는 다음과 같습니다. 여기. JSON은 또한 자체 설명이 가능하기 때문에 데이터베이스 문서 모델. 모든 고객이 고정된 전화번호나 자동차 또는 기타 유형의 속성을 보유할 필요는 없습니다.

위의 동일한 정보를 정보 손실 없이 아래 JSON으로 재구성할 수 있지만 일부 암시적 스키마는 다음과 같습니다.



{
    "Jane Smith": "1990-01-30",
    "home": "+1 510-523-3529",
    "office": "+1 650-392-4923",
    "Billing": [
      {
        "visa": "5827-2842-2847-3909",
        "expiry": "2019-03"
      }, 
      {
        "master": "6274-2542-5847-3949",
        "expiry": "2018-12"
      }
    ]
}

{

"Jane Smith": "1990-01-30",

"home": "+1 510-523-3529",

"office": "+1 650-392-4923",

"Billing": [

{

"visa": "5827-2842-2847-3909",

"expiry": "2019-03"

{

"master": "6274-2542-5847-3949",

"expiry": "2018-12"

}

]

}

단순히 문서를 넣고 설정하는 것이라면 이 모든 것이 괜찮습니다. JSON의 구조가 무엇이든 상관없습니다. 단순히 앞뒤로 오가기만 하면 됩니다.

이제 이것이 쿼리에 어떤 영향을 미치는지 살펴보겠습니다.

Q1: SELECT * FROM customers WHERE cxname = “Jane Smith”;

새 JSON 모델에서는 다음과 같은 필드 이름이 없습니다. cxname 여기를 클릭하세요.


Q2: SELECT p FROM people p 
WHERE ANY o IN object_names(p) SATISFIES o = "Jane Smith" END

Q2: SELECT p FROM people p

WHERE ANY o IN object_names(p) SATISFIES o = "Jane Smith" END

마법의 힘 object_pairs() 함수를 사용하시나요? 이 함수는 JSON {"key":"value"} 쌍을 이름-값 쌍의 배열로 변환합니다. 다음은 예제입니다.


SELECT OBJECT_NAMES({"Jane Smith": "1990-01-30", "home": "+1 510-523-3529"})

    "$1": [
      "Jane Smith",
      "home"
    ]
  }

SELECT OBJECT_NAMES({"Jane Smith": "1990-01-30", "home": "+1 510-523-3529"})

"$1": [

"Jane Smith",

"home"

]

}

OBJECT_NAMES() 함수는 키(여기서는 "Jane Smith")를 추출하여 값으로 반환한 다음 인덱싱할 수 있습니다. 이 함수는 하나의 값이 아니라 '키 이름'의 배열을 값으로 반환하므로 배열 인덱스를 만들어야 합니다. 쿼리 Q1과 Q2는 각각의 데이터 모델에 대해 동일한 작업을 수행합니다. 하지만 각 쿼리가 밀리초 단위로 실행되어야 합니다.

1분기의 경우, cxname에 인덱스를 생성하기만 하면 됩니다.

CREATE INDEX ix_cxname ON customers(cxname)

2분기의 경우

CREATE INDEX ix_people ON people(DISTINCT OBJECT_NAMES(self))

이 지수를 사용하면 2분기에는 이 지수를 사용하는 요금제가 제공됩니다.


        {
            "#operator": "DistinctScan",
            "scan": {
                "#operator": "IndexScan3",
                "as": "p",
                "cardinality": 1,
                "cost": 0.273,
                "index": "ix_people",
                "index_id": "4a2df8dd85543aa4",
                "index_projection": {
                    "primary_key": true
                },
                "keyspace": "people",
                "namespace": "default",
                "spans": [
                    {
                        "exact": true,
                        "range": [
                            {
                                "high": "\"Jane Smith\"",
                                "inclusion": 3,
                                "low": "\"Jane Smith\""
                            }
                        ]
                    }
                ],

{

"#operator": "DistinctScan",

"scan": {

"#operator": "IndexScan3",

"as": "p",

"cardinality": 1,

"cost": 0.273,

"index": "ix_people",

"index_id": "4a2df8dd85543aa4",

"index_projection": {

"primary_key": true

"keyspace": "people",

"namespace": "default",

"spans": [

{

"exact": true,

"range": [

{

"high": "\"Jane Smith\"",

"inclusion": 3,

"low": "\"Jane Smith\""

}

]

}

사용 사례 2: 동적 키 이름.

이 사용 사례는 카우치베이스 포럼 게시물.



{
    "id": "05a9b954-bdee-4d7f-9715-8e9e08f8cb75",
    "type": "article",
    "translations": {
        "en": "Hello",
        "de": "Hallo", 
        "fr": "Bonjour",
        "es": "Hola"
    }
}

{

"id": "05a9b954-bdee-4d7f-9715-8e9e08f8cb75",

"type": "article",

"translations": {

"en": "Hello",

"de": "Hallo",

"fr": "Bonjour",

"es": "Hola"

}

질문: 내에서 값을 인덱싱하는 가장 좋은 방법은 무엇일까요? 번역 동적으로? 즉, 모든 키를 인덱싱하는 일반 인덱스입니다. 번역 객체입니다.

단순히 항상 영어 문서를 쿼리해야 하는 경우, 다음과 같이 하세요. 다음이 포함된 모든 문서를 쿼리합니다. translations.en = "안녕하세요".

항상 영어로 된 번역을 찾고 있다면 transactions.en에 색인을 생성하면 됩니다.


CREATE INDEX ix_tren ON info(translations.en);
SELECT * FROM info WHERE translation.en = “Hello”;

CREATE INDEX ix_tren ON info(translations.en);

SELECT * FROM info WHERE translation.en = “Hello”;

키가 동적일 경우 데이터에 어떤 특정 언어가 포함될지, 어떤 언어가 쿼리될 수 있는지 알 수 없으므로 둘 다 동적으로 만들어야 합니다.


/* Query */
SELECT *
FROM info
    WHERE  ANY v IN OBJECT_PAIRS(translations) 
            SATISFIES [v.name,v.val] = ["en", "Hello"] 
        END

/* Index */
CREATE INDEX ix_infoname ON info (
    DISTINCT ARRAY [v.name, v.val ]
    FOR v IN OBJECT_PAIRS(translations) END
)

/* Query */

SELECT *

FROM info

WHERE ANY v IN OBJECT_PAIRS(translations)

SATISFIES [v.name,v.val] = ["en", "Hello"]

END

/* Index */

CREATE INDEX ix_infoname ON info (

DISTINCT ARRAY [v.name, v.val ]

FOR v IN OBJECT_PAIRS(translations) END

)

다음은 인덱스가 실제로 선택되고 술어가 인덱스 스캔으로 푸시되는지 확인하기 위한 설명입니다.



        {
            "#operator": "DistinctScan",
            "scan": {
                "#operator": "IndexScan3",
                "cardinality": 0.5,
                "cost": 0.1665,
                "index": "ix_infoname",
                "index_id": "bebbfd22a022fb75",
                "index_projection": {
                    "primary_key": true
                },
                "keyspace": "info",
                "namespace": "default",
                "spans": [
                    {
                        "exact": true,
                        "range": [
                            {
                                "high": "[\"en\", \"Hello\"]",
                                "inclusion": 3,
                                "low": "[\"en\", \"Hello\"]"
                            }
                        ]
                    }
                ],
                "using": "gsi"
            }
        },

{

"#operator": "DistinctScan",

"scan": {

"#operator": "IndexScan3",

"cardinality": 0.5,

"cost": 0.1665,

"index": "ix_infoname",

"index_id": "bebbfd22a022fb75",

"index_projection": {

"primary_key": true

"keyspace": "info",

"namespace": "default",

"spans": [

{

"exact": true,

"range": [

{

"high": "[\"en\", \"Hello\"]",

"inclusion": 3,

"low": "[\"en\", \"Hello\"]"

}

]

}

"using": "gsi"

}

인덱스 정의가 평소보다 조금 더 복잡해 보이더라도 걱정하지 마세요. 인덱스 어드바이저가 도와드리겠습니다.



ADVISE SELECT * 
       FROM info 
       WHERE ANY v IN OBJECT_PAIRS(translations) 
                 SATISFIES [v.name,v.val] = ["en", "Hello"] 
       END


{
    "index_statement": "CREATE INDEX adv_DISTINCT_object_pairs_translations_name_val ON `info`(DISTINCT ARRAY [`v`.`name`, `v`.`val`] FOR v in object_pairs((`translations`)) END)",
    "keyspace_alias": "info",
    "recommending_rule": "Index keys follow order of predicate types: 2. equality/null/missing."
}

ADVISE SELECT *

FROM info

WHERE ANY v IN OBJECT_PAIRS(translations)

SATISFIES [v.name,v.val] = ["en", "Hello"]

END

{

"index_statement": "CREATE INDEX adv_DISTINCT_object_pairs_translations_name_val ON `info`(DISTINCT ARRAY [`v`.`name`, `v`.`val`] FOR v in object_pairs((`translations`)) END)",

"keyspace_alias": "info",

"recommending_rule": "Index keys follow order of predicate types: 2. equality/null/missing."

}

평가 중인 각 표현식 위에 표현식을 추가할 수도 있습니다.



ADVISE SELECT * 
       FROM info 
       WHERE ANY v IN OBJECT_PAIRS(translations) 
                 SATISFIES [LOWER(v.name),LOWER(v.val)] = ["en", "Hello"] 
       END


{
      "index_statement": "CREATE INDEX adv_DISTINCT_object_pairs_translations_lower_name_lower_val ON `info`(DISTINCT ARRAY [lower((`v`.`name`)), lower((`v`.`val`))] FOR v in object_pairs((`translations`)) END)",
      "keyspace_alias": "info",
      "recommending_rule": "Index keys follow order of predicate types: 2. equality/null/missing."
}

ADVISE SELECT *

FROM info

WHERE ANY v IN OBJECT_PAIRS(translations)

SATISFIES [LOWER(v.name),LOWER(v.val)] = ["en", "Hello"]

END

{

"index_statement": "CREATE INDEX adv_DISTINCT_object_pairs_translations_lower_name_lower_val ON `info`(DISTINCT ARRAY [lower((`v`.`name`)), lower((`v`.`val`))] FOR v in object_pairs((`translations`)) END)",

"keyspace_alias": "info",

"recommending_rule": "Index keys follow order of predicate types: 2. equality/null/missing."

}

더 많은 개체 함수

N1QL에는 다음과 같은 추가 기능이 있습니다. 객체 및 중첩된 데이터 함수를 사용하여 복잡한 데이터 모델에 도움을 받을 수 있습니다. 객체 함수의 전체 집합과 토큰 함수.

참조:

카우치배 N1QL 객체 함수 문서
카우치베이스 배열 인덱싱
카우치베이스 색인 블로그

케샤브 머시

이 문서 공유하기

Platform

Self-Managed

Services

Capabilities

By Use Case

By Industry

Popular Docs

Quickstart

Resource Center

About

Partnerships

유연한 JSON 모델을 위한 유연한 쿼리 및 인덱싱.

JSON 피클에 있을 때는 N1QL을 사용하세요. - Confucius

사용 사례 1: 가치 혁신.

사용 사례 2: 동적 키 이름.

더 많은 개체 함수

받은 편지함에서 카우치베이스 블로그 업데이트 받기

작성자

게시자 케샤브 머시

댓글 남기기 응답 취소

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

카펠라 무료 사용

연락하기