Evaluating Agentic AI Workflows

에이전트와 에이전트 파이프라인이 전례 없이 빠른 속도로 구축 및 출시되고 있습니다. 하지만 에이전트가 얼마나 좋은지 어떻게 판단할 수 있을까요?

AI 에이전트 평가가 중요한 이유

AI 에이전트를 피트니스 트래커라고 생각해보세요. 트래커는 항상 작동하며 "정확한 데이터를 가져올 수 없습니다"라는 메시지가 표시되지 않고 버튼을 누르면 항상 수치를 제공하지만 대부분의 경우 이러한 수치는 거의 정확하지 않습니다. 에이전트도 마찬가지입니다. 모든 팀에는 특정 사용 사례에 맞는 에이전트가 있으며 항상 응답을 생성합니다. 하지만 실제 시나리오에서 얼마나 잘 작동하는지 아는 사람은 거의 없습니다. 우리는 실제로 얼마나 잘 작동하는지 알지 못한 채 작동한다고 가정합니다.

강력한 AI 상담원 평가 프레임워크 개발은 몇 가지 강력한 이유로 인해 필수적인 요소가 되었습니다:

1. 품질 보증: AI 에이전트의 자율성이 높아지고 중요한 작업을 처리함에 따라 체계적인 평가를 통해 배포 전에 신뢰성 표준을 충족하는지 확인합니다.
2. 성능 b엔치마킹: 객관적인 지표를 통해 모델 반복에 걸쳐 일관된 성능을 추적하고 업계 표준과 비교할 수 있습니다.
3. 타겟팅 개선: 상세한 분석을 통해 특정 약점을 정확히 찾아내어 개발 리소스를 효율적으로 할당할 수 있습니다.
4. 정렬 인증: 에이전트가 설계 의도에 따라 작동하고 엣지 케이스에서 예기치 않은 동작이 발생하지 않도록 보장합니다.
5. 규정 준수 그리고 위험 관리: 규제 및 법적 요구 사항에 대한 에이전트 기능 및 제한 사항의 문서화를 용이하게 합니다.
6. 투자 정당화: 이해관계자 및 의사결정권자에게 AI 시스템 가치 및 개선에 대한 정량적 증거 제공

상담원 평가 프로세스 세분화

챗봇, 검색 증강 생성(RAG) 시스템 또는 도구를 사용하는 LLM 등 에이전트를 평가하려면 모델이 정확하고 신뢰할 수 있으며 견고하도록 체계적인 접근 방식이 필요합니다. 상담원 워크플로우를 평가하는 일반적인 단계를 살펴보겠습니다:

1. 기초 자료 준비: 사용 사례에 맞는 경우 공개 데이터 세트를 사용하거나 에이전트의 기능에 맞는 합성 데이터를 생성하는 것이 좋습니다.
2. 데이터 세트에서 에이전트 실행: 데이터 세트의 각 입력/쿼리를 에이전트에 피드합니다.
3. 모든 상담원 활동 기록최종 응답, 도구 호출, 출력 및 추론 단계(해당되는 경우)
4. 실험 만들기 및 수행: 상담원 응답을 평가합니다. 상담원의 응답을 예상/참조 답변과 비교합니다. 필요한 경우 사용자 지정 비교 로직을 사용하여 부분 일치, 중첩된 출력 또는 구조화된 데이터를 처리합니다. 결과를 집계하고 평가 지표(정확도, 성공률 등)를 계산합니다.
5. 결과 유지: 평가 결과를 저장하여 나중에 재현하고 참조할 수 있도록 합니다. 메트릭에서 실패 지점 식별

프레임워크를 사용하는 이상적인 모듈식 워크플로

기초 자료 준비

에이전트 시스템을 평가할 때 가장 큰 어려움 중 하나는 에이전트의 응답을 비교하여 평가할 수 있는 기준 데이터, 즉 레퍼런스의 가용성입니다. 일반적인 에이전트를 효과적으로 평가하려면 도구 호출, 도구 매개변수, 도구 출력 및 최종 답변을 포함하는 포괄적인 실측 데이터가 필요합니다. 이러한 모든 실측 데이터를 수집하고 라벨을 붙이는 데는 많은 시간이 소요되며 많은 인력이 필요합니다.

평가를 위해 선별된 근거 데이터를 준비할 리소스가 없는 경우 두 가지 옵션이 있습니다. 공개적으로 사용 가능한 평가 데이터 세트를 활용하거나 기준 진실로 사용할 수 있는 합성 데이터를 생성할 수 있습니다.

합성 데이터 생성기는 원시 문서에서 선별된 근거 데이터를 생성하는 작업을 처리하며, 여기서 원시 문서는 상담원의 사용 사례에 대한 정보가 포함된 모든 문서를 의미합니다. 예를 들어 상담원이 여행 플래너인 경우 해당 상담원을 평가하는 데 사용할 수 있는 일련의 질문-답변 쌍을 출력하는 데이터 생성기에 모든 위치 정보와 함께 위치가 포함된 문서를 입력으로 제공할 수 있습니다. 단일 홉 쿼리(데이터의 단일 인스턴스에서 답변할 수 있는 쿼리) 또는 멀티 홉 쿼리(여러 소스에서만 답변할 수 있는 쿼리)를 생성할 수 있습니다.

생성기의 샘플 출력입니다:

{
        "question": "How do the house rules for noise levels vary among the available rental options in Hell's Kitchen, Manhattan?",
        "answer": [
            "The house rules for noise levels among ......."
        ],
}

{

"question": "맨해튼 헬스키친의 임대 옵션에 따라 소음 수준에 대한 숙소 규정이 어떻게 다른가요?",

"answer": [

"....... 중 소음 수준에 대한 집 규칙"

}

그러나 이 솔루션에는 단점이 있는데, 생성된 데이터는 불확정적이며 항상 어느 정도 노이즈가 포함되어 있다는 것입니다. 또한 최상의 샘플을 생성하려면 정말 좋은 LLM이 필요하며, 이러한 LLM은 대부분 리소스 집약적이고 비용이 많이 듭니다.

실사 기반에서 에이전트 실행

기준 데이터가 준비되면 다음 단계는 이 데이터 세트에서 에이전트를 실행하는 것입니다. 생성기에서 생성된 질문-답변 쌍 또는 수동으로 주석이 달린 참조 기준 사실에 대해 에이전트를 실행하고 각 에이전트 상태는 다음 형식의 상태 출력을 검색합니다(LangGraph와 같은 널리 사용되는 프레임워크를 사용하는 경우 이 상태는 기본적으로 기록됩니다):

{
        "question": "What is the price of copper?",
        "agent_responses": [
            "The current price of copper is $0.0098 per gram."
        ],
        "agent_tool_calls": [
            {
                "name": "get_price",
                "args": {
                    "item": "copper"
                }
            }
        ],
        "agent_tool_outputs": [
            "$0.0098"
        ],
},

{

"question": "구리 가격이 얼마인가요?",

"에이전트_응답": [

"현재 구리의 가격은 그램당 $0.0098입니다."

"에이전트_도구_통화": [

{

"name": "get_price",

"args": {

"item": "구리"

}

"에이전트_도구_출력": [

"$0.0098"

에이전트의 이 출력을 데이터 모델에 전달합니다(평가 데이터 세트)를 사용하여 구조화된 골든 데이터 세트 (여기서 골든 데이터 세트는 평가에 필요한 모든 데이터, 즉 에이전트 출력과 에이전트가 실행된 기준 진실의 조합이 포함된 데이터 세트를 의미합니다.) 프레임워크에는 이 데이터를 래핑하고 유지하는 LoadOperator 클래스가 포함되어 있습니다. 이 클래스는 합성 데이터 집합을 보장합니다:

- 스키마에 대해 유효성 검사
- 자동 버전 관리
- 의미 있는 Couchbase에 저장된 데이터세트_설명

데이터 검색 및 저장의 핵심 구성 요소는 다음과 같습니다. 로드 연산자. 평가 데이터 세트의 수집, 저장 및 검색을 처리하여 Couchbase 저장소의 세부 사항을 추상화하고 나머지 프레임워크에 깔끔한 인터페이스를 노출합니다. 평가 데이터세트를 Couchbase KV 스토어에 로드하고 검색할 수 있습니다. 데이터세트_ID.

실험 만들기 및 수행

에이전트 시스템에서 응답을 받으면( 골든 데이터 세트), 평가 데이터 및 사용할 메트릭(다음 섹션에서 메트릭에 대해 자세히 설명)과 에이전트 시스템에 관한 기타 정보로 구성된 일련의 실험 옵션으로 구성된 프레임워크를 사용하여 실험(골든 데이터 세트에서 수행되는 단일 관리형 평가 인스턴스)을 시작합니다.

프레임워크의 실험 관리는 단순한 결과 로깅을 넘어 평가 실행의 모든 측면을 추적할 수 있는 포괄적이고 자동화된 시스템을 제공합니다. 각 실험은 고유하게 식별된 데이터 세트에 첨부되고, 설명 메타데이터와 타임스탬프로 로드 및 버전이 관리됩니다. 이를 통해 가상이든 실제든 모든 데이터 세트를 완전히 투명하게 추적하고 재사용할 수 있습니다. 구성 가능한 매개변수(예: 모델 체크포인트, 프롬프트 버전, 도구 체인)도 결과와 함께 저장되어 모든 실행에 대한 메타데이터 추적을 생성합니다.

또한 실험 관리자는 일련의 실험을 시작할 수 있는 기능을 제공하며, 각 연속적인 실험은 상위 실험에서 에이전트의 변경 사항을 추적합니다. 실험은 Git을 사용하여 버전이 관리되며, 코드를 커밋하고 실험을 실행하여 에이전트를 반복적으로 개발하고 여러 버전에서 동일한 에이전트에 대해 수행된 평가를 비교할 수 있습니다. 각 실험의 메타데이터에는 코드 차이 로그, 평균 메트릭 및 변경 사항이 상담원 시스템을 개선했는지 여부를 분석하는 데 사용할 수 있는 구성이 포함되어 있습니다. 또한 프레임워크에서 사용되는 모든 데이터 세트와 실험은 버전이 관리되고 쿼리가 가능하며 확장 가능합니다. 대규모 평가 세트를 저장하고, 대상 분석을 위해 하위 세트를 검색하고, 타임스탬프 및 데이터 세트 설명과 같은 메타데이터를 추적할 수 있어 플랫 파일, 스프레드시트 또는 인메모리 문서 기반 워크플로에 비해 크게 개선되었습니다.

카우치베이스에서 결과 유지

실험의 출력은 데이터 인스턴스와 해당 점수가 포함된 json 및 csv 파일로 구성됩니다. 단일 상담원 대화(개별 데이터 인스턴스)에 대한 샘플 결과는 아래와 같습니다:

[
    {
        "user_input": "What is the price of copper?",
        "retrieved_contexts": null,
        "response": null,
        "reference": null,
        "agent_responses": [
            "",
            "The current price of copper is $0.0098 per gram."
        ],
        "agent_tool_calls": [
            {
                "name": "get_metal_price",
                "args": {
                    "metal_name": "copper"
                }
            }
        ],
        "agent_tool_outputs": [
            "0.0098"
        ],
        "reference_tool_calls": [
            {
                "name": "get_metal_price",
                "args": {
                    "metal_name": "copper"
                }
            }
        ],
        "gt_answers": [
            "",
            "The current price of copper is $0.0098 per gram."
        ],
        "gt_tool_outputs": [
            "0.0098"
        ],
        "answer_faithfulness": 3,
        "logical_coherence": 1.0,
        "agent_response_correctness": 0.5
    },
]

[

{

"user_input": "구리 가격이 얼마인가요?",

"검색된_컨텍스트": null,

"응답": null,

"참조": null,

"에이전트_응답": [

"",

"현재 구리의 가격은 그램당 $0.0098입니다."

"에이전트_도구_통화": [

{

"name": "get_metal_price",

"args": {

"metal_name": "구리"

}

"에이전트_도구_출력": [

"0.0098"

"참조_도구_통화": [

{

"name": "get_metal_price",

"args": {

"metal_name": "구리"

}

"gt_answers": [

"",

"현재 구리의 가격은 그램당 $0.0098입니다."

"GT_TOOL_OUTPUTS": [

"0.0098"

"answer_faithfulness": 3,

"논리적 일관성": 1.0,

"에이전트_응답_정확성": 0.5

]

결과는 실험 ID와 함께 Couchbase KV 스토어에 저장됩니다. 실험은 다음을 사용하여 검색할 수 있습니다. 로드 연산자를 사용하여 다른 세션에서 수행한 실험을 참조하고 비교할 수 있습니다.

요컨대, 프레임워크를 사용하면 실험을 실행하는 것이 단순히 일회성 스크립트 실행에 그치지 않습니다. 관리되는 프로세스입니다:

1. 버전이 지정되고 설명된 기준 데이터 집합을 로드하거나 생성합니다.
2. 상담원 및 평가 매개변수를 구성하면 모두 기록됩니다.
3. 평가를 실행하면 프레임워크가 모든 관련 메타데이터와 함께 결과를 자동으로 저장합니다.
4. 나중에 모든 실험을 검색하여 시스템에 어떤 변화가 있었는지 정확히 확인하고 다른 실행과 비교할 수 있습니다.
5. 이러한 수준의 실험 관리는 평가를 '블랙박스'에서 투명하고 반복 가능하며 협업적인 프로세스로 전환하는 것입니다.

어떻게 작동하나요?

프레임워크의 중간 수준 아키텍처

프레임워크의 핵심에는 최종 결과를 도출하기 위해 함께 작동하는 네 가지 주요 구성 요소가 있습니다.

합성 데이터 생성기

데이터 생성기는 문서에서 합성 질문-답변 쌍을 생성합니다. 이러한 질문-답변 쌍은 프레임워크를 사용하여 에이전트 시스템을 평가하기 위한 기초 자료로 사용할 수 있습니다. 데이터 생성기는 문서(CSV, JSON 또는 일반 텍스트)를 가져와서 다음을 활용합니다. 몇 샷 프롬프트 는 쌍을 생성하기 위해 LLM을 미세 조정했습니다. 생성 과정은 다음과 같습니다:

1. 수집된 문서는 정리 및 전처리됩니다.
2. A REBEL 모델을 사용하여 각 문서에서 엔티티 관계를 추출합니다. REBEL, a seq2seq 200개 이상의 다양한 관계 유형에 대해 엔드투엔드 관계 추출을 수행하는 BART 기반 모델입니다.
3. 각 문서에 대해 엔티티-관계 맵이 생성됩니다. 이러한 각 엔티티-관계 맵은 MiniLM-V2 임베딩 모델(384개 딤 임베딩)을 사용하여 임베딩됩니다,
4. 각 문서에 대한 임베딩은 다음과 같은 임베딩 클러스터링 알고리즘을 사용하여 클러스터링됩니다. HDBSCAN 를 사용하여 의미적으로 유사한 문서의 'n'개의 클러스터를 가져옵니다.
5. 이러한 문서 클러스터는 멀티홉 쿼리 답변 쌍을 생성하기 위해 LLM에 제공됩니다.

합성 데이터 생성기의 아키텍처

사용자가 특정 형식이나 스타일로 쿼리와 답변을 생성하려는 경우 추가 정보 및 사용자 지정 지침을 제공할 수도 있습니다.

평가 데이터 세트

실측 데이터를 관리하기 위한 핵심 데이터 구조입니다. The 평가 데이터 세트 클래스는 기준 데이터와 상담원 출력(도구 호출, 상담원 응답 등)을 받아 원시 데이터를 처리하기 쉬운 형식으로 구조화하여 이후의 유효성 검사 프로세스를 진행합니다. 골든 데이터 세트(기준 데이터와 이에 대한 상담원 응답이 포함된 데이터 세트)를 평가에 중요하고 검증 엔진에서 쉽게 처리할 수 있는 속성 목록으로 변환합니다. 생성된 평가 데이터 세트에는 데이터 세트 ID가 있으며, 이를 사용하여 Couchbase 키-값 저장소에서 데이터 세트를 가져올 수 있으므로 데이터 세트를 로컬에 저장하고 관리할 필요가 없습니다.

유효성 검사 엔진

평가 데이터 세트를 처리하고 이에 대한 평가를 수행합니다. 메트릭 카탈로그와 연결되어 사용자에게 에이전트/RAG 시스템의 모든 부분을 평가하기 위한 전체 메트릭 세트를 제공합니다. 또한 메트릭 카탈로그는 RAGAS와 통합되어 있어 사용자가 필요한 경우 RAGAS 메트릭을 사용할 수 있는 유연성을 제공합니다. 검증 엔진은 평가 데이터 세트에 대한 메트릭을 계산하고 결과를 결합하여 해석 가능한 데이터 프레임과 함께 평균 지수를 형성하여 사용자에게 전체 시스템의 우수성에 대한 아이디어를 제공합니다.

실험 관리자

다른 모든 구성 요소를 연결하는 중앙 모듈입니다. 평가 실험을 생성하고 관리합니다. 실험은 평가의 개별 인스턴스로, 자세한 출력 및 메타데이터와 함께 코드 추적 기능으로 구성되어 사용자에게 두 실험 사이에 에이전트 시스템에 적용된 변경 사항에 대한 인사이트를 제공합니다.

실험 관리자는 평가 데이터와 사용할 메트릭 및 에이전트 시스템에 관한 기타 정보로 구성된 실험 옵션 세트를 가져와서 유효성 검사 엔진에 연결하여 데이터 세트를 평가하고 계산된 점수를 얻습니다. 그런 다음 점수를 처리하고 형식을 지정하여 평가를 유추하고 다른 실험을 비교할 수 있는 실험 메타데이터와 함께 평가 보고서를 생성합니다.

또한 실험 관리자는 사용자가 일련의 실험을 시작할 수 있는 기능을 제공하며, 각 연속적인 실험은 상위 실험에서 에이전트의 변경 사항을 추적합니다. 사용자가 반복적으로 에이전트를 개발하고 여러 버전에서 동일한 에이전트에 대해 수행된 평가를 비교할 수 있습니다. 각 실험의 메타데이터에는 코드 차이 로그, 평균 메트릭 및 구성이 포함되어 있어 변경 사항이 상담원 시스템을 개선했는지 여부를 분석하는 데 사용할 수 있습니다.

에이전트 시스템에 적합한 메트릭 선택하기

상담원 시스템을 평가할 때는 그 성과를 정확하게 평가하기 위해 올바른 지표를 선택하는 것이 중요합니다. 메트릭의 선택은 결과를 해석하고 반복적으로 개선하는 방법에 직접적인 영향을 미칩니다. AI 시스템의 경우 다음 사항을 고려하여 메트릭을 선택해야 합니다:

시스템 유형

- RAG 시스템: 검색 지표(정확도, 리콜) 및 생성 지표(충실도, 정답 정확도)에 중점을 둡니다.
- 에이전트 시스템: 도구 호출의 정확성, 논리적 일관성, 답변의 충실성 우선 순위 지정

사용 케이스 요구 사항

- 질문 답변: 답의 정확성 및 관련성 강조하기
- 정보 검색: 컨텍스트 정밀도 및 리콜에 집중
- 추론 작업: 논리적 일관성 및 충실성 우선 순위 지정

기술 고려 사항

- 계산 비용: 임베딩 기반 지표는 토큰 기반 지표보다 무겁습니다.
- API 종속성: LLM-as-judge 메트릭에는 API 액세스가 필요합니다.
- 일괄 처리: 일부 메트릭은 효율적인 일괄 평가를 지원합니다.

위의 프로세스를 보다 쉽게 진행할 수 있도록 상담원 시스템의 성능을 가장 잘 파악할 수 있는 5가지 메트릭을 소개합니다:

1. 도구 c모두 정확성: 상담원이 올바른 매개 변수와 함께 올바른 도구를 사용하는지 평가합니다.
2. 도구 정확성: 도구 출력을 실측 도구 출력과 비교합니다. 도구가 얼마나 정확한지 측정합니다.
3. 에이전트 응답 정확성: 기준 진실과 비교하여 상담원 응답의 정확성을 평가합니다. 전체 상담원 응답의 품질을 측정합니다.
4. 논리적 일관성: 상담원 응답의 논리적 흐름과 추론을 평가하고, 시스템 내 상담원 간의 명령 체인과 각 상담원이 사용자 쿼리에 응답하기 위해 서로 얼마나 잘 협력하는지 분석하는 데 도움이 됩니다.
5. 답변 충실성: 상담원의 응답이 상담원이 가져온 도구 출력과 일치하는지 확인합니다.

마지막 단계는 분석으로, 결과를 집계하고 메트릭을 계산하며 결정적으로 에이전트가 실패한 위치와 이유를 파악하는 것입니다. 이 단계에서 이전 단계에서의 표준화 및 자동화 부족이 다시 개발자를 괴롭히게 됩니다. 불일치를 디버깅하고, 오류의 원인을 추적하고, 에이전트나 데이터를 반복하는 작업은 느리고 오류가 발생하기 쉽습니다.

더 자세히 알아보기: 효과적인 결과 해석하기

적절한 지표를 선택하고 실험을 실행하여 결과를 얻었으니 이제 다음 단계는 무엇일까요? 수집한 무작위로 보이는 숫자를 어떻게 이해해야 할까요? 이러한 결과를 해석하는 것은 시스템의 동작과 성능을 이해하는 데 있어 매우 중요한 단계입니다. 결과를 분석하고, 인사이트를 발견하고, 변경 사항의 영향을 평가하기 위한 몇 가지 효과적인 전략이 있습니다. 이 단계에서는 원시 메트릭을 상담원의 강점, 약점 및 개선이 필요한 영역에 대한 실행 가능한 지식으로 변환합니다.

비교 분석 기법

서로 다른 두 개의 에이전트 구현 또는 버전을 비교할 때:

나란히 메트릭 비교

- 두 에이전트의 모든 테스트 케이스에서 각 메트릭의 평균을 구합니다.
- 시스템 간의 상대적인 개선 사항을 계산합니다(예: "에이전트 B는 에이전트 A보다 도구 호출 정확도가 12% 향상됨").
- 레이더 차트를 사용하여 다차원 성능 환경 시각화하기
- 상호 보완적인 강점 파악(예: "상담원 A는 도구 선택에 탁월하고 상담원 B는 더 충실한 응답을 제공합니다")

쌍 분석

- 동일한 쿼리에 대한 성능을 비교하여 시스템적 차이점 파악
- 한 상담원이 다른 상담원보다 더 나은 성과를 내는 쿼리의 비율 계산하기
- 성능 차이가 가장 두드러지는 쿼리 유형 파악하기

해석 예시: "에이전트 B의 평균 도구 호출 정확도가 더 높지만(0.87 대 0.79), 복잡한 다단계 추론 작업에서는 에이전트 A가 더 나은 성능을 보여 에이전트 B가 더 단순하지만 더 안정적인 패턴을 사용할 수 있음을 시사합니다."

분포 분석 접근 방식

메트릭 점수의 분포를 이해하면 평균만으로는 알 수 없는 더 깊은 인사이트를 얻을 수 있습니다:

히스토그램 분석

- 각 메트릭에 대한 점수 분포도 그리기
- 성능이 정규 분포를 따르는지 또는 클러스터링/이중 모달리티를 보이는지 식별합니다.
- 서로 다른 구현 간의 스프레드(분산) 비교

사분위수 분석

- 25번째, 50번째(중앙값) 및 75번째 백분위수를 살펴봅니다.
- 중앙값과 75번째 백분위수 사이의 격차가 크면 성능이 일관되지 않음을 나타냅니다.
- 하위 사분위수를 높이는 데 개선 노력 집중

해석 예시: "에이전트 A의 툴 호출 정확도는 0.4와 0.9에서 정점을 이루는 이원 분포로, 일부 쿼리 유형에서는 매우 우수한 성능을 보이지만 다른 쿼리 유형에서는 상당한 어려움을 겪고 있음을 나타냅니다. 에이전트 B는 0.75를 중심으로 더 좁은 분포를 보이며, 이는 더 일관적이지만 덜 예외적인 성능을 나타냅니다."

임계값 기반 분석

성능 임계값을 설정하면 성공률을 정량화하는 데 도움이 됩니다:

성공률 계산

- 각 메트릭에 대해 허용 가능한 임계값을 정의합니다(예: 도구 호출 정확도 > 0.85).
- 각 임계값을 초과하는 샘플의 비율을 계산합니다.
- 충족하기 가장 어려운 임계값 파악하기

다중 기준 분석

- 여러 지표에서 동시에 임계값을 충족하는 것을 성공으로 정의합니다.
- 모든 기준을 충족하는 샘플의 비율 계산하기
- 가장 일반적인 실패 지점 파악

해석 예시: "에이전트 A의 응답 중 78%가 도구 정확도 임계값인 0.9를 충족하지만, 동시에 응답 충실도 임계값인 0.85를 충족하는 것은 62%에 불과합니다. 이는 에이전트가 때때로 잘못된 추론 경로를 통해 올바른 출력을 생성한다는 것을 의미합니다."

이러한 분석적 접근 방식을 상담원 메트릭에 적용하면 시스템 성능을 합리적으로 이해하고, 개선 결정을 내리고, 배포를 위한 신뢰할 수 있는 품질 표준을 수립할 수 있습니다. 이러한 체계적인 분석은 단순한 메트릭을 넘어 다양한 상황에서 상담원의 역량과 한계를 진정으로 이해하는 데 도움이 됩니다.

예: 데이터 분석 에이전트 평가

이 프레임워크는 Couchbase에 저장된 데이터를 기반으로 쿼리에 응답하도록 설계된 대화형 에이전트에서 테스트했습니다. 에이전트는 사용자 질문을 받아 SQL++ 쿼리를 생성하여 스토어에서 해당 문서를 가져오는 NL2SQL++ 도구로 질문을 전달하고, 검색된 문서를 사용하여 사용자 질문에 대한 자세한 답변과 분석 보고서를 생성합니다.

평가를 위해 에이전트는 미국 전역의 에어비앤비 숙소 세부 정보가 포함된 에어비앤비 숙소 데이터 세트에서 실행되었습니다. 합성 데이터 생성기를 사용하여 데이터 인스턴스에 대한 질문과 참조 답변을 생성했습니다. 아래는 합성 데이터 생성기가 생성한 쿼리 답변 쌍의 샘플 세트입니다:

[
  {
    "question": "What type of room is offered in the \"Clean and quiet apt home by the park\?"
    "answer": "The room type offered in the \"Clean and quiet apt home by the park\" is a Private room. This conclusion is based on the data retrieved from the Airbnb listings, where the specific entry for this listing name was queried to determine the type of accommodation provided. The data clearly indicates that the listing is categorized under the \"Private room\" type, meaning guests will have a private space within a shared property."
  },
  {
    "question": "What is the cancellation policy for the \"Skylit Midtown Castle\"?"
    "answer": "The cancellation policy for the \"Skylit Midtown Castle\" is moderate. This conclusion is drawn from the data retrieved from the Airbnb listings, where the specific entry for this listing name was queried to determine the cancellation terms. The data indicates that the listing follows a moderate cancellation policy, which typically allows for more flexibility compared to strict policies, offering guests the ability to cancel within a certain timeframe before the check-in date for a full refund."
  }
]

[

{

"question": "공원 옆의 깨끗하고 조용한 아파트형 주택에는 어떤 종류의 객실이 있나요?"

"answer": "공원 옆 깨끗하고 조용한 아파트"에 제공되는 객실 유형은 개인실입니다. 이 결론은 에어비앤비 숙소 이름에 대한 특정 항목을 쿼리하여 제공되는 숙박 유형을 파악한 데이터를 기반으로 합니다. 데이터에 따르면 해당 숙소는 '개인실' 유형으로 분류되어 있으며, 이는 게스트가 공유 숙소 내에서 개인 공간을 사용하게 된다는 의미입니다."

{

"question": "스카이릿 미드타운 캐슬의 취소 정책은 어떻게 되나요?"

"answer": "스카이릿 미드타운 캐슬"의 취소 정책은 보통입니다. 이 결론은 에어비앤비 숙소 이름에 대한 특정 항목을 쿼리하여 취소 조건을 확인한 데이터에서 도출된 것입니다. 데이터에 따르면 이 숙소가 보통 수준의 취소 정책을 따르고 있으며, 일반적으로 엄격한 정책에 비해 유연성이 높아 게스트는 체크인 날짜 전 일정 기간 내에 취소하고 전액 환불받을 수 있는 것으로 나타났습니다."

}

]

이 특정 실험을 위해 40개의 쿼리 문서 쌍이 생성되었습니다. 이렇게 생성된 쿼리에 대해 에이전트를 실행하고 출력을 기록하여 평가 데이터 세트를 만들었습니다.

평가 데이터 세트(골든 데이터 세트)는 다음으로 구성됩니다:

1. 질문: 질문: 데이터 집합에서 생성된 질문
2. 근거 진실 답변: 생성된 질문에 대한 참조(정답) 답안입니다.
3. 참조 컨텍스트: 쿼리가 생성된 실측 데이터 소스(실측 데이터 도구 출력)
4. 검색된 컨텍스트: NL2SQL++ 도구를 사용하여 검색된 문서는 생성된 쿼리(도구 출력)에서 실행됩니다.
5. 상담원 응답: 쿼리 및 검색된 컨텍스트에 대한 상담원의 응답입니다.

이 평가 데이터 세트에 대해 의미적 유사성, 문맥 정확도, 답변 관련성의 세 가지 메트릭을 사용하여 실험을 만들었습니다. 의미적 유사성은 검색된 문맥과 참조 문맥 간의 임베딩 유사성을 측정합니다. 문맥 정확도는 검색된 문맥이 쿼리 및 참조 문맥에 대해 얼마나 정확한지를 측정합니다. 응답 관련성은 상담원의 응답이 사용자 쿼리 및 검색된 컨텍스트와 얼마나 관련이 있는지를 측정합니다.

이 특정 실험에 대한 실험 메타데이터와 함께 평균 메트릭 점수가 아래에 제공됩니다. 여기서 '평균'은 평가 데이터 세트의 데이터 포인트에 대한 각 지표의 평균을 의미합니다:

{
  "experiment_id":"experiment5",
  "timestamp":"2025-03-20T11:17:46.411457",
  "llm_model":"gpt-4o",
  "metrics":["semantic_similarity", "context_precision", "answer_relevancy"],
  "dataset_size":40,
  "dataset_id":"11b2d36a-4f00-40d2-bbe7-e614f4a77f1f",
  "avg_metrics":{
    "semantic_similarity":0.85,
    "context_precision":0.99,
    "answer_relevancy":0.90,
  }
}

{

"실험_ID":"experiment5",

"timestamp":"2025-03-20T11:17:46.411457",

"llm_model":"gpt-4o",

"metrics":["시맨틱_유사성", "context_precision", "답변_관련성"],

"데이터세트_크기":40,

"dataset_id":"11b2d36a-4f00-40d2-bbe7-e614f4a77f1f",

"avg_metrics":{

"시맨틱_유사성":0.85,

"context_precision":0.99,

"답변_관련성":0.90,

}

메트릭 품질 분석 표는 각 메트릭의 임계값과 주어진 임계값 이상의 점수를 받은 데이터 포인트 수를 사용하여 평가 데이터 집합에서 전체 상담원의 성과를 분석하는 데 도움이 될 수 있습니다.

S.No	Metric	임계값	임계값을 초과하는 샘플	총 샘플 수	정확도(%)
1	의미적 유사성	0.70	40	40	100.00
2	컨텍스트 정밀도	0.90	40	40	100.00
3	답변 관련성	0.70	37	40	92.50

평가 결과, NL2SQL++는 40개의 테스트 샘플 모두 사전 정의된 임계값 이상의 의미적 유사성 및 문맥 정밀도 점수를 달성하며 강력한 성능을 일관되게 보여주었습니다. 이는 이 도구가 사용자의 의도를 안정적으로 파악하고 자연어 쿼리를 구조화된 SQL로 정확하게 번역한다는 것을 의미합니다.

최종 응답을 생성하는 LLM의 성과도 매우 우수했습니다. 40개의 응답 중 37개가 메트릭 임계값을 초과했지만, 나머지 3개는 약간 미달했습니다. LLM은 본질적으로 참조 콘텐츠 라인을 복제하는 것이 아니라 새로운 토큰 시퀀스를 생성하기 때문에 이러한 사소한 편차는 예상되는 것입니다. 이러한 편차에도 불구하고 이 모델은 전반적으로 높은 답변 정확도를 유지했으며, 그렇지 않았다면 더 큰 지표 하락이 관찰되었을 것입니다.

임계값을 충족하지 못한 샘플을 포함하여 개별 샘플을 검사할 수 있는 상세한 실험 보고서를 통해 편차 정도와 잠재적인 이유에 대한 인사이트를 얻을 수 있습니다.

결론

이 프레임워크는 사용자에게 여러 도메인과 사용 사례에서 AI 시스템을 평가할 수 있는 지속적인 방법을 제공하고, 데이터에 일관된 형식을 사용하여 평가를 간소화하고, 데이터 처리를 자동화하고, 실제 수집하기 어려운 예시 시나리오를 생성하는 것을 핵심 요구 사항으로 하여 구축되었습니다. 또한 상담원이 수행하는 모든 단계를 추적할 수 있어 여러 상담원이 함께 작업할 때 유용합니다. 앞으로 이러한 도구는 실제 요구사항의 변화에 따라 테스트 사례를 업데이트하고, 누구나 이해하기 쉬운 보고서를 생성하며, 편견이나 안전하지 않은 행동을 포착하기 위한 점검을 포함하여 계속 개선될 것으로 예상됩니다. 이렇게 함으로써 AI 에이전트가 안정적이고 투명하며 무엇보다도 개발자의 요구사항에 부합하는 상태를 유지할 수 있습니다.

구탐 크리슈난 - 소프트웨어 엔지니어

이 문서 공유하기

Platform

Self-Managed

Services

Capabilities

Why Couchbase?

Migrate to Capella

By Use Case

By Industry

By Application Need

Popular Docs

By Developer Role

Quickstart

Resource Center

About

Partnerships

Our Services

Partners: Register a Deal

Ready to register a deal with Couchbase?

Marriott

에이전트 AI 워크플로 평가

AI 에이전트 평가가 중요한 이유

상담원 평가 프로세스 세분화

기초 자료 준비

실사 기반에서 에이전트 실행

실험 만들기 및 수행

카우치베이스에서 결과 유지

어떻게 작동하나요?

합성 데이터 생성기

평가 데이터 세트

유효성 검사 엔진

실험 관리자

에이전트 시스템에 적합한 메트릭 선택하기

더 자세히 알아보기: 효과적인 결과 해석하기

비교 분석 기법

분포 분석 접근 방식

임계값 기반 분석

예: 데이터 분석 에이전트 평가

결론

받은 편지함에서 카우치베이스 블로그 업데이트 받기

작성자

게시자 구탐 크리슈난 - 소프트웨어 엔지니어

댓글 남기기 응답 취소

카우치베이스 카펠라를 시작할 준비가 되셨나요?

구축 시작

카펠라 무료 사용

연락하기