[re:Invent 2025] Amazon Bedrock AgentCore의 모든 것: 기본 개념부터 최신 Policy & Evaluation 기능까지

작성자 박 수현 작성일 1월 21, 2026 조회수 85

우리는 지금 단순한 생성형 AI를 넘어, 스스로 판단하고 비즈니스 로직을 실행하는 ‘에이전틱 AI(Agentic AI)’라는 거대한 변곡점에 서 있습니다. 2025년 AWS re:Invent에서 맷 가먼(Matt Garman) CEO가 강조했듯, AI 에이전트는 과거 인터넷이나 클라우드가 그랬던 것처럼 우리의 일하는 방식을 근본적으로 바꿀 ‘게임 체인저’로 부상했습니다.

이번 기조연설에서는 기업 내부에서 AI 에이전트를 성공적으로 동작시키기 위한 ‘4가지 핵심 기초‘와 이를 뒷받침하는 서비스들이 대거 공개되었습니다. 이는 에이전트가 단순히 똑똑한 답변을 하는 것을 넘어, 실제 기업의 복잡한 워크플로우를 안전하고 효율적으로 수행하도록 만드는 토대가 됩니다.

하지만 현실적으로 많은 기업이 프로토타입(PoC) 단계에서는 성능에 감탄하면서도, 이를 실제 서비스에 적용하려 할 때 거대한 장벽에 부딪힙니다. 수만 명의 사용자를 감당할 수 있는 안정적인 인프라를 설계하고, 끊김 없는 세션을 유지하며, 엄격한 보안 규정을 준수하는 시스템을 바닥부터 개발하려면 막대한 비용과 수개월의 시간이 소요되기 때문입니다.

도입: 에이전트 개발의 새로운 기준, Amazon Bedrock AgentCore

Amazon Bedrock AgentCore는 이러한 인프라적인 번거로움을 완전히 걷어내기 위해 탄생했습니다. 프리뷰 출시 후 5개월 만에 200만 회 이상의 SDK 다운로드를 기록한 것은, 그만큼 현장의 갈증이 컸다는 것을 의미합니다. AgentCore는 개발자가 인프라가 아닌 ‘에이전트의 기능’ 그 자체에만 집중할 수 있는 엔터프라이즈급 통합 환경을 제공합니다.

AgentCore가 제공하는 강력한 기술적 기반

프레임워크의 자율성 (Runtime): 특정 기술에 종속되지 않습니다. LangGraph, CrewAI 같은 인기 오픈소스 프레임워크나 최신 파운데이션 모델(FM)을 그대로 사용하면서도, AWS의 보안이 적용된 샌드박스 환경에서 저지연으로 에이전트를 실행할 수 있습니다.
지능적 연속성 (Memory): 에이전트가 단기적인 대화 흐름을 넘어 사용자와의 과거 상호작용을 기억하도록 돕습니다. 이를 통해 시간이 지날수록 사용자에게 최적화된 학습형 서비스를 제공합니다.
안전한 외부 연결 (Gateway & Identity): Slack, Salesforce, GitHub 등 기업이 이미 사용 중인 도구들과 에이전트를 연결하는 과정은 보안상 매우 까다롭습니다. AgentCore는 사용자 동의 및 권한 관리 프로세스를 자동화하여, 보안 사고 걱정 없이 외부 API를 연동하게 해줍니다.
투명한 디버깅 (Observability): 에이전트가 어떤 데이터에 근거해 결정을 내렸는지, 어느 단계에서 오류가 발생했는지 단계별로 시각화합니다. 이는 복잡한 에이전틱 워크플로를 최적화하는 데 필수적인 도구입니다.

왜 지금 ‘Policy(정책)’와 ‘Evaluations(평가)’가 필요한가?

AgentCore가 에이전트 구축의 ‘속도’와 ‘편의성’을 획기적으로 높여주었지만, 기업들이 상용화 단계에서 마주하는 마지막 거대한 장벽이 있습니다. 바로 “이 에이전트를 안심하고 고객 앞에 내놓을 수 있는가?”라는 신뢰성의 문제입니다.

고객 지원 에이전트가 프로토타입 단계에서는 훌륭하게 작동하더라도, 실제 운영 환경에서는 다음과 같은 위험 요소가 존재합니다.

제어 불능의 위험: 에이전트가 사내 규정을 벗어난 답변을 하거나, 허가되지 않은 데이터에 접근할 경우 기업에 치명타가 될 수 있습니다.
품질 측정의 한계: “답변이 적절한가?”라는 주관적인 판단을 넘어, 수만 건의 케이스에서 일관된 정확도와 근거를 가지고 있는지 객관적으로 검증해야 합니다.

이러한 장벽을 허물고 ‘믿고 쓸 수 있는 AI’를 완성하기 위해, 이번 업데이트를 통해 품질 평가와 정책 제어 기능이 새롭게 추가되었습니다. 이제 에이전트에게 단순한 ‘지능’을 주는 것을 넘어, 엄격한 ‘가이드라인’과 ‘검증 시스템’을 부여할 수 있게 된 것입니다.

AgentCore 정책 기능을 통해 에이전트를 정밀하게 제어하기

이제 AgentCore가 제공하는 두 가지 강력한 기둥, Policy Control(정책 제어)와 Evaluations(품질 평가)가 실제로 어떻게 작동하고 어떤 가치를 제공하는지 자세히 살펴보겠습니다.

에이전트에게 자율성을 주는 것은 혁신적이지만, 동시에 위험 요소가 될 수 있습니다. AgentCore의 정책 제어 기능은 에이전트가 수행하는 모든 행동에 대해 ‘승인된 경계’를 설정합니다.

AgentCore Policy(미리 보기)는 에이전트의 행동을 제어하는 가장 강력하고 세밀한 안전장치입니다. 단순히 에이전트에게 “하지 마”라고 프롬프트를 주는 수준이 아닙니다.

1. 핵심 개념: 정책 엔진(Policy Engine)과 게이트웨이의 만남

이 기능의 핵심은 ‘정책 엔진’입니다. 정책 엔진은 에이전트가 외부 세상과 소통하는 통로인 AgentCore Gateway에 부착되어 작동합니다.

작동 원리 (Interception): 에이전트가 API를 호출하거나 DB에 접근하려 할 때, 요청이 실제 시스템에 도달하기 전 게이트웨이 단계에서 즉시 가로채어 정책 위반 여부를 검사합니다.
무중단 보안: 이 모든 과정은 밀리초(ms) 단위로 이루어지며, 정책에 위배되는 행동은 그 즉시 차단(Deny)됩니다. 에이전트 로직을 수정할 필요 없이 정책만 업데이트하면 보안 규칙을 즉시 변경할 수 있습니다.

2. 누구나 쉽게: 자연어로 정책 작성하기

“코딩을 모르는 보안 담당자도 정책을 만들 수 있을까?” AgentCore는 이 질문에 ‘YES’라고 답합니다. 문서에서 볼 수 있듯, 자연어 정책 작성 기능을 제공합니다.

사용 예시: 복잡한 코드 대신 *”사용자는 자신의 주문 내역만 조회할 수 있고, 환불 처리는 50달러 미만일 때만 승인해라”*라고 입력하면 됩니다.
자동 변환 및 검증: 입력된 자연어는 AWS의 정책 언어인 Cedar 코드로 자동 변환되며, 이 과정에서 문법적 오류나 논리적 모순이 없는지 자동으로 검증됩니다.

3. 전문가를 위한 정교함: Cedar 정책 언어 활용

더 세밀하고 복잡한 제어가 필요한 경우, AWS의 오픈 소스 정책 언어인 Cedar를 직접 사용할 수 있습니다.

Permit & Forbid: Cedar는 permit(허용)과 forbid(금지) 구문을 사용하여 명확한 규칙을 정의합니다. 특히 ‘금지 우선’ 모델을 따르기 때문에, 실수로 허용 규칙을 넣었더라도 금지 규칙이 하나라도 있으면 안전하게 차단됩니다.
세분화된 제어: “마케팅 팀 에이전트는 고객 DB에서 이메일 필드만 읽을 수 있고 전화번호는 볼 수 없다”와 같이 필드 단위의 정밀한 제어가 가능합니다.

4. 안전한 배포를 위한 첫걸음: 로그 전용(Log-only) 모드

정책을 바로 적용했다가 정상적인 서비스까지 막히면 어떡할까요? 이를 위해 AgentCore는 로그 전용 모드를 지원합니다.

시뮬레이션: 정책을 ‘차단’ 모드로 두기 전에, 로그 모드로 설정하면 정책 위반 상황을 기록만 남깁니다.
안전한 이관: 개발팀은 로그를 분석하여 정책이 의도한 대로 작동 하는지 확인한 후, 프로덕션 환경에 안전하게 적용할 수 있습니다.

AgentCore에서 정책 사용하기

AgentCore 콘솔의 정책 섹션에서 정책 엔진을 생성하고 하나 이상의 AgentCore 게이트웨이와 연결하는 것으로 시작할 수 있습니다.

정책 엔진은 게이트웨이 엔드포인트에서 검증되는 여러 정책들의 집합입니다. 게이트웨이와 정책 엔진을 연동할 때는 두 가지 모드 중 선택할 수 있습니다: 정책 결과를 실제로 강제 적용하여 도구 호출을 허용/차단할 것인지, 아니면 로그만 기록할 것인지 결정하는 것입니다. 로그 모드를 활용하면 실제 운영 환경에 배포하기 전에 정책을 안전하게 검증할 수 있습니다.

이후 연동된 AgentCore 게이트웨이가 제공하는 도구들에 대해 세밀한 접근 제어를 위한 정책 규칙을 설정할 수 있습니다.

정책을 생성할때 프롬프트(사용할 인증 클레임에 대한 정보 포함)로 시작하거나 Cedar 코드를 직접 편집할 수 있습니다.

위 예시는 아래 보안 정책 규칙을 프롬프트로 작성하여 Cedar 코드를 생성한 예시입니다.

보안 정책 규칙:

사용자가 “messaging:write” 스코프를 가지고 있지 않으면 슬랙 메시지 금지
URL에 “INTERNAL”이 포함된 웹사이트 조회는 사용자명이 “ADMIN-“으로 시작하는 경우만 허용
“allowed” 그룹에 속한 사용자는 슬랙 메시지 허용

자연어 기반 정책 작성 기능으로 복잡한 정책도 손쉽게 만들 수 있습니다. 복잡한 정책 코드 문법을 익힐 필요 없이, 평범한 영어로 원하는 규칙을 설명하면 됩니다. 시스템이 자동으로 의도를 파악하여 정책 초안을 만들고, 도구 스키마 기준으로 검증한 뒤, 자동 추론 엔진을 통해 안전성을 점검합니다. 이 과정에서 너무 느슨하거나 엄격한 규칙, 또는 실행 불가능한 조건들을 미리 감지해냅니다. 다만, 현재 Preview 버전에서는 영어 프롬프트만 가능합니다.

단순한 LLM 번역 방식과는 차별화되는 점은, 실제 도구 구조를 분석하여 문법적으로 정확하면서도 의도에 맞는 정책을 생성하고, 적용 불가능한 규칙은 명확히 표시한다는 것입니다. 더 나아가 Model Context Protocol(MCP) 서버로도 제공되어, 평소 사용하는 AI 코딩 도구 안에서 바로 정책을 작성하고 검증할 수 있습니다. 이런 방식 덕분에 Cedar 전문 지식 없이도 빠르게 학습하고 높은 수준의 권한 제어 규칙을 작성할 수 있습니다.

다음 샘플 정책은 에이전트가 민감한 비즈니스 로직(예: 고객 지원 등)을 수행할 때, 요청자가 적절한 권한을 가졌는지 확인하고 동시에 시스템 오류를 방지하기 위해 데이터 구조를 검증하는 정교한 정책입니다. 에이전트가 단순히 도구를 호출하는 것을 넘어, ‘누가’, ‘무엇을’, ‘얼마나‘에 대한 모든 조건을 검증합니다.

시나리오: ‘환불 처리(Refund)’ 도구를 호출할 때의 조건
1. 누가: 사용자의 권한 등급이 ‘Premium’이어야 합니다.
2. 무엇을: 입력 데이터에 ‘refund_reason(환불 사유)’ 필드가 반드시 포함되어야 합니다 (데이터 무결성).
3. 얼마나: 사고 방지를 위해 환불 금액은 200달러 미만이어야 합니다.


// 역할 기반 권한 + 데이터 무결성 + 금액 제한 통합 정책
permit(
    principal is AgentCore::OAuthUser,
    action == AgentCore::Action::"RefundTool__process_refund",
    resource == AgentCore::Gateway::"<YOUR_GATEWAY_ARN>"
)
when {
    // 1. 역할 기반(RBAC): 'Premium' 티어 사용자만 허용
    principal.hasTag("SupportTier") &&
    principal.getTag("SupportTier") == "Premium" &&

    // 2. 필드 존재 여부 확인: 'refund_reason' 필드가 누락되면 차단
    context.input has refund_reason &&

    // 3. 값 기반 제어: 환불 금액이 200달러 미만인 경우만 승인
    context.input.amount < 200
};

AgentCore Evaluations로 에이전트 품질을 실시간 모니터링하기

AgentCore Evaluations는 실시간으로 에이전트 품질을 모니터링하는 완전 관리형 서비스입니다. 정확성, 안전성, 목표 달성률 같은 기본 지표뿐 아니라 비즈니스에 특화된 커스텀 평가 기준도 설정할 수 있으며, 실제 사용자 상호작용을 샘플링하여 지속적으로 성능을 측정합니다. 평가 결과는 Amazon CloudWatch에서 AgentCore Observability와 함께 시각화되고, 임계값 기반 알림을 통해 품질 저하를 즉시 감지할 수 있습니다. 배포 전 테스트 단계에서 기준선 대비 검증은 물론, 운영 중에도 지속적인 품질 관리가 가능합니다.

AgentCore 평가 기능을 통해 에이전트 성능 검증하기

Add a data source에서 데이터를 가져올 대상을 정합니다. Define with an agent endpoint를 선택하여 현재 운영 중인 에이전트를 지정하거나, 외부 에이전트라면 Select a Cloudwatch log group을 통해 로그 데이터를 연결할 수 있습니다.

Response Quality Metric: 답변의 사실 여부를 확인하는 Correctness(정확성)와 출처 기반의 Faithfulness(신빙성)를 선택합니다.
Safety Metric: 유해 콘텐츠를 감지하는 Harmfulness(유해성)와 특정 집단에 대한 편견을 체크하는 Stereotyping(고정관념)을 활성화하면 됩니다.
Component Level Metric: 에이전트가 도구를 적절히 골랐는지 확인하는 Tool selection accuracy를 통해 기술적 완성도를 체크합니다.

맞춤형 평가자 (Custom Evaluators) 추가: 우리 비즈니스만의 특수한 기준(예: 상담 친절도 점수)이 필요하다면 아래의 Custom evaluators 섹션에서 직접 정의한 평가 로직을 추가할 수 있습니다.

평가 생성을 완료하려면 샘플링 속도와 선택적 필터를 선택할 수 있습니다. 모든 대화를 평가하면 비용 부담이 클 수 있습니다. 효율적인 운영을 위해 샘플링을 설정합니다.

Filter traces: 특정 조건(예: 특정 지역 고객과의 대화만)에 맞는 데이터만 뽑아서 평가하고 싶다면 Add filter 버튼을 클릭해 필터를 추가합니다. 권한의 경우 새 IAM 서비스 역할을 생성하거나 기존 역할을 전달할 수 있습니다.

Sampling rate: 슬라이더를 조절하여 전체 트래픽 중 평가에 사용할 비율(예: 10%)을 설정합니다.

평가 결과는 평가되는 즉시 Amazon CloudWatch 의 AgentCore Observability 대시보드에 게시됩니다. 막대 차트의 각 섹션을 선택하여 해당 추적 정보를 확인하고 특정 평가에 사용된 요청 및 응답에 대한 심층적인 분석을 수행할 수 있습니다.

시각화 (Observability): 평가 결과는 CloudWatch의 AgentCore Observability 대시보드에 즉시 게시됩니다. 막대 차트를 클릭하면 특정 대화의 심층 분석(Deep Dive)이 가능합니다.
알람 및 자동화 (Alarms): “지난 8시간 동안 에이전트의 친절도 점수가 10% 이상 하락하면 즉시 개발팀에 슬랙 알림을 보내라”와 같은 자동화 규칙을 설정할 수 있습니다. 지표가 임계값을 벗어날 때 즉각 대응하여 서비스 품질을 유지합니다.

AgentCore 평가에서 사용자 지정 평가기 생성하기

사용자 지정 평가기를 통해 비즈니스에 특화된 품질 지표를 직접 정의할 수 있습니다. 평가에 사용할 모델과 커스텀 프롬프트, 온도·최대 토큰 같은 추론 파라미터를 설정하면 되며, 기본 제공되는 평가기 프롬프트를 수정하거나 완전히 새롭게 작성할 수도 있습니다.

다음으로 평가 결과의 출력 스케일을 설정합니다. 숫자 값이나 커스텀 텍스트 레이블 중 선택할 수 있으며, 평가 범위도 단일 트레이스, 전체 세션, 또는 개별 툴 호출 단위로 지정 가능합니다.

에이전트 상용화 방식: 자체 구축 vs AgentCore

정책과 평가 기능을 포함하여, 기업이 에이전트를 상용화할 때 선택할 수 있는 두 가지 경로를 비교하면 다음과 같습니다.

구분	자체 구축 (In-house 개발)	Amazon Bedrock AgentCore
정책 제어 (Policy)	프롬프트 엔지니어링이나 하드 코딩에 의존하여 규칙 변경 시 로직 수정 필요	자연어 및 Cedar 언어로 로직 수정 없이 즉각적이고 정밀한 경계 설정 가능
품질 평가 (Eval)	수동 샘플링이나 주관적 판단 위주로 대규모 검증에 막대한 시간 소요	완전 관리형 서비스로 실시간 모니터링 및 객관적 지표(정확성, 유해성 등) 측정
인프라/보안	인증, 게이트웨이, 샌드박스 환경 등을 바닥부터 설계 및 구축	AWS 보안이 적용된 엔터프라이즈급 통합 환경(Runtime, Gateway)를 즉시 활용
개발 속도	상용화 수준의 신뢰성을 확보하기 위해 통상 수개월 소요	인프라 번거로움 없이 에이전트의 핵심 기능 구현에만 집중 가능

결론: ‘신뢰’라는 갑옷을 입은 AI 에이전트, 이제는 현업으로

AgentCore의 Policy와 Evaluations를 살펴보면서, AI 에이전트 시장이 이제 본격적으로 실무 환경으로 진입하고 있다는 걸 느낍니다. 그동안 “이런 것도 가능하구나”라며 가능성을 탐색하던 시기를 지나, 이제는 “얼마나 신뢰하고 활용할 수 있는가”에 대한 답을 제시해야 하는 단계에 와 있습니다.

실무 도입의 가장 큰 걸림돌은 신뢰성과 통제 가능성이었습니다. 실제로 많은 기업들이 할루시네이션이나 보안 리스크에 대한 우려로 에이전트 도입을 주저해왔는데, AgentCore의 정책 엔진은 이러한 고민을 상당 부분 해소했다고 봅니다. 에이전트의 유연성과 창의성은 유지하면서도, 위험한 동작은 명확하게 제어할 수 있는 구조를 제공하기 때문입니다. 특히 개발자가 자연어로 신속하게 정책을 작성하고 보안팀이 Cedar로 정밀하게 검증하는 협업 구조는, 각기 다른 관점을 가진 두 조직이 효과적으로 협력할 수 있는 방법을 제시합니다.

하지만 정책만으로는 충분하지 않습니다. 에이전트가 실제로 의도대로 작동하는지, 시간이 지나면서 성능이 개선되고 있는지를 객관적으로 측정할 방법이 필요합니다. 여기서 Evaluations 기능이 핵심적인 역할을 합니다. 이제 막연한 체감이 아닌 실제 데이터 기반으로 에이전트 성능을 측정하고 개선할 수 있게 되었고, 에이전트에도 체계적인 CI/CD 프로세스를 적용할 수 있는 환경이 마련된 셈입니다.

“자율성에는 반드시 책임이 따릅니다.” Amazon Bedrock AgentCore는 AI 에이전트에게 이 책임을 부여하는 가장 확실한 솔루션입니다. 이제 인프라와 보안에 대한 걱정은 AgentCore에 맡기시고, 여러분은 에이전트가 만들어낼 비즈니스 혁신에만 집중하시기 바랍니다.

GS 네오텍과 함께 시작하는 신뢰할 수 있는 AI 여정

Amazon Bedrock AgentCore는 강력한 도구임은 분명하지만, 우리 조직에 딱 맞는 정책을 설계하고 최적의 평가 지표를 세팅하는 것은 또 다른 전문성이 필요한 영역입니다.

GS 네오텍은 고객사의 비즈니스 환경에 맞춰 최적의 생성형 AI 모델을 선정하고, 아키텍처를 설계해 드리고 있습니다.

단순한 기술 도입을 넘어, 안전하고 신뢰할 수 있는 AI 에이전트를 구축하는 방법이 궁금하시다면 언제든 GS네오텍으로 연락 주세요. AgentCore 기반의 정책 설계부터 실시간 품질 모니터링 체계 구축까지, 여러분의 AI 에이전트가 실무 환경에서 안정적으로 운영될 수 있도록 함께하겠습니다.

참고자료

https://aws.amazon.com/ko/blogs/aws/amazon-bedrock-agentcore-adds-quality-evaluations-and-policy-controls-for-deploying-trusted-ai-agents

https://aws.amazon.com/ko/blogs/korea/amazon-bedrock-agentcore-is-now-generally-available

https://aws.amazon.com/ko/blogs/korea/how-to-make-your-agents-works-matt-garman-reinvent-keynote

태그 : AWS, GS네오텍

AI/ML

[re:Invent 2025] Amazon Bedrock AgentCore의 모든 것: 기본 개념부터 최신 Policy & Evaluation 기능까지