AI/ML

[re:Invent 2025] 한국어 에이전트 벤치마크로 Amazon Nova 2 Lite 성능 심층 분석 (feat. Ko-AgentBench)

AWS re:Invent 2025에서 발표된 Amazon Nova 모델 제품군이 업계의 주목을 받고 있습니다. 그중에서도 실무 관점에서 가장 활용도가 높은 모델은 단연 비용 효율성과 속도를 강조한 nova-2-lite일 것입니다.

AWS가 공개한 이 벤치마크 결과를 보면, Nova 2 Lite 모델이 에이전트 워크플로우와 툴 사용 능력에서 경량 경쟁 모델 대비 압도적인 성능을 보인다는 것을 확인할 수 있습니다.

특히 한국어 환경에서 에이전트나 툴 콜링 기능을 구현할 때, 이 모델이 실제 프로덕션 레벨에서 얼마나 유효할지 궁금해하시는 분들이 많을 텐데요.

단순히 빠르다는 사양을 넘어, “과연 한국어 비즈니스 환경에서도 믿고 쓸 수 있는가?”라는 질문에 답하기 위해 한국어 특화 에이전트 성능 평가 도구인 Ko-AgentBench를 활용해 보았습니다. 이번 분석을 통해 nova-2-lite가 한국어 환경에서 어떤 포지션에 있는지를 살펴보도록 하겠습니다.

1. 평가 기준

GitHub: https://github.com/Hugging-Face-KREW/Ko-AgentBench

본격적인 분석에 앞서, 이번 테스트의 기준이 된 Ko-AgentBench에 대해 이해할 필요가 있습니다. 기존의 벤치마크들이 모델의 말하기 실력에 집중했다면, Ko-AgentBench는 모델의 일 처리 능력(에이전트 성능)을 측정합니다.

기존의 에이전트 벤치마크(AgentBench 등)는 대부분 영어권 환경이나 글로벌 서비스(Google Maps, Yelp 등)를 기준으로 설계되어, 한국어의 뉘앙스나 국내 특화 서비스(네이버, 카카오 등) 환경에서의 성능을 측정하기 어려웠습니다.

Ko-AgentBench는 이러한 한계를 극복하기 위해 설계된 한국어 특화 에이전트 평가 프레임워크입니다. 실제 국내 사용자들이 자주 접하는 시나리오(예: 식당 예약, 길 찾기, 블로그 리뷰 검색 등)와 한국어 API 환경을 기반으로 모델의 능력을 7단계(Level)로 세분화하여 평가합니다.

  • L1 (Single Tool): 단일 도구를 정확히 호출하는가?
  • L2 (Tool Selection): 여러 도구 중 적합한 것을 골라내는가?
  • L3 (Multi-step): 순차적으로 도구를 사용해 복잡한 문제를 해결하는가?
  • L4 (Integration): 여러 출처의 정보를 종합하여 답을 내는가?
  • L5 (Robustness): 오류 상황(API 실패 등)에서 회복하는가?
  • L6 (Efficiency): 이미 얻은 정보를 기억하고 재사용하는가?
  • L7 (Multi-turn): 긴 대화 맥락 속에서도 에이전트 역할을 유지하는가?

이번 포스팅에서는 이 7가지 척도를 기반으로, nova-2-lite가 단순한 문장 생성을 넘어 한국어 비즈니스 환경에서 실질적으로 업무를 완수할 수 있는 에이전트로서 어느 정도의 완성도를 갖췄는지 분석해 보겠습니다.

2. 개요

가장 먼저 눈에 띄는 것은 이전 Nova Lite 대비 압도적인 성능 향상입니다. 벤치마크 전체 성공률을 비교했을 때, 세대 교체라는 말이 무색하지 않을 정도의 격차를 보였습니다.

  • Amazon Nova 2 Lite: 0.864
  • Amazon Nova Lite (v1): 0.687

단순 수치로 약 17.7%p 상승했지만, 세부 항목을 뜯어보면 그 의미는 더 큽니다. 단순한 태스크 수행을 넘어, 복잡한 추론과 대화 흐름을 제어해야 하는 영역에서 발전이 있었기 때문입니다.

평가 항목 (Level)nova-2-litenova-lite핵심 변화
L1 단일 도구 호출1.0000.909도구 호출 안정성 확보
L2 도구 선택1.0001.000안정적인 도구 선택 능력
L3 멀티스텝 추론0.9000.500복잡한 워크플로우 가능성
L7 멀티턴 대화0.9000.400대화형 에이전트로서 실사용 가능

※ 참고: 모든 수치는 1.000점 만점(성공률 100%)을 기준으로 합니다.

요약하자면, nova-2-lite는 실무에 바로 투입 가능한 수준으로 도약했습니다.

RANKMODELVENDORLLM TYPEOVERALL L1L2L3L4L5L6L7
2grok-4.1-fastxAIAPI0.8920.9091.0001.0000.8000.8000.9330.800
5nova-2-liteAmazonAPI0.8641.0001.0000.9000.9000.5500.8000.900
6claude-haiku-4-5AnthropicAPI0.8641.0001.0001.0000.9000.6500.8000.700
10gpt-4o-miniOpenAIAPI0.8110.9091.0001.0001.0000.6000.6670.500
11gpt-5-miniOpenAIAPI0.8010.9090.9330.9000.8000.2000.8671.000
12nova-liteAmazonAPI0.6870.9091.0000.5000.9000.3000.8000.400
13gemini-2.5-flashGoogleAPI0.6420.9091.0000.7000.6000.2500.7330.300
15gemini-2.5-flash-liteGoogleAPI0.5741.0000.8670.2000.7000.2500.6000.400

※ 참고: 경량 모델(lite/mini 등) 간 성능 비교 결과입니다.

리더보드 상위권 모델들과 비교해보았을 때 nova-2-lite의 포지션은 다음과 같습니다.

  • vs grok-4.1-fast: 전체 순위에서는 grok이 근소하게 앞서지만, L1(단일 도구 호출)의 안정성은 nova-2-lite(1.000)가 grok(0.909) 보다 높습니다. 정확한 API 호출이 필수적인 환경에서는 Nova가 더 안전한 선택이 될 수 있습니다.
  • vs gpt: OpenAI의 경량 모델들은 멀티턴 대화(L7)나 도구 활용 안정성에서 0.5~0.6대의 점수를 기록하며 기복을 보인 반면, nova-2-lite는 전 영역에서 고른 분포를 보였습니다.
  • vs claude-haiku-4-5: 전체 점수는 동일(0.864)하지만, 세부 항목에서 차이가 납니다. Haiku가 복잡한 추론(L3)에 강점이 있다면, nova-2-lite는 멀티턴 대화 유지(L7)에서 0.900을 기록하며 하이쿠(0.700)보다 훨씬 매끄러운 상담 경험을 제공을 제공할 수 있습니다.

3. 강점 분석

① 툴 프론트엔드로서의 안정성 (L1, L2)

API를 호출하는 LLM에게 가장 중요한 포인트는 “일을 정확하게 수행하는가”입니다. nova-2-lite는 L1(단일 호출), L2(도구 선택) 영역에서 성공률 100%를 기록했습니다.

특히 주목할 점은 인자 정확도(ArgAcc)입니다.

  • ArgAcc: 0.795

이는 도구를 선택하는 것을 넘어, 파라미터를 스키마에 맞게 정확히 채워 넣는 능력을 의미합니다. 경쟁 모델인 GPT 계열의 일부 모델이 동일 벤치마크에서 0.59 수준을 기록한 것과 비교하면, nova-2-lite는 복잡한 API 스펙도 상당히 잘 준수한다고 볼 수 있습니다.

② 멀티스텝 & 멀티턴 (L3, L7)

이전 세대 모델이 가장 고전했던 부분이 바로 여러 단계를 거쳐야 하는 작업이었습니다. 하지만 nova-2-lite는 L3(멀티스텝 추론)에서 성공률 0.900을 기록하며, nova-lite(0.500) 대비 2배 가까운 성능 향상을 이뤄냈습니다.

  • PSM (경로 부분 일치): 1.000
    • 정답 경로를 기계적으로 따라가지 않더라도, 합리적인 대안 경로를 찾아내어 목표를 달성합니다.
  • L7 멀티턴 대화 성공률: 0.900
    • Context Retention(맥락 유지율) 0.950: 긴 대화 속에서도 핵심 정보를 놓치지 않습니다.

이제 챗봇 시나리오에서 “아까 말한 그 상품 결제해줘”와 같은 맥락 의존적인 요청도 매끄럽게 처리할 수 있게 되었습니다.

4. 효율성 분석

클라우드 비용 최적화 관점에서 nova-2-lite는 매우 매력적인 선택지입니다.

  • 평균 TPS (Tokens Per Second): 약 1,099
  • 토큰 효율성: L6(컨텍스트 재사용) 테스트 기준, nova-lite가 23k 토큰을 소모할 때 nova-2-lite2.5k 토큰만으로 더 높은 성공률을 달성했습니다.

동일한 작업을 수행하더라도 훨씬 적은 토큰과 시간으로 처리해 내므로, 대규모 트래픽이 발생하는 B2C 서비스에서 운영 비용을 획기적으로 절감할 수 있습니다.

Nova 2 Lite의 성능 향상이 실제 운영 비용에 미치는 영향을 객관적으로 파악하기 위해, 이전 세대인 Nova Lite 및 현재 시장의 주요 경쟁 모델인 Claude Haiku 4.5와 토큰당 단가를 비교해 보았습니다.

모델입력 가격 (/1M 토큰)출력 가격 (/1M 토큰)입력 (/토큰)출력 (/토큰)입력 단가 (Nova 2 Lite 대비)출력 단가 (Nova 2 Lite 대비)
Nova 2 Lite$0.33$2.750.000000330.000002751.00x (기준)1.00x (기준)
Nova Lite$0.06$0.240.000000060.000000240.18x (약 5.5배 저렴)0.09x (약 11배 저렴)
Claude Haiku 4.5$1.00$5.000.000001000.000005003.03x (약 3배 비쌈)1.82x (약 1.8배 비쌈)
  • 성능 향상에 따른 합리적 비용: 이전 세대(v1) 대비 단가는 상승했으나, 멀티스텝 추론 성공률이 0.500에서 0.900으로 비약적으로 향상된 점을 고려할 때 실무 투입을 위한 합리적인 수준이라 판단됩니다.
  • 독보적인 경제성: Claude Haiku 4.5 대비 입력 비용은 1/3, 출력 비용은 절반 이하로 매우 저렴합니다. 대량의 컨텍스트를 처리해야 하는 기업형 에이전트 운영 시 비용 효율 면에서 매력적입니다.
  • 최적의 균형: 높은 성능의 모델의 업무 수행 능력을 유지하면서도 가격은 경량 모델 수준의 경쟁력을 확보하여, 대규모 트래픽 환경에서 TCO(총 소유 비용)를 획기적으로 낮출 수 있습니다.

5. 도입 시 고려사항 및 엔지니어링 가이드

nova-2-lite 모델은 뛰어난 가성비를 보여주지만, 실제 엔지니어링 환경에서 최적의 퍼포먼스를 내기 위해서는 몇 가지 기술적 제약에 대한 보완 설계와 체계적인 검증이 병행되어야 합니다.

보완 설계 포인트

모델의 벤치마크 데이터 분석 결과, 실제 프로덕션 서비스 구축을 위해 다음 두 가지 측면의 엔지니어링 대응을 권장합니다.

① 에러 핸들링 및 회복성 (L5)

  • 현황: L5(오류 처리) 성공률은 0.550으로 전작(0.300)보다 개선되었지만, 여전히 상위 모델 대비 아쉬운 부분입니다. API 서버가 다운되거나 잘못된 데이터가 들어왔을 때, 스스로 우회 경로를 찾는 능력은 아직 발전이 필요합니다.
  • Solution: 금융/결제 등 고신뢰성이 요구되는 영역에서는 오케스트레이터(Orchestrator) 레벨에서 재시도, 백오프, Fallback 정책을 명시적으로 구현해야 합니다. 모델에게만 의존하기보다 시스템적인 안전장치가 필수적입니다.

② 초기 반응 속도 (TTFT)

  • 현황: 높은 TPS(처리량)에 비해 TTFT(Time To First Token)는 L1 기준 평균 4.23초로 다소 느린 편입니다. (타사 경량 모델들은 보통 1~3초 내외)
  • Solution: 실시간 채팅 인터페이스에 적용할 경우, 사용자 경험 저하를 막기 위해 스트리밍 적용이 필수적입니다. 혹은 캐싱을 적극 활용하거나, 단순 응답은 더 가벼운 모델이 처리하고 복잡한 추론만 nova-2-lite에 맡기는 하이브리드 구조를 고려해 볼 수 있습니다.

엔지니어링 전략

위의 기술적 보완과 더불어, 실제 비즈니스 환경에 모델을 안착시키기 위해 엔지니어는 다음의 검증 과정을 반드시 거쳐야 합니다.

① 도메인 특화 데이터 기반의 실증 검증

이번 분석은 Ko-AgentBench 시나리오를 바탕으로 도출된 결과입니다.

실제 비즈니스 현장의 API 복잡도나 데이터 특성에 따라 성능이 달라질 수 있으므로, 기업 내부의 고유한 도구와 데이터셋을 활용해 모델의 워크플로우 수행 능력을 다각도로 직접 검증해야 합니다.

② 추론 모드 및 파라미터 최적화(Tuning)

모델의 응답 품질은 프롬프트 엔지니어링 전략은 물론, Thinking mode(추론 모드)의 활용 여부와 각종 파라미터 설정값에 민감하게 반응합니다.

최적의 성능 도출을 위해 개발 단계에서의 반복적인 튜닝 과정이 수반되어야 합니다.

Summary: nova-2-lite는 시스템적인 보완 설계와 도메인 최적화 과정이 뒷받침될 때, 비용 효율적이면서도 강력한 에이전트 성능을 발휘할 수 있습니다.

6. 결론: 언제 nova-2-lite를 써야 할까?

종합해 볼 때, Amazon Nova 2 Lite는 다음과 같은 시나리오에서 최적의 성능과 비용 효율을 보여줍니다.

  1. 한국어 기반의 사내 업무 자동화
    • 명확한 도구 선택 능력과 파라미터 추출 능력을 갖추고 있어 업무용 에이전트로 적합합니다.
  2. 멀티스텝 워크플로우 처리
    • 복잡한 순서의 API 호출이 필요한 시나리오에서 안정적인 성능을 보장합니다.
  3. 대화형 커머스/CS 봇
    • 멀티턴 대화 맥락 유지 능력이 탁월하여, 고객 응대 시나리오에서 자연스러운 경험을 제공합니다.

GS 네오텍은 고객사의 비즈니스 환경에 맞춰 최적의 생성형 AI 모델을 선정하고, 아키텍처를 설계해 드리고 있습니다. Amazon Nova 모델 도입이나 마이그레이션에 대해 궁금한 점이 있으시다면 언제든 문의해 주시기 바랍니다.

참고자료

5/5 - (평가 개수 : 1)

필자: 김 하림

전체 게시물수 : 1

전체 조회수 : 66

게시물 공유하기