AI 에이전트 비용을 줄일 때 가장 먼저 보는 숫자는 흔히 입력·출력 토큰 단가입니다. 하지만 에이전트는 한 번의 모델 호출로 끝나지 않습니다. 계획을 세우고, 검색하고, 도구를 호출하고, 결과를 검증하며, 실패하면 다시 시도합니다. 같은 사용자 요청이라도 한 실행은 세 번의 호출로 끝나고 다른 실행은 도구 반복 때문에 수십 번 호출될 수 있습니다.
따라서 “가장 싼 모델은 무엇인가”보다 먼저 물어야 할 질문은 다음입니다.
같은 품질과 안전 조건을 충족한 유효 과업 한 건을 완료하는 데 총 얼마와 얼마나 긴 시간이 들었는가?
이 글은 AI 에이전트 평가 프레임워크의 비용·지연 축을 운영 지표와 최적화 순서로 구체화합니다. 바로 기록을 시작할 수 있도록 AI 에이전트 비용 예산 CSV도 제공합니다.
비용 최적화는 토큰을 적게 쓰는 경쟁이 아닙니다. 성공률, 안전성, 사람 수정 시간을 유지하면서 성공 결과당 총비용과 P95 지연을 낮추는 과정입니다.
호출당 비용이 아니라 성공 1건당 총비용을 계산한다
에이전트의 총비용은 모델 사용료 외에도 도구, 검색, 데이터베이스, 코드 실행, 재시도와 사람 검토를 포함합니다. 실패한 실행을 분모에서 빼고 비용에서도 빼면 저렴해 보이지만 실제 운영비는 숨겨집니다.
성공 1건당 총비용 = 모든 실행의 모델·도구·인프라·사람 비용 ÷ 유효 성공 건수
예를 들어 100건을 처리하는 데 총 40달러가 들었고 완료 조건을 모두 충족한 과업이 80건이라면 성공 1건당 비용은 0.40달러입니다. 실패한 20건에 사용한 토큰과 재시도 비용도 분자에 남겨야 합니다.
| 비용 항목 | 기록할 값 | 놓치기 쉬운 부분 |
|---|---|---|
| 모델 호출 | 모델명, 입력·출력·캐시 토큰, 호출 수 | 실패한 호출과 심사 모델 호출 |
| 도구 사용 | 검색, 브라우저, 데이터베이스, 코드 실행 비용 | 중복 조회와 불필요한 재호출 |
| 재시도 | 원인, 횟수, 백오프 시간, 추가 토큰 | 같은 오류를 다른 문장으로 반복 |
| 인프라 | 벡터 검색, 로그, 큐, 샌드박스 실행 | 유휴 시간과 장기 보관 비용 |
| 사람 검토 | 승인·수정·사고 대응 시간 | 저렴한 모델 때문에 늘어난 수정 시간 |
| 실패 비용 | 타임아웃, 부분 쓰기, 롤백과 고객 재처리 | 실패를 성공률에서만 처리하는 오류 |
모델 가격표는 입력값일 뿐 결과 지표가 아닙니다. 가격이 낮은 모델이 도구를 더 자주 잘못 호출하거나 사람이 다시 작성하게 만들면 성공 결과당 비용은 오를 수 있습니다.
비용 관측의 최소 단위를 정한다
비용을 줄이려면 에이전트 전체 합계가 아니라 단계별 원인을 볼 수 있어야 합니다. 다음 구조로 이벤트를 기록하면 모델, 도구와 복구 비용을 분리할 수 있습니다.
각 실행에는 최소한 다음 필드를 남깁니다.
- 과업 ID와 업무 유형
- 모델·프롬프트·도구 버전
- 단계별 시작·종료 시각
- 입력·출력·캐시 토큰
- 도구 이름, 호출 수, 성공·실패 상태
- 재시도 원인과 횟수
- 최종 성공 상태와 실패 분류
- 사람 검토 시간
- 모델·도구·인프라를 합친 비용
OpenTelemetry의 생성형 AI 메트릭은 토큰 사용량과 작업 지속 시간을 표준화된 이름으로 기록하는 출발점을 제공합니다. 다만 사양 상태와 속성은 계속 발전할 수 있으므로 사용하는 SDK 버전과 함께 고정해야 합니다.
첫 번째 최적화는 중복 실행을 없애는 것이다
모델을 바꾸기 전에 같은 정보를 반복해서 읽고 같은 도구를 다시 호출하는지 확인합니다. 에이전트 비용은 복잡한 추론보다 상태 관리 실패에서 커지는 경우가 많습니다.
대표적인 낭비 신호는 다음과 같습니다.
- 같은 검색어를 표현만 바꿔 여러 번 호출
- 이미 읽은 문서를 매 단계마다 전체 첨부
- 도구 결과를 상태에 저장하지 않고 다시 조회
- 완료 조건을 확인하지 못해 계획 단계로 무한 복귀
- 오류 유형과 상관없이 동일한 재시도 수행
- 검증 가능한 수치를 다시 모델에게 판단시킴
각 도구에 호출 상한을 두고, 결과의 해시나 버전을 상태에 보관하며, 동일 인수 호출을 탐지합니다. 재시도는 오류 유형별로 허용 여부와 횟수를 정합니다. 인증 실패나 권한 거부처럼 반복해도 해결되지 않는 오류는 즉시 중단해야 합니다.
반복되는 긴 입력은 캐시 가능한 접두부로 정리한다
시스템 지침, 도구 정의, 긴 정책 문서처럼 여러 요청에서 반복되는 입력은 캐시의 주요 후보입니다. OpenAI와 Anthropic 모두 반복되는 정적 컨텍스트를 캐시해 비용과 지연을 줄이는 기능을 제공합니다. 구체적인 적용 조건, 최소 길이, 보존 시간과 가격은 제공자마다 다르고 변경될 수 있습니다.
캐시 효율을 높이는 구조는 다음과 같습니다.
- 자주 변하지 않는 시스템 지침과 도구 정의를 앞부분에 둡니다.
- 사용자별·요청별 동적 정보는 뒤에 둡니다.
- 같은 의미의 지침을 요청마다 재정렬하지 않습니다.
- 큰 정책 문서를 통째로 넣기 전에 필요한 범위를 검색합니다.
- 응답 사용량에서 실제 캐시 읽기 토큰을 기록합니다.
캐시를 켰다는 사실보다 캐시 적중률과 캐시 적용 후 성공 결과당 비용을 측정해야 합니다. 프롬프트의 앞부분이 자주 바뀌면 캐시 기능이 있어도 적중하지 않을 수 있습니다.
캐시된 정책이나 도구 설명이 오래되면 더 빠르게 잘못된 행동을 반복할 수 있습니다. 문서 버전, 만료 조건과 강제 무효화 절차를 함께 설계하세요.
모든 단계에 가장 큰 모델을 쓰지 않는다
에이전트의 각 단계는 요구 능력이 다릅니다. 분류, 형식 변환, 간단한 검증까지 모두 고성능 모델에 맡기면 비용과 지연이 불필요하게 커집니다.
| 단계 | 기본 선택 | 상위 모델로 올릴 조건 |
|---|---|---|
| 요청 분류 | 작은 모델 또는 규칙 | 분류 확신도 낮음, 고위험 업무 |
| 검색어 생성 | 작은 모델 | 복합 도메인·상충 조건 |
| 구조화 출력 | 작은 모델 + 스키마 검증 | 반복 실패 또는 긴 문맥 필요 |
| 핵심 추론 | 업무 기준에 맞는 중간 모델 | 고난도 판단, 중요한 예외 |
| 최종 검증 | 코드·규칙 우선 | 의미 판단이 필요한 잔여 항목 |
| 사람 이관 | 명시적 규칙 | 위험 임계값 초과, 결과 불확실 |
작은 모델 우선 라우팅은 단순히 모델 이름을 바꾸는 일이 아닙니다. 스키마 검증, 허용 도구, 확신도, 실패 시 상위 모델로 올리는 조건이 필요합니다. 상위 모델 전환이 너무 쉬우면 모든 요청이 결국 비싼 경로로 이동합니다.
Efficient Agents 연구는 모델 선택, 에이전트 구조와 테스트 시점 확장의 비용·성능 절충을 비교하고 cost-of-pass와 유사한 결과 중심 지표를 사용합니다. 다만 사전 공개 연구의 특정 수치를 모든 업무에 일반화하지 말고, 내부 골든셋에서 같은 구조를 비교해야 합니다.
결정적 검사를 모델 심사보다 먼저 실행한다
JSON 스키마, 계산값, 파일 변경 범위, 데이터베이스 상태처럼 코드로 확인할 수 있는 조건을 모델에게 다시 묻는 것은 비용과 불확실성을 동시에 늘립니다.
검증 순서를 다음처럼 구성합니다.
- 스키마와 필수 필드 검사
- 허용된 도구와 인수 검사
- 수치·집합·상태 비교
- 금지 행동과 권한 위반 검사
- 의미 품질이 필요한 항목만 모델 심사
- 고위험 또는 불일치 사례만 사람 검토
이 순서는 LLM-as-a-Judge 신뢰도 검증 가이드와 연결됩니다. 모델 심사자를 줄이는 것이 목표가 아니라, 모델만 판단할 수 있는 항목에 집중시키는 것이 목표입니다.
조기 종료는 실패와 충분한 성공을 모두 감지해야 한다
에이전트는 실패가 명확해진 뒤에도 검색과 추론을 계속할 수 있습니다. 반대로 완료 조건을 이미 충족했는데 더 좋은 문장을 찾느라 호출을 이어갈 수도 있습니다.
조기 종료 규칙은 두 종류가 필요합니다.
실패 조기 종료
- 같은 오류가 정해진 횟수 이상 반복
- 권한·인증 오류처럼 재시도로 해결되지 않는 실패
- 남은 예산으로 완료 조건 충족이 불가능
- 금지 행동 또는 보안 위험 탐지
- 핵심 입력 누락으로 추론을 계속할 수 없음
성공 조기 종료
- 필수 완료 조건을 모두 충족
- 결정적 검사가 통과하고 추가 호출의 기대 가치가 낮음
- 사용자가 요구한 품질 수준과 형식을 충족
- 남은 작업이 선택적 표현 개선뿐임
2026년 사전 공개 연구 Atropos는 실패 가능성이 높은 추론을 중간에 예측하고 더 강한 모델로 전환하는 접근을 제안합니다. 이러한 결과는 가능성을 보여주지만, 조기 종료 모델 자체의 오판 비용과 업무별 일반화는 별도 검증이 필요합니다.
재시도 예산을 오류 유형별로 나눈다
모든 실패에 같은 재시도 정책을 적용하면 비용 폭증과 중복 쓰기가 발생합니다.
| 오류 유형 | 권장 처리 | 이유 |
|---|---|---|
| 일시적 네트워크 오류 | 제한된 지수 백오프 | 시간이 지나면 회복 가능 |
| 읽기 API 속도 제한 | 대기 후 제한 재시도 | 제공자 정책에 맞춘 완화 가능 |
| 인증·권한 거부 | 즉시 중단·사람 이관 | 반복해도 해결되지 않음 |
| 잘못된 도구 인수 | 한 번 수정 후 검증 | 반복 루프 방지 |
| 부분 쓰기 성공 | 상태 조회 후 멱등 복구 | 중복 생성 방지 |
| 모호한 사용자 의도 | 추가 질문 또는 이관 | 추측 실행을 막음 |
| 안전 정책 위반 | 즉시 차단 | 비용보다 피해 예방이 우선 |
쓰기 작업은 멱등성 키, 실행 전 상태 확인과 실행 후 검증을 갖춰야 합니다. 재시도 횟수만 제한하고 중복 상태를 확인하지 않으면 비용은 낮아져도 실제 피해가 커질 수 있습니다.
평균 지연보다 단계별 P95를 본다
평균 완료 시간이 5초여도 일부 요청이 40초 이상 걸리면 사용자는 시스템을 불안정하게 느낍니다. 지연은 최소한 다음 구간으로 분리합니다.
- 첫 유효 진행 상태까지의 시간
- 모델 처리 시간
- 도구별 대기 시간
- 큐와 속도 제한 대기 시간
- 재시도·백오프 시간
- 사람 승인 시간을 제외한 자동 완료 시간
- 최종 완료 조건까지의 총시간
P50은 일반 경험, P95는 반복되는 불만 구간, P99는 장애와 용량 문제를 보여줍니다. 비용과 지연을 함께 보면 비싼 모델이 호출 수를 줄여 전체 시간을 단축하는 사례와, 저렴한 모델이 재시도로 더 느리고 비싸지는 사례를 구분할 수 있습니다.
최적화 실험은 하나의 변수를 바꾸고 같은 골든셋에서 비교한다
캐시, 모델 라우팅, 도구 상한을 한꺼번에 바꾸면 무엇이 효과를 냈는지 알기 어렵습니다. 현재 운영 버전을 기준선으로 고정한 뒤 한 번에 하나의 정책을 바꿉니다.
| 실험 | 비교 지표 | 실패 시 되돌릴 조건 |
|---|---|---|
| 입력 캐시 정리 | 캐시 적중률, 입력 비용, P95 | 최신 정책 오류 증가 |
| 작은 모델 우선 | 성공률, 이관률, 결과당 비용 | 핵심 업무 성공률 하락 |
| 도구 호출 상한 | 호출 수, 비용, 완료율 | 필요한 복구까지 차단 |
| 조기 종료 | 실패 비용, 성공률, 사람 이관 | 복구 가능한 사례 조기 포기 |
| 결정적 검사 확대 | 심사 비용, 오류 탐지율 | 의미 품질 오류 증가 |
| 컨텍스트 축소 | 입력 토큰, 근거 충실도 | 필요한 근거 누락 |
평가는 AI 에이전트 벤치마크 설계 가이드의 정상·경계·공격·복구 시나리오를 그대로 사용합니다. 비용 절감 버전이 평균 점수는 유지해도 고위험 업무나 복구 사례에서 나빠질 수 있으므로 업무군별 결과를 분리합니다.
릴리스 게이트에 비용과 지연을 넣는다
비용 목표는 품질·안전 기준을 통과한 뒤 적용해야 합니다. 예시 기준은 다음과 같습니다.
| 지표 | 예시 통과 기준 | 차단 조건 |
|---|---|---|
| 핵심 과업 성공률 | 기준 버전 이상 | 3%p 이상 하락 |
| 중대 안전 사고 | 0건 | 권한 위반·민감정보 노출 1건 |
| 성공 1건당 비용 | 기준 대비 10% 이상 절감 | 절감 없이 성공률 하락 |
| 완료 시간 P95 | 서비스 목표 이내 | 타임아웃·무한 반복 발생 |
| 캐시 적중률 | 정적 컨텍스트 목표 이상 | 오래된 정책 사용 |
| 도구 호출 P95 | 업무별 상한 이내 | 필요한 도구가 차단됨 |
| 사람 검토 시간 | 기준 이하 | 위험 사례 이관 누락 |
숫자는 설명용입니다. 실제 임계값은 현재 기준선, 업무 가치, 실패 피해와 사용자 기대를 기반으로 정해야 합니다.
2주 최적화 순서
1~3일: 비용 지도를 만든다
비용 예산 CSV를 복사해 과업별 모델, 토큰, 캐시, 도구, 재시도, 지연과 사람 시간을 기록합니다. 상위 20%의 고비용 실행이 전체 비용에서 차지하는 비중을 확인합니다.
4~6일: 반복과 상태 관리부터 고친다
중복 도구 호출, 전체 문서 재첨부, 무한 재시도와 완료 후 추가 호출을 제거합니다. 이 단계는 모델 교체보다 품질 위험이 낮습니다.
7~9일: 캐시와 컨텍스트 구조를 정리한다
정적 접두부와 동적 입력을 분리하고 실제 캐시 토큰을 기록합니다. 오래된 컨텍스트를 무효화하는 버전 규칙을 추가합니다.
10~12일: 단계별 모델 라우팅을 실험한다
분류·형식 변환·간단한 검증부터 작은 모델이나 코드로 이동합니다. 실패 시 상위 모델 또는 사람에게 넘기는 기준을 고정합니다.
13~14일: 회귀 평가와 제한 배포
같은 골든셋에서 기준 버전과 비교하고, 품질·안전·비용·P95를 모두 통과한 경우에만 소수 트래픽에서 운영 지표를 확인합니다.
비용 절감이 아닌 운영 효율을 목표로 한다
에이전트 비용은 토큰 수 하나로 설명되지 않습니다. 잘못된 도구 선택, 반복 호출, 실패한 재시도와 사람 수정 시간이 모델 요금보다 더 큰 비용이 될 수 있습니다.
먼저 완료된 유효 과업을 정의하고, 단계별 비용과 지연을 관측하며, 중복 실행과 상태 관리 실패를 제거하세요. 그다음 캐시, 작은 모델 우선 라우팅, 결정적 검사와 조기 종료를 하나씩 실험해야 합니다. 이 순서를 지키면 비용 절감이 품질과 안전성을 희생하는 단기 최적화로 변하는 것을 막을 수 있습니다.
전체 학습 경로와 평가·보안 자료는 AI 에이전트 실전 가이드에서 확인할 수 있습니다.