AI 에이전트 벤치마크 설계: 골든셋·자동 채점·릴리스 게이트 실전 가이드
AI 에이전트 벤치마크를 골든셋, 결정적 검사, LLM 심사, 사람 검토, 비용·지연·안전성 릴리스 기준으로 설계하는 방법을 설명합니다.
태그
LLM 태그와 관련된 TOPICDEEP 글 모음입니다.
AI 에이전트 벤치마크를 골든셋, 결정적 검사, LLM 심사, 사람 검토, 비용·지연·안전성 릴리스 기준으로 설계하는 방법을 설명합니다.
AI 에이전트 평가 프레임워크: 정확도·비용·지연·안전성을 함께 측정하는 법의 배경, 판단 기준, 실행 전 확인할 리스크를 최신 자료와 실제 선택지 중심으로 정리했습니다.
AI 에이전트의 간접 프롬프트 인젝션, 과도한 권한, 데이터 유출, 위험한 도구 호출을 시스템 수준에서 줄이는 보안 설계와 점검표를 정리합니다.
LLM을 자동 심사자로 사용할 때 루브릭, 점수 방식, 위치·길이·자기 선호 편향, 사람 기준셋, 신뢰도와 비용을 검증하는 실전 절차를 정리합니다.
온디바이스 LLM 시대: 내 데이터가 밖으로 나가지 않는 AI 활용법의 배경, 판단 기준, 실행 전 확인할 리스크를 최신 자료와 실제 선택지 중심으로 정리했습니다.