안녕하세요! 😊
「AI 엔지니어링 진화사」, 드디어 마지막 #5편이에요. 🎉
지금까지 우리는
#1 말(프롬프트) → #2 정보(컨텍스트)
→ #3 행동(에이전트) → #4 신뢰(하네스)
를 차근차근 밟아왔어요.
오늘은 '그다음, 지금 떠오르는 것들',
바로 '평가(Eval)'와 '멀티 에이전트'예요.
이번에도 길어요. (1만 자 넘게 담았어요!)
줄바꿈 많이, 소제목으로 나눴으니
편하게 골라 읽으셔도 돼요. 👍
끝엔 참고자료 + 시리즈 총정리까지 있어요. 📚
──────────
📌 한 줄로 말하면?
"이제 AI는 '여럿이, 검증하며' 일해요.
서로 채점하고, 나눠서 협업하는 시대로 가요."
이게 다음 단계의 핵심이에요.
──────────
🤔 왜 또 '다음 단계'가 필요할까?
#4까지 우리는
'믿을 수 있는 에이전트 하나'를 만들었어요.
그런데 두 가지 숙제가 남아요.
① "이 AI가 일을 '잘' 했는지 누가 채점하지?"
② "더 크고 복잡한 일은 혼자 다 하긴 벅찬데?"
이 둘의 답이 오늘 주제예요.
바로 '평가'와 '멀티 에이전트'.
──────────
🧑⚖️ 평가(Eval) — AI는 자기 채점을 못 해요
놀랍지만 사실이에요.
AI는 '자기가 한 일'을 스스로 정확히 평가하지 못해요.
(사람도 자기 글은 잘 못 고치는 것과 비슷하죠.)
그래서 등장한 게 '평가(Eval)'예요.
핵심 아이디어:
'만드는 AI'와 '채점하는 AI'를 따로 두는 거예요.
· 한 AI가 답을 만들고,
· 다른 AI(또는 사람)가 그걸 '심판'해요.
이걸 'LLM 심판(LLM-as-Judge)'이라고 해요.
──────────
📏 그럼 어떻게 채점할까?
마구잡이가 아니라 '기준표(루브릭)'로 채점해요.
앤트로픽이 쓰는 기준 예시—
· 사실이 정확한가
· 출처(인용)가 맞는가
· 빠짐없이 완결됐는가
· 자료 품질은 좋은가
· 도구를 효율적으로 썼는가
또 이렇게도 해요.
· 작은 샘플(20개쯤)로 빠르게 시작
· 자동 채점 + 사람의 눈으로 보완
· 모든 과정을 '기록'해 되짚어보기
즉, '느낌'이 아니라 '기준과 데이터'로 평가해요.
──────────
👥 멀티 에이전트 — 여럿이 협업하기
이제 두 번째 숙제, '더 큰 일'이에요.
한 에이전트로 벅찬 일은
'여러 에이전트가 나눠서' 하면 돼요.
대표 구조가 '오케스트레이터-워커'예요.
(#3에서 살짝 봤죠!)
· 대장(리드) 에이전트가 전략을 세우고,
· 일꾼(서브) 에이전트들에게 일을 나눠줘요.
· 각자 '따로 떨어진 작업 공간'에서
동시에 탐색한 뒤,
· 결과를 모아 대장이 정리해요.
마치 '팀장 + 팀원들'처럼 일하는 거예요.
──────────
📈 효과가 얼마나 크냐면
앤트로픽의 실제 연구 결과예요.
· 대장(오푸스) + 일꾼(소네트) 구조가
단독 AI보다 성능 90.2% 높았어요.
· 병렬로 동시에 일해서,
복잡한 조사 시간을 최대 90% 줄였고요.
'여럿이, 동시에'의 힘이 그만큼 커요.
──────────
💸 그런데, 공짜는 아니에요
멀티 에이전트는 강력하지만 비싸요.
· 토큰(비용)을 단독 대비 약 15배 더 써요.
· 그래서 '값어치가 충분한 일'에만 써야 해요.
앤트로픽도 선을 그어요.
"성능 향상의 값을 치를 만큼
충분히 중요한 일에만 쓰라."
──────────
🧩 멀티 에이전트가 빛나는 경우 vs 아닌 경우
[잘 맞아요 ⭕]
· 동시에 여러 방향을 조사하는 일
· 한 작업창에 안 담길 만큼 큰 정보
· 복잡한 도구 연동이 필요한 일
[덜 맞아요 ❌]
· 코딩처럼 서로 긴밀히 맞물리는 일
· 단계마다 조율이 많이 필요한 일
즉, '나눠서 동시에' 할 수 있을 때 강해요.
──────────
🤝 비결은 '협업 프레임워크'
여러 AI를 굴릴 때 핵심은
'빡빡한 지시'가 아니라 '협업의 틀'이에요.
앤트로픽이 강조한 3가지—
· 역할 분담 (누가 무엇을)
· 문제 접근법 (어떻게 풀지)
· 노력 예산 (얼마나 깊이 팔지)
이 틀만 잘 정해주면,
AI들이 알아서 손발을 맞춰요.
──────────
🌍 입문자에겐 무슨 의미일까?
어렵게 들리지만, 이미 곁에 있어요.
· '딥리서치' 같은 기능이
사실 '여러 번 조사+정리'하는 멀티 작업이에요.
· AI에게 "다시 한 번 검토해줘" 하는 것도
작은 '평가(Eval)'예요.
원리를 알면,
이런 기능을 더 똑똑하게 쓸 수 있어요.
──────────
🧪 '평가자처럼' 시켜보기 (복붙)
오늘 배운 '평가'를 바로 써먹는 법이에요.
"방금 네 답을 다른 시각에서 비판해줘.
틀린 점·빠진 점·약한 근거를 짚고,
점수(10점 만점)와 이유를 매겨줘.
그다음 더 나은 버전으로 고쳐줘."
'만들기 → 스스로 채점 → 개선'
이 흐름만 써도 답 품질이 확 올라가요. 💡
──────────
🙅 초보가 오해하기 쉬운 점
· "에이전트는 많을수록 좋다" → ❌
비싸고 복잡해요. 필요할 때만!
· "AI가 스스로 채점하면 되지" → ❌
자기 평가는 부정확해요. '딴 시각'이 필요.
· "이건 대기업만의 얘기" → ❌
'검토 한 번 더', '딥리서치'로 누구나 맛봐요.
──────────
🍳 한 줄 비유로 정리
· 평가(Eval) = '편집자·심사위원'
만든 걸 객관적으로 채점하는 역할
· 멀티 에이전트 = '팀 프로젝트'
팀장이 나누고, 팀원들이 동시에, 다시 취합
혼자 다 하기보다,
'역할을 나누고 서로 점검'하면 더 멀리 가요.
──────────
🗺 전체 연재 총정리 (5단계 한눈에)
대망의 완결편이니, 5단계를 쭉 정리해요.
#1 프롬프트 — "어떻게 말할까"
→ 잘 묻기. 역할+맥락+작업+형식+제약.
#2 컨텍스트 — "무엇을 알게 할까"
→ 자료·기억·도구를 알맞게. 단, 많다고 좋은 게 아님.
#3 에이전트 — "어떻게 행동할까"
→ 목표만 주면 스스로 계획·실행.
#4 하네스 — "어떻게 믿고 맡길까"
→ 검증·가드레일·관찰로 신뢰 확보.
(에이전트 = 모델 + 하네스)
#5 평가·멀티 — "여럿이, 검증하며"
→ 서로 채점하고, 나눠서 협업.
흐름 한 줄: 말 → 정보 → 행동 → 신뢰 → 협업·검증.
──────────
🧠 5단계를 관통하는 3가지
① 쌓인다 — 새 단계가 와도 앞 단계는 안 사라져요.
지금도 '잘 묻기(#1)'가 제일 기본이에요.
② 무게중심이 옮겨간다 — 말솜씨 → 정보 → 행동
→ 신뢰 → 협업. 어려운 지점이 계속 이동했어요.
③ 사람의 역할이 커진다 — '직접 하는 사람'에서
'잘 시키고, 점검하고, 지휘하는 사람'으로.
기술이 강해질수록,
'방향을 잡는 사람'의 가치는 오히려 커져요.
──────────
🎓 그래서, 결국 핵심은?
5편을 한 문장으로 줄이면 이거예요.
"AI는 도구다.
좋은 결과는 '좋은 질문 + 좋은 정보 +
좋은 구조 + 사람의 판단'에서 나온다."
화려한 기술 이름이 많았지만,
중심엔 늘 '사람'이 있었어요.
──────────
📎 5단계 '복붙 한마디' 총정리
연재 전체를 실전 문구로 압축했어요.
하나씩 써보세요!
[#1 프롬프트]
"역할·맥락·작업·형식·제약을 정해 또렷이 부탁."
[#2 컨텍스트]
"이 자료를 근거로, 없으면 없다고 해줘."
[#3 에이전트]
"단계로 나눠 스스로 진행하고, 막히면 물어봐."
[#4 하네스]
"실행 전 확인받고, 끝나면 점검해줘."
[#5 평가]
"네 답을 다른 시각으로 채점하고 고쳐줘."
이 다섯 줄이 '연재 전체의 실전 요약'이에요. 💪
──────────
🧪 나는 어느 단계까지? (종합 자가진단)
· 질문만 한다 → #1 입문
· 자료를 붙여 근거로 쓴다 → #2 중급
· "알아서 단계별로" 맡긴다 → #3 활용
· 확인·점검을 시킨다 → #4 고급
· 다른 시각 평가까지 시킨다 → #5 고수!
대부분 #1~#2면 충분해요.
나머지는 '이런 게 있구나' 알면 돼요.
──────────
🌱 입문자 종합 로드맵
· 1주: 프롬프트 — 조건 붙여 또렷이 묻기
· 2주: 컨텍스트 — 자료 주고 근거 요청
· 3주: 에이전트 — 여러 단계 한 번에 맡기기
· 4주: 하네스 — 확인·점검 습관 들이기
· +α: 평가 — "다른 시각으로 채점해줘"
딱 한 달이면, AI를 '제대로 부리는' 감이 잡혀요.
──────────
💬 자주 나오는 질문 (FAQ)
Q1. '평가(Eval)'를 일반인도 쓸 수 있어요?
→ 네! "다른 시각으로 채점해줘" 한마디면
이미 평가를 활용하는 거예요.
Q2. 멀티 에이전트는 어떻게 써봐요?
→ '딥리서치' 같은 기능이 대표적이에요.
직접 안 만들어도 '사용'은 누구나 가능.
Q3. 그럼 앞으론 사람이 필요 없어지나요?
→ 반대예요. 채점·방향·판단은 사람 몫이라
'사람의 안목'이 더 중요해져요.
Q4. 이 다음엔 또 뭐가 올까요?
→ 더 똑똑한 평가, 더 자연스러운 협업…
하지만 '말→정보→행동→신뢰→협업'의 큰 틀은 그대로예요.
──────────
📚 알아두면 좋은 용어 4개
· 평가(Eval): AI 결과를 기준표로 채점하기.
· LLM-as-Judge: AI가 다른 AI 답을 채점하는 방식.
· 오케스트레이터-워커: 대장 AI가 일꾼 AI들에 분배.
· 멀티 에이전트: 여러 AI가 협업하는 구조.
──────────
🔭 미래 — 어디로 갈까?
방향은 비교적 분명해요.
· 평가가 더 정교해지고 (자동 채점 발전)
· 여러 에이전트 협업이 더 매끄러워지고
· 사람은 점점 '지휘자'에 가까워져요.
하지만 변하지 않는 건,
'사람이 목표와 기준을 정한다'는 점이에요.
──────────
📊 핵심 한눈에
· AI는 자기 채점을 못 한다 → 평가자 분리(Eval)
· 채점은 '기준표(루브릭)'로
· 큰 일은 '여러 에이전트'가 나눠서 (대장+일꾼)
· 단독 대비 90%↑, 단 토큰 15배
· 비결은 '협업의 틀'(역할·접근·예산)
──────────
💬 거장의 한마디
앤트로픽:
"성능 향상의 값을 치를 만큼
충분히 중요한 일에만 (멀티 에이전트를) 쓰라."
그리고 평가에 대해선 —
"AI는 자기 일을 그대로 평가하지 못한다.
그래서 다른 시각의 검증이 필요하다."
'무조건'이 아니라 '제대로, 필요할 때'예요. 🙂
──────────
🔬 더 깊이 ① — 평가(Eval), 어떻게 하나요?
'평가'라고 하면 막연하죠.
실무에서는 크게 3가지 방법을 섞어 써요.
1) 자동 채점 (정답이 있을 때)
수학 문제, 코드 실행 결과처럼
'정답/오답'이 명확한 일은 기계가 바로 채점해요.
가장 싸고 빠르지만, 정답이 딱 떨어지는 일에만 가능해요.
2) 사람 평가 (가장 정확, 가장 비쌈)
글의 품질, 말투, 친절함처럼
'정답이 없는' 일은 결국 사람이 봐야 정확해요.
대신 느리고 비싸서 모든 답을 다 볼 순 없어요.
3) LLM 심판 (AI가 AI를 채점)
그래서 등장한 게 'LLM-as-judge'예요.
채점 '기준표(루브릭)'를 준 다음,
다른 AI에게 "이 답을 이 기준으로 점수 매겨줘"라고 시켜요.
사람만큼은 아니어도, 빠르고 싸게 '대량 채점'이 가능해요.
💡 핵심은 '루브릭(기준표)'이에요.
"정확한가 / 친절한가 / 형식을
지켰나"처럼
──────────
🔬 더 깊이 ② — 멀티 에이전트는 어떻게 일하나요?
앤트로픽이 공개한 '멀티 에이전트 리서치 시스템'을 예로 들어볼게요.
① 대장(오케스트레이터)이 큰 질문을 받아요.
예: "이 주제를 깊이 조사해줘."
② 대장이 일을 '쪼개서' 나눠줘요.
"너는 A를, 너는 B를, 너는 C를 조사해."
③ 일꾼(서브에이전트)들이 '동시에' 각자 조사해요.
혼자 순서대로 하면 느린 일을, 여럿이 병렬로 빠르게요.
④ 대장이 결과를 '모아서' 하나로 정리해요.
이 구조의 힘은 '병렬'과 '분업'이에요.
각 일꾼이 자기 몫의 맥락창만 쓰니,
혼자 다 떠안을 때보다 '컨텍스트 로트'(#2편)도 덜해요.
⚠️ 하지만 만능은 아니에요. 이럴 때 실패해요.
· 일을 잘못 쪼개면 → 일꾼끼리 같은 일을 중복하거나 빠뜨려요.
· 일꾼이 너무 많으면 → 결과 합치기가 더 어려워져요.
· 간단한 일에 쓰면 → 토큰 15배만 쓰고 효과는 그대로예요.
그래서
앤트로픽도 말해요.
──────────
🙋 입문자도 오늘 써먹는 법
"평가니 멀티 에이전트니, 나랑 무슨 상관?" 싶죠.
그런데 핵심 '태도'는 오늘 바로 쓸 수 있어요.
① '평가자처럼' 한 번 더 시키기
답을 받았으면, 그대로 믿지 말고 이렇게요.
"방금 답을 다시 점검해줘. 틀린 부분이나 빠진 게 있으면 고쳐줘."
→ AI에게 '심판 역할'을 한 번 더 시키는 거예요. 품질이 확 올라가요.
② '기준'을 먼저 알려주기
"친절하게 / 3문장으로 / 초보자 눈높이로"처럼
원하는 기준(루브릭)을 먼저 말하면, 결과가 일정해져요.
③ 큰 일은 '나눠서' 시키기
"보고서 전체 써줘" (X)
→ "① 목차부터 → ② 각 절을 하나씩 → ③ 마지막에 합치기" (O)
혼자서도 '대장처럼' 일을 쪼개면 결과가 좋아져요.
💬 복붙해서 바로 쓰는 한마디
──────────
🧭 시리즈 대단원 — 5단계 한 번에 정리
이 연재가 관통한 이야기는 결국 하나였어요.
'AI에게서 좋은 답을 얻는 법'은 이렇게 진화해왔어요.
#1 프롬프트 엔지니어링 — 잘 '물어보기'
역할+맥락+작업+형식+제약. "단계별로 생각해줘"(CoT).
→ 한마디: 똑똑하게 질문하면 답이 달라진다.
#2 컨텍스트 엔지니어링 — 잘 '채우기'
맥락창은 AI의 작업 책상(RAM). 신호 강한 최소 정보만.
→ 한마디: 무엇을 보여주느냐가 답을 결정한다.
#3 에이전트 엔지니어링 — 스스로 '일하게'
생각→행동→관찰의 반복(ReAct). 목표만 주면 알아서.
→ 한마디: 시키는 AI에서 일하는 AI로.
#4 하네스 엔지니어링 — 믿고 '맡기게'
에이전트=모델+하네스. 검증·기억·가드레일·관찰·도구.
→ 한마디: 신뢰는 모델이 아니라 '틀'에서 나온다.
#5 평가·멀티 에이전트 — '검증하며, 여럿이'
자기 채점 못 하니 평가자 분리. 큰 일은 분업.
→ 한마디: 제대로, 그리고 필요할 때 함께.
관통하는 3가지 흐름:
· 사람이 다 하던 일 → AI에게 점점 더 위임
· 한 번의 질문 → 여러 번의 '과정'으로
· 단독 → 도구·검증·여러 에이전트와 '함께'
하지만 끝까지 변하지 않는 것 —
──────────
🔬 더 깊이 ③ — 평가와 분업이 만나면?
사실 이 마지막 두 가지는 따로가 아니에요.
'평가'와 '멀티 에이전트'는 짝꿍이거든요.
여러 일꾼이 동시에 일하면, 결과물도 그만큼 많아져요.
그 많은 결과 중 무엇이 좋은지 누가 가릴까요?
바로 '평가자(심판) 에이전트'예요.
그래서 잘 만든 시스템은 이렇게 돌아가요.
① 대장이 일을 나눈다 → ② 일꾼들이 만든다 →
③ 심판이 점수 매긴다 → ④ 낮은 건 다시 시킨다.
'만들기'와 '검증하기'가 한 바퀴를 돌죠.
이게 앞으로 AI가 더 똑똑해지는 핵심 구조예요.
실제로 'AI가 스스로 더 좋아지는' 학습에도 이 원리가 쓰여요.
좋은 답엔 높은 점수, 나쁜 답엔 낮은 점수를 매겨서
AI가 '점수가 높은 쪽'으로 행동을 다듬도록 훈련하거든요.
결국 평가(채점)는 단순한 마무리 단계가 아니라,
AI를 키우는 '나침반'인 셈이에요. 🧭
그래서 요즘 AI 회사들이 '좋은 평가 데이터'에
그토록 공을 들이는 거예요. 잘 채점할수록, 더 잘 자라니까요.
정리하면 — 평가는 '끝'이 아니라 '다음 성장의 시작점'이에요.
이 한 바퀴(만들기→평가→다시 만들기)를 잘 돌리는 팀이
결국 더 똑똑한 AI를 만들어요. 우리가 매일 쓰는 클로드도 그렇게 자랐고요. 😊 정말 멋지지 않나요? 🚀✨
그리고 이 모든 과정의 '기준'을 정하는 건? 네, 사람이에요. 🙂
──────────
🙌 시리즈를 마치며
여기까지가 「AI 엔지니어링 진화사」 6부작의 마지막 화예요.
프롬프트로 시작해서,
컨텍스트, 에이전트, 하네스를 지나,
평가와 멀티 에이전트까지 왔어요.
어려운 용어가 많았지만,
결국 하고 싶었던 말은 딱 하나예요.
"AI를 잘 쓰는 건 '비법'이 아니라 '태도'다."
좋은 질문을 던지고,
필요한 맥락을 챙기고,
결과를 한 번 더 검증하는 태도.
그 태도만 있으면, 모델이 더 똑똑해질수록
여러분이 할 수 있는 일도 함께 커질 거예요.
끝까지 따라와 주셔서 진심으로 감사해요. 🧡
질문이나 어려웠던 부분은 댓글로 편하게 남겨주세요.
다음엔 더 재미있는 주제로 찾아올게요!
──────────
📖 참고자료 (References)
· Anthropic, "Building Effective Agents" (2024)
· Anthropic, "How we built our multi-agent research system" (2025)
· Anthropic, "Effective context engineering for AI agents" (2025)
· Anthropic, "Effective harnesses for long-running agents" (2026)
· Mitchell Hashimoto, "Agent = Model + Harness" (2026)
· A. Karpathy, "Context Engineering" (X, 2025)
· Wei et al., "Chain-of-Thought Prompting" (2022)
· Yao et al., "ReAct: Reasoning + Acting" (2022)
· Lewis et al., "Retrieval-Augmented Generation(RAG)" (2020)
· (배경) #1~#4편에서 인용한 모든 자료
──────────
📌 P.S.
이 글은 시리즈 완결편이에요.
#0 전체지도부터 다시
보면 흐름이 한눈에 들어와요.
💬 6부작 중 가장 도움이 된 편은 몇 편이었나요?
다음에 다뤘으면 하는 주제도 댓글로 알려주세요! 👇