[🧭 AI 엔지니어링 진화사 #5·완결] 다음 단계 — 평가·멀티 에이전트 (+시리즈 총

안녕하세요! 😊

「AI 엔지니어링 진화사」, 드디어 마지막 #5편이에요. 🎉

지금까지 우리는

#1 말(프롬프트) → #2 정보(컨텍스트)

→ #3 행동(에이전트) → #4 신뢰(하네스)

를 차근차근 밟아왔어요.

오늘은 '그다음, 지금 떠오르는 것들',

바로 '평가(Eval)'와 '멀티 에이전트'예요.

이번에도 길어요. (1만 자 넘게 담았어요!)

줄바꿈 많이, 소제목으로 나눴으니

편하게 골라 읽으셔도 돼요. 👍

끝엔 참고자료 + 시리즈 총정리까지 있어요. 📚

──────────

📌 한 줄로 말하면?

"이제 AI는 '여럿이, 검증하며' 일해요.

서로 채점하고, 나눠서 협업하는 시대로 가요."

이게 다음 단계의 핵심이에요.

──────────

🤔 왜 또 '다음 단계'가 필요할까?

#4까지 우리는

'믿을 수 있는 에이전트 하나'를 만들었어요.

그런데 두 가지 숙제가 남아요.

① "이 AI가 일을 '잘' 했는지 누가 채점하지?"

② "더 크고 복잡한 일은 혼자 다 하긴 벅찬데?"

이 둘의 답이 오늘 주제예요.

바로 '평가'와 '멀티 에이전트'.

──────────

🧑‍⚖️ 평가(Eval) — AI는 자기 채점을 못 해요

놀랍지만 사실이에요.

AI는 '자기가 한 일'을 스스로 정확히 평가하지 못해요.

(사람도 자기 글은 잘 못 고치는 것과 비슷하죠.)

그래서 등장한 게 '평가(Eval)'예요.

핵심 아이디어:

'만드는 AI'와 '채점하는 AI'를 따로 두는 거예요.

· 한 AI가 답을 만들고,

· 다른 AI(또는 사람)가 그걸 '심판'해요.

이걸 'LLM 심판(LLM-as-Judge)'이라고 해요.

──────────

📏 그럼 어떻게 채점할까?

마구잡이가 아니라 '기준표(루브릭)'로 채점해요.

앤트로픽이 쓰는 기준 예시—

· 사실이 정확한가

· 출처(인용)가 맞는가

· 빠짐없이 완결됐는가

· 자료 품질은 좋은가

· 도구를 효율적으로 썼는가

또 이렇게도 해요.

· 작은 샘플(20개쯤)로 빠르게 시작

· 자동 채점 + 사람의 눈으로 보완

· 모든 과정을 '기록'해 되짚어보기

즉, '느낌'이 아니라 '기준과 데이터'로 평가해요.

──────────

👥 멀티 에이전트 — 여럿이 협업하기

이제 두 번째 숙제, '더 큰 일'이에요.

한 에이전트로 벅찬 일은

'여러 에이전트가 나눠서' 하면 돼요.

대표 구조가 '오케스트레이터-워커'예요.

(#3에서 살짝 봤죠!)

· 대장(리드) 에이전트가 전략을 세우고,

· 일꾼(서브) 에이전트들에게 일을 나눠줘요.

· 각자 '따로 떨어진 작업 공간'에서

동시에 탐색한 뒤,

· 결과를 모아 대장이 정리해요.

마치 '팀장 + 팀원들'처럼 일하는 거예요.

──────────

📈 효과가 얼마나 크냐면

앤트로픽의 실제 연구 결과예요.

· 대장(오푸스) + 일꾼(소네트) 구조가

단독 AI보다 성능 90.2% 높았어요.

· 병렬로 동시에 일해서,

복잡한 조사 시간을 최대 90% 줄였고요.

'여럿이, 동시에'의 힘이 그만큼 커요.

──────────

💸 그런데, 공짜는 아니에요

멀티 에이전트는 강력하지만 비싸요.

· 토큰(비용)을 단독 대비 약 15배 더 써요.

· 그래서 '값어치가 충분한 일'에만 써야 해요.

앤트로픽도 선을 그어요.

"성능 향상의 값을 치를 만큼

충분히 중요한 일에만 쓰라."

──────────

🧩 멀티 에이전트가 빛나는 경우 vs 아닌 경우

[잘 맞아요 ⭕]

· 동시에 여러 방향을 조사하는 일

· 한 작업창에 안 담길 만큼 큰 정보

· 복잡한 도구 연동이 필요한 일

[덜 맞아요 ❌]

· 코딩처럼 서로 긴밀히 맞물리는 일

· 단계마다 조율이 많이 필요한 일

즉, '나눠서 동시에' 할 수 있을 때 강해요.

──────────

🤝 비결은 '협업 프레임워크'

여러 AI를 굴릴 때 핵심은

'빡빡한 지시'가 아니라 '협업의 틀'이에요.

앤트로픽이 강조한 3가지—

· 역할 분담 (누가 무엇을)

· 문제 접근법 (어떻게 풀지)

· 노력 예산 (얼마나 깊이 팔지)

이 틀만 잘 정해주면,

AI들이 알아서 손발을 맞춰요.

──────────

🌍 입문자에겐 무슨 의미일까?

어렵게 들리지만, 이미 곁에 있어요.

· '딥리서치' 같은 기능이

사실 '여러 번 조사+정리'하는 멀티 작업이에요.

· AI에게 "다시 한 번 검토해줘" 하는 것도

작은 '평가(Eval)'예요.

원리를 알면,

이런 기능을 더 똑똑하게 쓸 수 있어요.

──────────

🧪 '평가자처럼' 시켜보기 (복붙)

오늘 배운 '평가'를 바로 써먹는 법이에요.

"방금 네 답을 다른 시각에서 비판해줘.

틀린 점·빠진 점·약한 근거를 짚고,

점수(10점 만점)와 이유를 매겨줘.

그다음 더 나은 버전으로 고쳐줘."

'만들기 → 스스로 채점 → 개선'

이 흐름만 써도 답 품질이 확 올라가요. 💡

──────────

🙅 초보가 오해하기 쉬운 점

· "에이전트는 많을수록 좋다" → ❌

비싸고 복잡해요. 필요할 때만!

· "AI가 스스로 채점하면 되지" → ❌

자기 평가는 부정확해요. '딴 시각'이 필요.

· "이건 대기업만의 얘기" → ❌

'검토 한 번 더', '딥리서치'로 누구나 맛봐요.

──────────

🍳 한 줄 비유로 정리

· 평가(Eval) = '편집자·심사위원'

만든 걸 객관적으로 채점하는 역할

· 멀티 에이전트 = '팀 프로젝트'

팀장이 나누고, 팀원들이 동시에, 다시 취합

혼자 다 하기보다,

'역할을 나누고 서로 점검'하면 더 멀리 가요.

──────────

🗺 전체 연재 총정리 (5단계 한눈에)

대망의 완결편이니, 5단계를 쭉 정리해요.

#1 프롬프트 — "어떻게 말할까"

→ 잘 묻기. 역할+맥락+작업+형식+제약.

#2 컨텍스트 — "무엇을 알게 할까"

→ 자료·기억·도구를 알맞게. 단, 많다고 좋은 게 아님.

#3 에이전트 — "어떻게 행동할까"

→ 목표만 주면 스스로 계획·실행.

#4 하네스 — "어떻게 믿고 맡길까"

→ 검증·가드레일·관찰로 신뢰 확보.

(에이전트 = 모델 + 하네스)

#5 평가·멀티 — "여럿이, 검증하며"

→ 서로 채점하고, 나눠서 협업.

흐름 한 줄: 말 → 정보 → 행동 → 신뢰 → 협업·검증.

──────────

🧠 5단계를 관통하는 3가지

① 쌓인다 — 새 단계가 와도 앞 단계는 안 사라져요.

지금도 '잘 묻기(#1)'가 제일 기본이에요.

② 무게중심이 옮겨간다 — 말솜씨 → 정보 → 행동

→ 신뢰 → 협업. 어려운 지점이 계속 이동했어요.

③ 사람의 역할이 커진다 — '직접 하는 사람'에서

'잘 시키고, 점검하고, 지휘하는 사람'으로.

기술이 강해질수록,

'방향을 잡는 사람'의 가치는 오히려 커져요.

──────────

🎓 그래서, 결국 핵심은?

5편을 한 문장으로 줄이면 이거예요.

"AI는 도구다.

좋은 결과는 '좋은 질문 + 좋은 정보 +

좋은 구조 + 사람의 판단'에서 나온다."

화려한 기술 이름이 많았지만,

중심엔 늘 '사람'이 있었어요.

──────────

📎 5단계 '복붙 한마디' 총정리

연재 전체를 실전 문구로 압축했어요.

하나씩 써보세요!

[#1 프롬프트]

"역할·맥락·작업·형식·제약을 정해 또렷이 부탁."

[#2 컨텍스트]

"이 자료를 근거로, 없으면 없다고 해줘."

[#3 에이전트]

"단계로 나눠 스스로 진행하고, 막히면 물어봐."

[#4 하네스]

"실행 전 확인받고, 끝나면 점검해줘."

[#5 평가]

"네 답을 다른 시각으로 채점하고 고쳐줘."

이 다섯 줄이 '연재 전체의 실전 요약'이에요. 💪

──────────

🧪 나는 어느 단계까지? (종합 자가진단)

· 질문만 한다 → #1 입문

· 자료를 붙여 근거로 쓴다 → #2 중급

· "알아서 단계별로" 맡긴다 → #3 활용

· 확인·점검을 시킨다 → #4 고급

· 다른 시각 평가까지 시킨다 → #5 고수!

대부분 #1~#2면 충분해요.

나머지는 '이런 게 있구나' 알면 돼요.

──────────

🌱 입문자 종합 로드맵

· 1주: 프롬프트 — 조건 붙여 또렷이 묻기

· 2주: 컨텍스트 — 자료 주고 근거 요청

· 3주: 에이전트 — 여러 단계 한 번에 맡기기

· 4주: 하네스 — 확인·점검 습관 들이기

· +α: 평가 — "다른 시각으로 채점해줘"

딱 한 달이면, AI를 '제대로 부리는' 감이 잡혀요.

──────────

💬 자주 나오는 질문 (FAQ)

Q1. '평가(Eval)'를 일반인도 쓸 수 있어요?

→ 네! "다른 시각으로 채점해줘" 한마디면

이미 평가를 활용하는 거예요.

Q2. 멀티 에이전트는 어떻게 써봐요?

→ '딥리서치' 같은 기능이 대표적이에요.

직접 안 만들어도 '사용'은 누구나 가능.

Q3. 그럼 앞으론 사람이 필요 없어지나요?

→ 반대예요. 채점·방향·판단은 사람 몫이라

'사람의 안목'이 더 중요해져요.

Q4. 이 다음엔 또 뭐가 올까요?

→ 더 똑똑한 평가, 더 자연스러운 협업…

하지만 '말→정보→행동→신뢰→협업'의 큰 틀은 그대로예요.

──────────

📚 알아두면 좋은 용어 4개

· 평가(Eval): AI 결과를 기준표로 채점하기.

· LLM-as-Judge: AI가 다른 AI 답을 채점하는 방식.

· 오케스트레이터-워커: 대장 AI가 일꾼 AI들에 분배.

· 멀티 에이전트: 여러 AI가 협업하는 구조.

──────────

🔭 미래 — 어디로 갈까?

방향은 비교적 분명해요.

· 평가가 더 정교해지고 (자동 채점 발전)

· 여러 에이전트 협업이 더 매끄러워지고

· 사람은 점점 '지휘자'에 가까워져요.

하지만 변하지 않는 건,

'사람이 목표와 기준을 정한다'는 점이에요.

──────────

📊 핵심 한눈에

· AI는 자기 채점을 못 한다 → 평가자 분리(Eval)

· 채점은 '기준표(루브릭)'로

· 큰 일은 '여러 에이전트'가 나눠서 (대장+일꾼)

· 단독 대비 90%↑, 단 토큰 15배

· 비결은 '협업의 틀'(역할·접근·예산)

──────────

💬 거장의 한마디

앤트로픽:

"성능 향상의 값을 치를 만큼

충분히 중요한 일에만 (멀티 에이전트를) 쓰라."

그리고 평가에 대해선 —

"AI는 자기 일을 그대로 평가하지 못한다.

그래서 다른 시각의 검증이 필요하다."

'무조건'이 아니라 '제대로, 필요할 때'예요. 🙂

──────────

🔬 더 깊이 ① — 평가(Eval), 어떻게 하나요?

'평가'라고 하면 막연하죠.

실무에서는 크게 3가지 방법을 섞어 써요.

1) 자동 채점 (정답이 있을 때)

수학 문제, 코드 실행 결과처럼

'정답/오답'이 명확한 일은 기계가 바로 채점해요.

가장 싸고 빠르지만, 정답이 딱 떨어지는 일에만 가능해요.

2) 사람 평가 (가장 정확, 가장 비쌈)

글의 품질, 말투, 친절함처럼

'정답이 없는' 일은 결국 사람이 봐야 정확해요.

대신 느리고 비싸서 모든 답을 다 볼 순 없어요.

3) LLM 심판 (AI가 AI를 채점)

그래서 등장한 게 'LLM-as-judge'예요.

채점 '기준표(루브릭)'를 준 다음,

다른 AI에게 "이 답을 이 기준으로 점수 매겨줘"라고 시켜요.

사람만큼은 아니어도, 빠르고 싸게 '대량 채점'이 가능해요.

💡 핵심은 '루브릭(기준표)'이에요.

"정확한가 / 친절한가 / 형식을

지켰나"처럼

──────────

🔬 더 깊이 ② — 멀티 에이전트는 어떻게 일하나요?

앤트로픽이 공개한 '멀티 에이전트 리서치 시스템'을 예로 들어볼게요.

① 대장(오케스트레이터)이 큰 질문을 받아요.

예: "이 주제를 깊이 조사해줘."

② 대장이 일을 '쪼개서' 나눠줘요.

"너는 A를, 너는 B를, 너는 C를 조사해."

③ 일꾼(서브에이전트)들이 '동시에' 각자 조사해요.

혼자 순서대로 하면 느린 일을, 여럿이 병렬로 빠르게요.

④ 대장이 결과를 '모아서' 하나로 정리해요.

이 구조의 힘은 '병렬'과 '분업'이에요.

각 일꾼이 자기 몫의 맥락창만 쓰니,

혼자 다 떠안을 때보다 '컨텍스트 로트'(#2편)도 덜해요.

⚠️ 하지만 만능은 아니에요. 이럴 때 실패해요.

· 일을 잘못 쪼개면 → 일꾼끼리 같은 일을 중복하거나 빠뜨려요.

· 일꾼이 너무 많으면 → 결과 합치기가 더 어려워져요.

· 간단한 일에 쓰면 → 토큰 15배만 쓰고 효과는 그대로예요.

그래서

앤트로픽도 말해요.

──────────

🙋 입문자도 오늘 써먹는 법

"평가니 멀티 에이전트니, 나랑 무슨 상관?" 싶죠.

그런데 핵심 '태도'는 오늘 바로 쓸 수 있어요.

① '평가자처럼' 한 번 더 시키기

답을 받았으면, 그대로 믿지 말고 이렇게요.

"방금 답을 다시 점검해줘. 틀린 부분이나 빠진 게 있으면 고쳐줘."

→ AI에게 '심판 역할'을 한 번 더 시키는 거예요. 품질이 확 올라가요.

② '기준'을 먼저 알려주기

"친절하게 / 3문장으로 / 초보자 눈높이로"처럼

원하는 기준(루브릭)을 먼저 말하면, 결과가 일정해져요.

③ 큰 일은 '나눠서' 시키기

"보고서 전체 써줘" (X)

→ "① 목차부터 → ② 각 절을 하나씩 → ③ 마지막에 합치기" (O)

혼자서도 '대장처럼' 일을 쪼개면 결과가 좋아져요.

💬 복붙해서 바로 쓰는 한마디

──────────

🧭 시리즈 대단원 — 5단계 한 번에 정리

이 연재가 관통한 이야기는 결국 하나였어요.

'AI에게서 좋은 답을 얻는 법'은 이렇게 진화해왔어요.

#1 프롬프트 엔지니어링 — 잘 '물어보기'

역할+맥락+작업+형식+제약. "단계별로 생각해줘"(CoT).

→ 한마디: 똑똑하게 질문하면 답이 달라진다.

#2 컨텍스트 엔지니어링 — 잘 '채우기'

맥락창은 AI의 작업 책상(RAM). 신호 강한 최소 정보만.

→ 한마디: 무엇을 보여주느냐가 답을 결정한다.

#3 에이전트 엔지니어링 — 스스로 '일하게'

생각→행동→관찰의 반복(ReAct). 목표만 주면 알아서.

→ 한마디: 시키는 AI에서 일하는 AI로.

#4 하네스 엔지니어링 — 믿고 '맡기게'

에이전트=모델+하네스. 검증·기억·가드레일·관찰·도구.

→ 한마디: 신뢰는 모델이 아니라 '틀'에서 나온다.

#5 평가·멀티 에이전트 — '검증하며, 여럿이'

자기 채점 못 하니 평가자 분리. 큰 일은 분업.

→ 한마디: 제대로, 그리고 필요할 때 함께.

관통하는 3가지 흐름:

· 사람이 다 하던 일 → AI에게 점점 더 위임

· 한 번의 질문 → 여러 번의 '과정'으로

· 단독 → 도구·검증·여러 에이전트와 '함께'

하지만 끝까지 변하지 않는 것 —

──────────

🔬 더 깊이 ③ — 평가와 분업이 만나면?

사실 이 마지막 두 가지는 따로가 아니에요.

'평가'와 '멀티 에이전트'는 짝꿍이거든요.

여러 일꾼이 동시에 일하면, 결과물도 그만큼 많아져요.

그 많은 결과 중 무엇이 좋은지 누가 가릴까요?

바로 '평가자(심판) 에이전트'예요.

그래서 잘 만든 시스템은 이렇게 돌아가요.

① 대장이 일을 나눈다 → ② 일꾼들이 만든다 →

③ 심판이 점수 매긴다 → ④ 낮은 건 다시 시킨다.

'만들기'와 '검증하기'가 한 바퀴를 돌죠.

이게 앞으로 AI가 더 똑똑해지는 핵심 구조예요.

실제로 'AI가 스스로 더 좋아지는' 학습에도 이 원리가 쓰여요.

좋은 답엔 높은 점수, 나쁜 답엔 낮은 점수를 매겨서

AI가 '점수가 높은 쪽'으로 행동을 다듬도록 훈련하거든요.

결국 평가(채점)는 단순한 마무리 단계가 아니라,

AI를 키우는 '나침반'인 셈이에요. 🧭

그래서 요즘 AI 회사들이 '좋은 평가 데이터'에

그토록 공을 들이는 거예요. 잘 채점할수록, 더 잘 자라니까요.

정리하면 — 평가는 '끝'이 아니라 '다음 성장의 시작점'이에요.

이 한 바퀴(만들기→평가→다시 만들기)를 잘 돌리는 팀이

결국 더 똑똑한 AI를 만들어요. 우리가 매일 쓰는 클로드도 그렇게 자랐고요. 😊 정말 멋지지 않나요? 🚀✨

그리고 이 모든 과정의 '기준'을 정하는 건? 네, 사람이에요. 🙂

──────────

🙌 시리즈를 마치며

여기까지가 「AI 엔지니어링 진화사」 6부작의 마지막 화예요.

프롬프트로 시작해서,

컨텍스트, 에이전트, 하네스를 지나,

평가와 멀티 에이전트까지 왔어요.

어려운 용어가 많았지만,

결국 하고 싶었던 말은 딱 하나예요.

"AI를 잘 쓰는 건 '비법'이 아니라 '태도'다."

좋은 질문을 던지고,

필요한 맥락을 챙기고,

결과를 한 번 더 검증하는 태도.

그 태도만 있으면, 모델이 더 똑똑해질수록

여러분이 할 수 있는 일도 함께 커질 거예요.

끝까지 따라와 주셔서 진심으로 감사해요. 🧡

질문이나 어려웠던 부분은 댓글로 편하게 남겨주세요.

다음엔 더 재미있는 주제로 찾아올게요!

──────────

📖 참고자료 (References)

· Anthropic, "Building Effective Agents" (2024)

· Anthropic, "How we built our multi-agent research system" (2025)

· Anthropic, "Effective context engineering for AI agents" (2025)

· Anthropic, "Effective harnesses for long-running agents" (2026)

· Mitchell Hashimoto, "Agent = Model + Harness" (2026)

· A. Karpathy, "Context Engineering" (X, 2025)

· Wei et al., "Chain-of-Thought Prompting" (2022)

· Yao et al., "ReAct: Reasoning + Acting" (2022)

· Lewis et al., "Retrieval-Augmented Generation(RAG)" (2020)

· (배경) #1~#4편에서 인용한 모든 자료

──────────

📌 P.S.

이 글은 시리즈 완결편이에요.

#0 전체지도부터 다시

보면 흐름이 한눈에 들어와요.

💬 6부작 중 가장 도움이 된 편은 몇 편이었나요?

다음에 다뤘으면 하는 주제도 댓글로 알려주세요! 👇

AI 코딩 클로드 연구소 | Claude

게시판

공지 6

AI 코딩 클로드 연구소 | Claude

[🧭 AI 엔지니어링 진화사 #5·완결] 다음 단계 — 평가·멀티 에이전트 (+시리즈 총

[🧭 AI 엔지니어링 진화사 #5·완결] 다음 단계 — 평가·멀티 에이전트 (+시리즈 총