여러분, 클로드는 어떻게 '나쁜 말은 피하고 도움되는 말을 하도록' 배웠을까요? 앤트로픽의 핵심 기술인 '헌법 기반 AI(Constitutional AI)'를 쉽게 풀어볼게요. (앤트로픽 공식 글 'Claude's Constitution' 번역·요약이에요.)
🤔 보통은 어떻게 가르칠까?
대부분의 AI는 사람이 일일이 "이 답은 별로, 저 답은 좋아"라고 평가해서 가르쳐요(RLHF). 그런데 이 방식은 ①사람이 수많은 해로운 내용을 직접 봐야 하고 ②어떤 기준으로 평가했는지 잘 안 드러나요.
📜 앤트로픽의 방법: '헌법'을 준다
앤트로픽은 클로드에게 지켜야 할 원칙 목록, 즉 '헌법'을 줘요. 이 원칙들은 UN 세계인권선언, 신뢰·안전 모범 사례, 다른 연구(딥마인드 Sparrow) 등에서 가져왔고, 서구가 아닌 관점도 일부러 담았어요.
🔁 두 단계로 배워요
1단계(자기 비평): 클로드가 답을 하나 만든 뒤, "이 답이 원칙에 어긋나지 않나?" 스스로 비평하고 더 나은 답으로 고쳐요. 그 '고친 답'으로 다시 학습하죠.
2단계(AI 피드백): 두 답 중 어느 게 원칙에 더 맞는지 'AI가' 판단해 점수를 매기고, 그걸로 강화학습을 해요. 사람이 아니라 AI가 피드백을 준다고 해서 RLAIF라고 불러요.
✨ 뭐가 좋아요?
놀랍게도 이 방식이 사람이 가르친 것보다 '더 도움되면서 동시에 더 안전한' 결과를 냈어요. 해로움에 대해선 사람 데이터를 전혀 안 썼는데도요. 그리고 'AI의 가치 기준'이 글(헌법)로 적혀 있어 더 투명해요 — 마음에 안 들면 그 원칙을 고치면 되니까요.
💡 왜 중요할까?
AI가 점점 똑똑해질수록 "무엇을 기준으로 행동하는가"가 중요해져요. 사람이 모든 걸 일일이 검사하기 어려워질 때, '원칙을 글로 정해두고 AI가 스스로 지키게' 하는 건 확장 가능한 안전장치예요.
📖 출처: 앤트로픽 'Claude's Constitution' · 'Constitutional AI: Harmlessness from AI Feedback' (anthropic.com). 쉽게 옮기느라 일부 단순화했어요.
여러분이 AI에게 꼭 지키게 하고 싶은 '원칙' 한 가지가 있다면 뭘까요? 댓글로 알려주세요 👇