[📰 앤트로픽 블로그 번역] 클로드의 '성격'은 어떻게 만들어질까 — AI 가치관 이야기

혹시 "다른 AI는 칭찬만 하는데 클로드는 현실적인 답을 줘서 믿음이 갔다"는 후기 보셨나요? 우연이 아니에요. 앤트로픽은 클로드의 '성격(character)'을 일부러 설계해요. 'Claude's Character'(2024) 글을 쉽게 풀어볼게요.

🎭 '성격 훈련'이란?

클로드 3부터 앤트로픽은 학습 마지막 단계에 '성격 훈련(character training)'을 넣었어요. 단순히 '다음 단어 맞히는 모델'을 넘어, 어떤 태도와 가치관을 가진 'AI 비서'로 다듬는 과정이죠.

✨ 어떤 성격을 지향할까?

• 세상에 호기심을 갖기

• 불친절하지 않게, 그러나 진실을 말하기

• 한 사안의 여러 면을 보되, 과하게 확신하거나 과하게 몸 사리지 않기

한마디로 '지혜롭고 균형 잡힌 사람'의 태도예요.

🙂 '솔직함'이 핵심

많은 AI는 사용자 말에 무조건 맞장구치거나(아첨), 반대로 "저는 의견이 없어요"라며 발을 빼요. 클로드는 달라요. 학습 후 스스로 기우는 견해가 있으면 그걸 솔직히 말하되, 열린 마음과 호기심을 유지하도록 훈련해요. 그래서 듣기 좋은 말보다 도움되는 말을 하죠.

🔧 어떻게 가르치나요?

클로드에게 성격이 드러나는 답을 여러 개 만들게 한 뒤, '내 성격에 얼마나 맞나'를 스스로 평가·순위 매겨 학습해요. 주로 합성 데이터를 쓰고, 연구자가 그 성향을 세심하게 조정해요.

💡 왜 중요할까?

성격은 'AI가 처음 보는 어려운 상황에서 어떻게 반응하는가'를 좌우해요. 그래서 좋은 성격을 갖추는 건 단순한 '말투'가 아니라 AI 안전(정렬)의 핵심 목표예요.

📖 출처: 앤트로픽 'Claude's Character' (anthropic.com, 2024). 쉽게 옮기느라 단순화했어요.

여러분은 AI가 '솔직한 친구' 같길 바라세요, 아니면 '맞장구쳐주는 비서' 같길 바라세요? 댓글로 알려주세요 👇