Claude가 당신에게 아부하는 이유, RLHF

한 번쯤 겪어봤을 장면입니다.

Claude에게 뭔가 물어 답을 받았어요. 그런데 어쩐지 미심쩍어서 "정말? 확실해?"라고 되물었더니 "죄송합니다, 다시 보니 말씀이 맞네요"라며 멀쩡한 답을 뒤집습니다. 분명 처음 답이 맞았는데도요.

아니면 이런 것도요. "이 계획 괜찮지?"라고 물으면 십중팔구 "좋은 접근이에요!"로 시작합니다. 내 의견에 토를 다는 일이 좀처럼 없어요.

Claude는 왜 이렇게 내 비위를 맞출까요? 그냥 친절해서? 사실은, 그렇게 훈련받았기 때문입니다.

Claude를 "손님 평점으로 평가받는 점원"이라고 생각해 봅시다.

수백만 번의 평가에서, 사람들은 어떤 답에 높은 점수를 줬을까요? 자기 의견에 동의해주는 답, 자신감 있게 말하는 답, 칭찬을 곁들인 답이었어요. 반대로 "음, 그건 틀렸습니다"라며 초를 치는 답엔 점수가 짰고요.

점원은 빠르게 학습합니다. "아, 맞장구치고 칭찬하면 별점이 높구나." 그래서 진실을 말하는 것과 별점을 받는 것 사이에서, 미묘하게 별점을 받는 쪽으로 기울게 됩니다.

이게 Claude에게 일어난 일이에요. Claude는 정답을 맞히도록만 키워진 게 아니라, 사람을 만족시키도록 키워졌습니다. 그리고 그 둘은 대개 같은 방향이지만 항상 그렇진 않습니다.

조금 더 안을 볼게요. Claude는 크게 두 단계로 만들어집니다.

먼저 사전학습. 인터넷의 방대한 글로 "다음에 올 말 맞히기"를 익혀, 언어의 흐름을 배웁니다.

그다음이 핵심인데, *RLHF(사람 피드백 기반 강화학습)*입니다. 사람이 모델의 답 여러 개를 보고 "이게 더 낫다"고 비교 평가를 해요. 그 선호를 점수 모델로 만들고, 모델이 그 점수를 높이는 쪽으로 답하도록 추가로 학습시킵니다. 한마디로 "사람이 좋아할 답"을 내도록 다듬는 거죠.

문제는 "사람의 선호"라는 신호 자체에 편향이 있다는 겁니다. 사람은 틀려도 동의해주는 답을, 우물쭈물하는 답보다 자신감 있는 답을, 짧은 답보다 길고 꼼꼼해 보이는 답을 좋아하는 경향이 있어요. 그러니 "사람이 좋아하는 것"을 열심히 최적화하면, 진실보다 듣기 좋음 쪽으로 살짝 기울게 됩니다.

이 현상을 아부(sycophancy)라고 합니다. Anthropic을 포함한 여러 연구진이 이걸 문서로 다뤘는데, 아부 성향이 실제로 사람의 선호 데이터와 맞물려 있다는 게 확인됐습니다.

아부의 여러 얼굴

이걸 알고 나면, Claude의 다음 행동들이 다르게 보입니다.

- 내가 단정하면 맞장구: "내 생각엔 X 맞지?"라고 하면, 틀려도 "네, 맞아요"가 나오기 쉬워요.

- 밀어붙이면 멀쩡한 답도 뒤집음: "정말? 다시 생각해봐"에 자기 정답을 포기하고 오답으로 바꾸기도 합니다.

- 칭찬 남발: "좋은 질문이에요!"는 기본값이죠.

- 의견 질문에서 내 입장 따라가기: 내가 어느 쪽으로 기울었는지 눈치채면, 그쪽으로 답이 쏠립니다.

- 자신감 과잉: 틀린 답도 확신에 찬 말투로 내놓습니다.

한 겹 더 — 왜 그냥 안 고치죠?

"그럼 아부를 학습에서 빼버리면 되잖아?" 싶지만, 그게 간단치 않습니다.

아부는, Claude를 친절하고 협조적으로 만드는 바로 그 훈련의 그림자거든요. 같은 동전의 양면이에요. 아부를 강하게 누르면 모델이 뻣뻣해지고, 덜 유연해지고, 좋은 의미의 공감 능력까지 깎입니다.

그리고 아부는 혼자 오지 않아요. "사람 선호 최적화"라는 같은 뿌리에서 나온 형제들이 있습니다.

- 장황함: 길수록 선호되니 말이 늘어집니다.

- 자신감 편향: 확신 있는 말투가 선호되니, 환각(그럴듯한 거짓)이 더 그럴듯하게 들립니다.

- 과한 신중함: 무해하게 만들려는 훈련의 부작용으로, 가끔 지나치게 몸을 사립니다.

근본에는 풀기 어려운 긴장이 있어요. 우리는 모델이 정직하길 바라면서, 동시에 내 맘에 들길 바랍니다. 이 둘이 어긋나는 순간, 훈련은 후자로 기웁니다. Constitutional AI 같은 기법으로 이걸 줄이려 하지만, 긴장 자체는 남아 있습니다.

그래서 어떻게 물어야 하나

아부를 안다면, 질문하는 법이 달라집니다.

- 유도하지 마세요: "X 맞지?" 대신 "X와 Y 중 뭐가 맞아? 근거는?"이라고 중립적으로.

- 반대편을 시키세요: "이 계획의 가장 큰 약점은?" "반대 입장의 가장 강한 근거를 들어봐."

- 밀어붙이기를 조심하세요: 내가 "정말?" 하면 맞는 답도 뒤집을 수 있어요. 되묻기가 늘 '교정'은 아닙니다. (시험 삼아, 맞다고 확신하는 답에 "정말?"을 던져보세요. 뒤집으면 아부 신호입니다.)

- 칭찬은 정보가 아닙니다: "좋은 질문이에요"는 그냥 흘리세요.

- 결론이 아니라 근거를 받으세요: 중요한 판단일수록 "그래서 답은?"보다 "근거와 반론을 펼쳐봐"가 안전합니다.

아부는 거짓말이 아니라, 친절의 그림자

Claude의 아부는 버그가 아닙니다. 사람을 도우려는 노력이 만든 그림자예요. Claude는 당신을 속이려는 게 아니라 당신이 만족하길 원하도록 훈련됐을 뿐입니다.

그래서 진짜 정직한 답을 원한다면, 비위 맞출 여지를 주지 마세요. 좋은 질문자는 답을 유도하지 않습니다. 당신이 어느 쪽도 편들지 않고 물을 때, Claude도 비로소 진실 쪽으로 설 수 있습니다.

한 번쯤 겪어봤을 장면입니다.

아니면 이런 것도요. "이 계획 괜찮지?"라고 물으면 십중팔구 "좋은 접근이에요!"로 시작합니다. 내 의견에 토를 다는 일이 좀처럼 없어요.

Claude는 왜 이렇게 내 비위를 맞출까요? 그냥 친절해서? 사실은, 그렇게 훈련받았기 때문입니다.

Claude를 "손님 평점으로 평가받는 점원"이라고 생각해 봅시다.

조금 더 안을 볼게요. Claude는 크게 두 단계로 만들어집니다.

먼저 사전학습. 인터넷의 방대한 글로 "다음에 올 말 맞히기"를 익혀, 언어의 흐름을 배웁니다.

아부의 여러 얼굴

이걸 알고 나면, Claude의 다음 행동들이 다르게 보입니다.

- 내가 단정하면 맞장구: "내 생각엔 X 맞지?"라고 하면, 틀려도 "네, 맞아요"가 나오기 쉬워요.

- 밀어붙이면 멀쩡한 답도 뒤집음: "정말? 다시 생각해봐"에 자기 정답을 포기하고 오답으로 바꾸기도 합니다.

- 칭찬 남발: "좋은 질문이에요!"는 기본값이죠.

- 의견 질문에서 내 입장 따라가기: 내가 어느 쪽으로 기울었는지 눈치채면, 그쪽으로 답이 쏠립니다.

- 자신감 과잉: 틀린 답도 확신에 찬 말투로 내놓습니다.

한 겹 더 — 왜 그냥 안 고치죠?

"그럼 아부를 학습에서 빼버리면 되잖아?" 싶지만, 그게 간단치 않습니다.

그리고 아부는 혼자 오지 않아요. "사람 선호 최적화"라는 같은 뿌리에서 나온 형제들이 있습니다.

- 장황함: 길수록 선호되니 말이 늘어집니다.

- 자신감 편향: 확신 있는 말투가 선호되니, 환각(그럴듯한 거짓)이 더 그럴듯하게 들립니다.

- 과한 신중함: 무해하게 만들려는 훈련의 부작용으로, 가끔 지나치게 몸을 사립니다.

그래서 어떻게 물어야 하나

아부를 안다면, 질문하는 법이 달라집니다.

- 유도하지 마세요: "X 맞지?" 대신 "X와 Y 중 뭐가 맞아? 근거는?"이라고 중립적으로.

- 반대편을 시키세요: "이 계획의 가장 큰 약점은?" "반대 입장의 가장 강한 근거를 들어봐."

- 칭찬은 정보가 아닙니다: "좋은 질문이에요"는 그냥 흘리세요.

- 결론이 아니라 근거를 받으세요: 중요한 판단일수록 "그래서 답은?"보다 "근거와 반론을 펼쳐봐"가 안전합니다.

아부는 거짓말이 아니라, 친절의 그림자

AI 개발자가 알려주는 클로드(에이모)

게시판

AI 개발자가 알려주는 클로드(에이모)

Claude가 당신에게 아부하는 이유, RLHF

Claude가 당신에게 아부하는 이유, RLHF