개발일기

🧠 LLM도 ‘추론 능력’이 다 다르다? Chain-of-Thought란 무엇인가

뱅우 2025. 5. 14. 10:20
반응형

 

안녕하세요!
오늘은 LLM(Large Language Model)의 추론 능력을 높이는 핵심 전략,
바로 Chain-of-Thought(CoT) 에 대해 이야기해보려고 합니다.

요즘 AI 모델을 쓰다 보면 이런 경험, 한 번쯤 해보셨을 거예요.

🤔 “답은 맞는 것 같은데… 뭔가 논리 전개가 이상해.”
🤯 “같은 질문인데 GPT-3.5는 틀리고, Claude는 잘 맞추더라?”

그 이유는 간단합니다.
👉 모델마다 추론 능력이 다르고,
👉 그 성능 차이를 극복하기 위해 만들어진 전략이 바로 Chain-of-Thought입니다.


🔍 Chain-of-Thought(CoT)란?

Chain-of-Thought, 줄여서 CoT는 말 그대로
“생각의 흐름”을 유도하는 프롬프트 전략입니다.

즉,

답을 곧바로 요청하는 대신,
AI가 중간 사고 과정을 '글로 표현'하도록 유도
보다 정확한 답을 이끌어내는 방식이죠.


🧠 왜 CoT가 필요한가?

LLM은 기본적으로
한 번에 정답을 내도록 학습된 모델입니다.

하지만 다음과 같은 유형의 질문엔 약하죠:

  • 수학 계산
  • 논리 퍼즐
  • 단계적으로 사고해야 하는 문제들

그 이유는?
AI가 중간 사고 과정을 건너뛰고 바로 답을 내버리기 때문이에요.
이게 바로 실수와 오답의 원인입니다.


💡 예시로 비교해볼까요?

❌ 일반 프롬프트

“철수는 사과 12개를 가지고 있고, 친구 3명에게 똑같이 나눠주려고 한다. 한 명당 몇 개를 받게 될까?”
→ GPT-3.5: “3개입니다.” ❌ (오답)

✅ Chain-of-Thought 프롬프트

“이 문제를 단계별로 생각해줘.”
→ GPT-4:
“철수는 사과 12개를 가지고 있고, 친구가 3명입니다.
각 친구에게 똑같이 나누기 위해 12 ÷ 3을 계산하면,
각각 4개씩 받게 됩니다.
따라서 정답은 4개입니다.” ✅

중간 과정이 보이니 정답도 훨씬 신뢰 가능하죠?


📈 CoT의 효과

실제로 OpenAI, Google, DeepMind 등의 연구에 따르면,
Chain-of-Thought를 적용했을 때 다음과 같은 효과가 나타났습니다:

  • 정답률 20~30% 향상 (특히 수학, 과학, 논리 문제에서)
  • Hallucination(헛소리) 감소
  • 복잡한 문제 해결력 상승

🤖 어떤 모델이 잘할까?

아래는 주요 LLM들의 CoT 성능 비교입니다:

모델CoT 성능비고
GPT-3.5 중간 CoT 프롬프트가 있어야 정확도 상승
GPT-4 / 4o 우수 CoT 없이도 꽤 잘함, 넣으면 더 좋아짐
Claude 3 매우 우수 논리 설명력 + 추론력 뛰어남
Gemini 1.5 보통~우수 문제 유형에 따라 성능 편차 있음
 

💡 특히 GPT-3.5나 Gemini 같이 중간 성능 모델에서 CoT 효과가 가장 큽니다.


🧰 실전에서 이렇게 쓰세요

아래는 CoT를 유도하는 프롬프트 예시입니다.
실제로 많이 사용하는 방식들이에요:

복사편집
이 문제를 단계별로 생각해줘. 한 단계씩 천천히 풀어줘. 왜 그런 답이 나오는지도 설명해줘. 중간 계산 과정도 함께 보여줘.

→ 이렇게 요청하면 AI는 단순히 "3개입니다"가 아니라
사람처럼 사고하는 과정을 거쳐 답을 만들게 됩니다.


🧭 마무리: “AI에게도 생각할 시간을 주세요”

사람에게도 실수했을 때

“천천히 다시 생각해봐”
라고 하잖아요?

AI도 마찬가지입니다.

질문을 조금 다르게 던지는 것만으로도
AI의 응답 품질은 눈에 띄게 달라집니다.

Chain-of-Thought는 단순한 트릭이 아니라,
**AI가 인간처럼 사고하도록 도와주는 '질문 전략'**입니다.

앞으로는 정답을 묻기 전에,
“그 답을 어떻게 생각해냈는지”를 유도해보세요.
그게 더 나은 답을 만드는 시작이 될지도 모릅니다.

반응형