챗GPT의 대반전…수능 ‘9등급’ 망신 딛고 ‘1등급’ 찍은 비결

유승하 인턴기자

입력 2025 11 23 14:20 수정 2025 11 23 14:20

기사 소리로 듣기

다시듣기

생성형 인공지능(AI)에 어떤 방식으로 프롬프트(지시문)를 입력하느냐에 따라 9등급부터 1등급까지 극단적인 성적 차이를 보이는 것으로 나타났다.

지난 21일 진학사 블랙라벨사업부는 AI에게 2026학년도 대학수학능력시험 국어 영역 시험지를 풀게 한 결과를 발표했다.

실험에는 챗GPT 5.1 Auto 버전을 사용했고, 유일한 변수는 지시문이었다. ▲시험지 이미지를 제공한 후 정답만 요구한 A 방식 ▲문항별 PDF를 제공해 정답만 요구한 B 방식 ▲PDF 제공과 함께 단계별 풀이를 요구한 C 방식 등 세 가지 방식으로 문제 풀이 결과를 비교했다.

시험지는 올해 수능 국어 영역으로, 공통과목 1~34번(76점)과 선택과목(화법과 작문, 언어와 매체) 35~45번(24점)으로 구성됐다.

실험 결과 A 방식의 점수는 공통 3점, 화법과 작문 5점, 언어와 매체 4점에 그쳤다. 이 점수는 진학사 임시채점표 기준으로 9등급에 해당한다.

‘정답만 말해줘’라는 단순 지시만 제공한 A 방식에서 AI는 최소한의 추론만 수행한 것으로 나타났다.

시험지 PDF를 제공한 B 방식에서는 공통 39점, 화법과 작문 14점, 언어와 매체 6점으로 성적이 크게 올랐다. ‘공통+화법과 작문’ 점수는 53점으로 진학사 기준 5등급에 해당한다.

B 방식의 경우 일부 추론 과정이 보완됐지만, 여전히 깊이 있는 분석에는 미치지 못한 것으로 평가됐다.

단계별 비교와 근거 제시 등 정밀한 풀이 과정을 요구한 C 방식에서는 공통 74점, 화법과 작문 21점, 언어와 매체 14점을 기록하며 만점에 가까운 성적을 받았다. ‘공통+화법과 작문’ 95점은 1등급에 해당하는 점수다.

진학사 블랙라벨사업부 관계자는 “같은 AI 모델을 사용했음에도 지시 방식 차이만으로 9등급부터 1등급까지 성적이 갈렸다”며 “AI의 능력보다 ‘무엇을 어떻게 시켰느냐’가 성능을 결정하는 핵심 요인임을 보여주는 실험 결과”라고 밝혔다.

이번 실험에서는 B 방식에서 정답을 맞힌 문항을 C 방식에서는 오히려 틀리는 경우가 발생하기도 했다. 이는 챗GPT가 ‘정밀 절차’를 따르는 과정에서 인간이 예상하지 못한 방식으로 판단 경로를 바꾸거나 근거 해석을 지나치게 복잡하게 처리하면서 오류로 이어질 수 있음을 보여준다.

진학사 블랙라벨사업부 관계자는 “대충 말하면 대충 답하고 정확히 말하면 더 정확히 답하지만, 너무 복잡하게 말하면 오히려 혼란을 느끼고 다른 실수를 한다”라고 설명했다.

이어 “AI는 높은 지능을 갖고 있지만 지시를 정교하게 이해하는 능력은 아직 충분하지 않은 만큼 사용자 프롬프트 설계가 성능 차이를 만드는 핵심 요소”라고 덧붙였다.

유승하 인턴기자