빅카인즈(BIG KINDS) - 이슈 리포트

이슈 리포트
뉴스 데이터에 관한 최신 정보 리포트를 제공하는 공간입니다.

언론의 수능 난이도 보도, 어떻게 변해왔고, 또 얼마나 믿을 수 있을까?

수능시험 과목별 난이도 보도 양상 분석

2024학년도 수능 시험이 어느덧 일주일 앞으로 다가왔습니다. 아무래도 시험 이후 수험생 입장에서는 등급컷, 즉 시험의 난이도가 가장 궁금할텐데요, 과연 언론이 평가하는 수능 시험의 난이도는 어떻게 변해왔고, 또 우리는 이를 얼마나 믿을 수 있을까요? 이를 알아보고자 저희 언더스코어는 한국언론진흥재단 BigKinds를 활용해 2013년부터 2022년 사이의, 수능 시험 직후 첫 5일 동안 작성된 중앙지 및 방송사 11곳 1) 클릭 의 관련 기사들을 수집했습니다.

<그림1> 전체 수능 기사 중 난이도 관련 보도의 비율

언론 보도 역시 수능 시험 난이도에 대한 높은 언급률을 보여주고 있었습니다. 지난 10년 간의 총 18,170건의 뉴스들 중 평균적으로 10.1%의 기사들이 해당 연도 수능 시험의 난이도와 관련되어 있었고 2) 클릭 , 특별히 시간에 따른 추세 변화 없이 매해 일정한 비율을 유지하고 있었죠. 그렇다면 난이도를 소재로 한 이 기사들은 구체적으로 각 과목들을 어떻게 평가하고 있었을까요? 제일 정확한 방법은 모든 기사를 사람이 직접 읽고, 국어, 수학, 영어 세 개 과목별로 기사에 작성된 난이도를 ‘어려움’, ‘중간’, ‘쉬움’ 중 하나로 분류하는 것입니다. 또, 한 명이 한 개의 기사만을 읽고 평가할 경우 의견의 차이나 단순 기록 실수(human error)가 발생할 수 있으니, 한 기사를 여러 명이 읽고 각자가 내린 판단의 평균, 혹은 최빈값을 해당 기사의 최종 의견으로 결정할 수도 있습니다. 일반적으로 이러한 수작업을 우리는 데이터 레이블링(data labeling) 이라고 부릅니다. 그러나 해당 방식은 상당히 많은 시간과 비용이 소요됩니다. 평균적으로 1,000글자가 넘는 분량의 약 1,800개의 기사를 복수의 사람들이 읽고 평가하고 그 결과를 다시 취합하는 것은 너무나 까다롭죠.

<그림2-1> OpenAI GPT4 적용 예시 #1

그러나 다행히 2023년 초에 발표된 대규모 언어 모델(LLM, Large Language Model)인 OpenAI의 GPT4 덕분에, 저희는 번거롭고 지난한 인간의 데이터 레이블링 없이도 사람보다 빠르고 정확하게 동일한 작업을 수행할 수 있었습니다. 가령 적절한 프롬프트(prompt)와 함께 기사 본문을 제공한다면, 우리는 위 <그림 2-1>과 같은 결과를 얻을 수 있습니다. 해당 기사에서는 국어, 수학, 한국사의 세 개 과목 난이도가 언급되고 있고, 특히 국어와 수학은 작년 대비 1등급컷 언급과 함께 난이도가 상승했다고 명시되었습니다. GPT4는 이러한 정보를 잘 파악해 국어와 수학의 난이도는 ‘어려움’으로, 본문 상에서 관련 언급이 전혀 없었던 영어의 난이도는 ‘None’으로 분류했습니다.

<그림2-2> OpenAI GPT4 적용 예시 #2

<그림 2-2>는 GPT4가 좀 더 미묘하게 표현된 문장들 역시 효과적으로 이해할 수 있음을 보여줍니다. 기사의 첫 문단에는 국어 시험 난이도와 관련해 “어려웠던 지난해 수능보다는 조금 쉽게”, “‘쉬운 시험’은 아니었다”, “작년보다는 쉽지만 ‘물수능’ 수준은 아니다” 등의 정보가 언급되는데요, GPT4는 이러한 간접적인 서술들을 종합하여 국어 과목의 난이도를 최종적으로 ‘보통’이라고 평가했습니다. 두 번째 문단에서 명확하게 난이도가 언급된 수학과 영어 역시 문제 없이 ‘어려움’으로 기록하고 있고요.

<그림3> 언론사의 수능 난이도 평가 결과 기술통계

이후 GPT4 API를 활용해 전체 약 1,800개 기사에 적용한 결과, 모든 과목에 대해 각 기사들이 평가한 난이도 중 가장 높은 비율로 등장한 값은 ‘어려움’이었습니다. 구체적으로는 ‘쉬움’, ‘보통’, ‘어려움’이 각각 20.8%, 21.6%, 57.5%의 비율을 보였죠. 10년이라는 긴 기간 동안 다양한 방식의 난이도 조절이 이루어졌음을 가정하든, 아니면 반대로 해당 기간 동안 일정한 수준의 난이도가 유지되었다고 가정하든, 어떤 상황에서든 언론이 수능 시험의 난이도를 항상 “어렵다”고 평가 하는 것은 상당히 흥미로운 현상입니다. 물론 이러한 전체 통계치로는 세부사항까지 파악하기는 어렵습니다. 세 가지 과목 중 특정 과목이 이러한 경향성을 견인할 수도 있기 때문입니다.

<그림4> 국어, 수학, 영어 과목의 언론 보도 기반 연도별 수능 시험 난이도 평가

이에 저희는 2013년부터 2022년까지, 각 연도 및 과목 별로 언론사가 평가한 난이도를 분석해보았고, 그 결과는 <그림 4>에서 확인하실 수 있습니다. 데이터 시각화에 익숙하지 않은 분들을 위해 잠시 가로축(X축)은 연도, 세로축(Y축)은 해당 연도의 언론사들이 평가한 난이도 3) 클릭 이며, 각 연도별로 작성된 점(point)은 그 해의 평균 난이도를, 점을 관통하는 위 아래의 선은 표준편차(standard deviation)를 의미합니다. 표준편차(선)는 언론사들의 의견이 수렴할수록 작게 나타나고, 반대로 언론사들의 난이도에 대한 의견이 일치하지 않을수록 크게 나타납니다. 가령 ‘국어’ 과목의 마지막 조사 시점인 2022년 시험에서는 표준편차가 매우 길게 나타나는 반면 2018년의 국어 시험에서는 표준편차가 0, 즉 해당 시험을 보도한 모든 언론사가 이견 없이 해당 연도의 난이도가 어려웠다고 평가했습니다. 그렇기에 해당 연도에는 표준편차 선이 아예 관찰되지 않습니다. 이와 유사하게 2016년과 2017년 역시 언론사 간 의견이 거의 일치한 편입니다. 만약 표준편차가 너무 커서 그 해의 시험이 어려운지, 쉬운지 여부를 정확히 판단하기 어렵다면 ‘보통’ 난이도를 의미하는 0점을 중심으로 선이 걸쳐져 있을 것입니다. 실제로 저희 통계 모델 상에서 2020년의 국어 시험, 2017년과 2020년의 영어 시험은 이처럼 ‘보통’ 난이도, 혹은 다르게 표현하자면 ‘어렵고 쉬움을 명확히 답할 수 없음’으로 판단 4) 클릭 되었고 <그림 4>의 그래프 상에서도 여타 연도 대비 연한 선으로 표기되어 있습니다.

이러한 사전지식을 바탕으로 각 과목들에 대한 난이도 보도를 해설해보자면, 국어는 2013년부터 2018년까지는 어렵다고 평가되었고, 그 이후로는 2021년을 제외하면 쉽거나 보통 난이도라고 평가되었습니다. 2018년 이후로 유일하게 ‘어렵다’고 한 2021년 역시 2016~2018년에 비하면 표준편차가 매우 크게 나타나는 편입니다. 한편 수학은 인상적이게도 2014년을 제외하고 모든 연도에서 통계적으로 유의미하게 언론사들이 ‘어렵다’고 보도하는 현상이 나타났습니다. 영어의 경우 2014년의 시험이 쉽다고 보도되었고, 여타 연도들은 보통~어려움 사이로 평가되었으며, 국어나 수학과는 다르게 모든 해에서 표준편차가 크게 나타나 언론사 간 의견이 이질적임을 확인할 수 있었습니다.


시험일자	국어		수학		영어
시험일자	A형	B형	가·B형	나·A형	A형	B형
2013.11.07.	96/91	96/91	93/84	92/83	95/90	93/88
2014.11.13.	97/91	91/85	100/96	96/92	98/93	98/93
2015.11.12.	96/90	93/88	96/92	95/87	94/88	94/88
2016.11.17.	92/86		92/88	93/83	94/87	94/87
2017.11.23.	94/89		92/88	92/87
2018.11.15.	84/78		92/88	88/84
2019.11.17.	91/85		92/85	84/76
2020.12.03.	88/82		92/84	92/85

<표1> 연도·과목별 수능 시험 1·2등급컷 5) 클릭

다만 해당 정보를 좀 더 객관적으로 파악하기 위해서는 평가원에서 발표한 <표 1>의 실제 수능 시험 등급컷과 병행하여 살펴볼 필요가 있습니다. 우선 언론사들이 이례적인 등급컷 급등/급락을 잘 포착한 사례는 분명 존재합니다. 1등급컷이 10점이나 낮아진 2018년의 국어 시험, 너무 쉽게 출제되어 100점을 맞아야만 1등급을 받을 수 있었던 2014년의 수학 시험 등은 <그림 3>의 그래프 상에서 명확하게 관찰됩니다. 그러나 좀 더 광범위하게 살펴 보았을 때에는 보도 일관성에서 의문이 드는 점들이 많습니다. 가령 2017년과 2018년의 국어 시험 1·2등급컷은 무려 10점 차이가 존재하지만 언론은 이러한 변화에 주목하지 않았습니다. 또한 2020년의 국어 시험은 전년 대비 등급컷이 소폭 낮아진 것은 물론, 물론 지난 10년 간의 시험 중 1등급컷이 매우 낮은 편에 속하는, 즉 꽤 어렵게 출제된 해 중 하나입니다. 그러나 이번에도 언론사들은 해당 시험을 고난이도라고 평가하지 않았습니다. 마찬가지로 2015년 이후의 모든 수학 시험은 동일하게 ‘어렵다’고 보도되었는데, 이 중 표준편차가 유독 작게 나타나는 2016년과 2017년에 특별히 실제 시험 난이도가 더 어려워진 것은 아니며 6) 클릭 , 실제로는 오히려 2018년과 2019년에 난이도 상승 7) 클릭 이 발생했습니다. 물론 우리가 어떠한 시험의 난이도를 논할 때 해당 시험 자체의 내재적인 성격만으로 판단하는지, 아니면 전년 대비 상대적인 수준을 평가하는지에 따라 응답에 차이가 있을 수는 있지만, 이러한 본질적인 모호성을 감안하더라도 언론의 수능 난이도 보도에 다소 일관적이지 못한 모습이 나타나는 것 역시 사실입니다.

<그림5> 수능 시험 이후 시간 경과에 따른 난이도 보도의 표준편차 추이

지금까지 연도별 추이를 중심으로 언론의 수능 난이도 보도를 살펴봤다면, 이번에는 일 단위(daily)로 데이터를 모델링해보았습니다. <그림 5>는 수능이 시행된 일자 이후 첫 72시간 동안의 언론사들의 난이도 보도의 일관성 8) 클릭 을 살펴본 결과입니다. 세로축(Y축)은 표준편차로, 그 값이 클수록 언론사들 간의 의견이 불일치하고, 작을수록 언론사들 간 의견이 잘 수렴함을 의미합니다. 그리고 아주 흥미롭게도, 수능 직후에는 서로 달랐던 언론사들의 의견이 시간이 흐름에 따라 서로 비슷하게 수렴하는, 우리의 직관과도 부합하는 현상이 관찰되었습니다. 이에는 각종 기관들이 제공하는 예상 등급컷의 변동성이 시간이 지나며 줄어들어 ‘실제 난이도’가 꽤 명확히 파악되는 효과와 함께, 언론사들이 시간이 흐를수록 서로의 기사를 참고하며 보도의 방향성을 조금씩 조절하는 양상 등이 복합적으로 영향을 끼쳤을 것으로 예상됩니다. ■

1) KBS, MBC, SBS, YTN, 경향신문, 국민일보, 동아일보, 세계일보, 조선일보, 중앙일보, 한겨레
2) 기사 제목이나 본문에 ‘등급’, ‘등급컷’, ‘난이도’, ‘고난도’, ‘저난도’, ‘어려운’, ‘어렵게’, ‘어렵다’, ‘수월’, ‘쉬워’, ‘쉬운’, ‘쉽게’, ‘평이한’, ‘평이하게’ 중 최소 한 개의 어휘를 포함하고 있는 비율
3) 모든 난이도 수치는 ‘쉬움’(-1점)과 ‘어려움’(+1점) 사이에 위치. 회색 점선은 쉬움/어려움의 구분 기준이 되는 0점(‘보통’)에 위치하고 있음.
4) “평균=0”인 영가설을 단일표본 t 검정 시, 유의 수준 99%에서 기각 실패
5) 2016년(2017학년도)부터는 국어의 A/B형이 통합되었으며, 2017년(2018학년도)부터는 영어가 절대평가로 전환됨. 또한, 2021년 이후로는 등급이 원점수만으로 산정되지 않기에 <표 1>에서는 2020년(2021학년도)까지의 등급컷만을 기재했음.
6) 이는 <표 1>에는 표기되지 않은 3등급컷을 함께 고려했을 때도 마찬가지.
7) 수학 시험 (나)형에서는 등급컷이 7~8점 가량 하락
8) 과목 및 연도를 구분하지 않고 모든 연도 데이터를 통합한 뒤 일 (daily) 단위 기준으로 계산함