이슈 리포트
뉴스 데이터에 관한 최신 정보 리포트를 제공하는 공간입니다.

언론의 여론조사 보도, 왜 주의해서 살펴봐야 할까?

여론조사는 현재 어떠한 후보가 우세한지, 다른 유권자들은 내가 지지하는 후보에 대해 어떻게 생각하고 있는지 알 수 있는 기회가 됩니다. 그런데 우리가 뉴스에서 접하는 여론조사 보도, 그대로 믿어도 될까요? 20대 대통령 선거 기간 동안의 뉴스 데이터를 활용한 이번 분석에서 다룰 질문은 두 가지입니다. 첫 번째, 여론조사를 설명할 때 통계적으로 부정확한 표현이 사용된 기사의 비율은 얼마나 될까요? 그리고 두 번째, 과연 언론사들은 정치 성향에 따라 특정 후보에게 더 유리한 여론조사를 더 많이 보도할까요?

여론조사 보도에서 '오차범위'는 왜 중요할까?

미국 대통령 국정 지지예시 그래프 이미지

사람들이 데이터를 다룬 뉴스를 볼 때 가장 많이 놓치는 개념은 '오차범위'입니다. 여론조사 결과 추세를 시각화하면 오차범위를 위와 같이 음영으로 표현할 수 있습니다. 말그대로 여론조사가 가질 수 있는 '오차'를 감안해야 하기 때문에, 이 구간이 겹치는 한, 우리는 한 쪽이 명확히 우위에 있다고 표현할 수 없습니다. 가령, 대통령 국정 지지율의 긍정평가가 47.3%, 부정평가가 48.5%인데 표본오차가 ±3.1%라면, 긍부정 간의 차이가 1.2% 밖에 되지 않기 때문에 이는 오차범위를 넘어서지는 않습니다. 따라서 해당 데이터만으로 “현 정부에 대해 부정적으로 생각하는 사람들이 더 많다”고 단정짓는 것은 곤란합니다. 마찬가지로 위 이미지에서 실선으로 표기된 지지율 평균값이 소수점 단위에서 역전된다고 해도, 여전히 음영이 너무 많이 겹친다면, '골든크로스'와 같은 표현 역시 부정확합니다. 실제로 선거여론조사보도준칙 역시 “지지율 등이 오차범위 안에 있을 경우 표본오차를 감안해 순위를 매기거나 서열화해선 안된다”고 규정하고 있습니다.

그렇다면 과연 20대 대선 당시, 전체 기사들 중 '오차범위 내 우위', '오차범위 내에서 앞섰다', '골든크로스' 등의 통계적으로 부정확한 표현을 사용한 기사의 비율은 어떻게 될까요? 저희 분석팀은 선거일로부터 5개월 전인 2021년 10월부터 작성된 기사들 중 '여론조사'나 '지지율'이라는 단어를 포함하고, 퍼센트(%)와 함께 구체적인 지지율 수치를 기록한 1만 5천여 건의 뉴스들을 수집했습니다. 분석 결과 약 5.2%, 즉 20건에 1건 꼴로 부정확한 표현을 사용한 기사가 보도되었습니다. 후보들 간 경쟁이 심했던 지난 12월 첫째 주에는, 그 비율이 무려 14%까지 상승했습니다.

부정확한 표현을 사용한 여론조사 보도 비율

여론조사 전문가이자 베이지안(Bayesian) 통계학자인 서울대학교 외교학과 박종희 교수는 이에 대해 “여론조사 보도에서 기자들이 부정확한 방식으로 통계치를 표현하는 것은 언론의 책임인 동시에 학계의 책임이기도 하다”고 답했는데요, “기대값(평균) 중심의 보도를 넘어 신뢰구간(오차범위)에도 주목해야 하는 것”은 언론이 노력해야 할 영역이지만, 동시에 “연구자들도 통계 용어들의 개념 및 적절한 활용 방식을 제시할 필요가 있다”고 덧붙였습니다. 가령, 개표 중 특정 후보의 당선이 '유력'하다고 발표하는 시점의 당선 확률이 80%인지 90%인지, 그 임계점을 결정하는 것은 관련 전문가들의 의사결정의 영역입니다. 비슷하게는, 후보들 간 지지율 차이가 어느 수준에서 신뢰구간(오차범위)을 벗어나야 '골든크로스'라고 표현할 수 있을지 결정하는 것 역시 이와 유사한 논의 과정을 필요로 할 것입니다.

언론은 정치성향에 따라 '유리한 여론조사'만 체리피킹할까? 1) 클릭

20대 대통령 선거를 앞두고 양대 정당의 경선이 모두 마무리된 2021년 11월 6일 이후를 기준으로, 2022년 3월 9일의 선거일까지 하루 평균 3개의 여론조사가 발표되었습니다. 하루에 많게는 10개의 여론조사 결과가 발표되기도 했는데요, 어떤 여론조사에서는 A후보가 B후보보다 오차범위 밖에서 우위라고 이야기하지만, 또 다른 여론조사에서는 둘이 접전이라고 볼 수도 있고, 아예 반대로 B후보 지지율이 A후보보다 더 높다고 주장하는 여론조사도 있을 것입니다. 결과가 상이하니 유권자 입장에서는 혼란스러울 수밖에 없습니다. 그런데 여론조사심의위원회 사이트에서 매번 여론조사 결과 전체를 검색하지 않는 한, 대부분의 유권자들이 모든 여론조사 결과를 일일이 확인하기 쉽지 않습니다. 때문에 보통의 유권자들은 언론을 통해 여론조사 결과를 접합니다. 언론의 경우, 여론조사를 직접 의뢰했다면 해당 여론조사 결과를 당연히 공표하겠지만, 조사 의뢰자가 아닌 타 언론사에서는 여러 개의 여론조사들 중 특정 조사를 선택해서 보도합니다. 그렇다면 언론사는 자사의 주요 독자들이 지지하는 후보가 더 유리하게 나온 여론조사만 보도할 수도 있지 않을까요?

이에 분석팀은 더불어민주당과 국민의힘 양당의 경선이 끝나 대선 후보가 확정된 지 48시간이 지난 2021년 11월 7일부터 여론조사 공표금지 기간 이후 48시간이 지난 2022년 3월 4일까지, 총 4개월 간 작성된 기사들 중 제목 및 본문에 '여론조사'나 '지지율'이라는 단어를 포함하며 양당 후보에 대한 구체적인 지지율 수치(%)를 포함한 기사 총 12,968건을 수집했습니다. 한 기사에서 여러 여론조사를 동시에 다룰 수도 있고, 또 한 여론조사가 여러 개의 기사에 소개될 수도 있다는 점을 모두 반영해 여론조사 데이터와 보도 기사를 매칭한 결과, 총 3,697개 쌍을 확보했습니다.

언론사 정치 성향을 측정하는 데에는 두 가지 방식을 활용했습니다. 첫 번째, 언론 관련 문헌 및 웹 문서를 참고해 언더스코어 연구진이 직접 진보/중도/보수의 세 가지로 빅카인즈 내 언론사들을 분류했습니다. 2) 클릭 두 번째, 언론·리서치 분야 종사자 10명을 대상으로 리커트 5점 척도 (①매우 진보-②다소 진보-③중도-④다소 보수-⑤매우 보수) 설문을 통해 국내 주요 언론사들에 대해 평가한 후, 그 응답의 평균값을 계산했습니다. 이를 임의적으로 2.5점과 3.5점을 분기점으로 하여 진보/중도/보수를 분류하는 것이 가능합니다. 3) 클릭 언론사의 정치 성향이란 객관적으로 수치화하기 까다로운 개념이기 때문에, 본 분석에서는 두 가지 측정 방식을 모두 활용한 후 그 결과를 비교했습니다.

일자 별 이재명-윤석열 후보 지지율 차이 분포

우선 여론조사-언론보도의 매칭(matching)이 완료된 이후의 지지율 차이 분포는 위와 같았습니다. 분석 결과, 이재명 후보에게 유리한, 즉 후보 간 지지율 격차가 크지 않다고 한 여론조사를 소개한 비율이 언론사의 성향을 막론하고 모두 높았는데요, 이는 빅카인즈에 포함된 주요 언론사들이 상대적으로 규모가 크고 전통적인 조사기관들의 여론조사를 소개했기 때문에 나타난 결과일 수 있습니다. 가령 李 후보에게 가장 불리한 결과를 보고해 온 5개사인 알앤써치, 코리아정보리서치, 리서치뷰, 여론조사공정, 아시아리서치앤컨설팅은 전체 매칭 데이터셋에서 3.3%의 비중만을 차지했습니다. 반면 李 후보에게 가장 유리한 결과를 보고한 한국갤럽조사연구소의 단독 비중이 14.7%였습니다. 따라서 이하의 분석 역시 언론사의 세 가지 정치 성향 유형(진보/중도/보수)에 따라 평균값의 '상대적인' 차이가 있는 지에만 주목했습니다.

언론사는 '유리한 여론조사'만 체리피킹 할까? 양당 경선 후보 확정 이후 전기간 그래프

상단의 그래프에서 세로축(Y축)은 일별 여론조사에서 발표한 후보 간 평균 지지율 격차와 개별 여론조사에서 발표한 지지율 격차 간의 차이를 의미합니다. 즉, 값이 클수록 이재명 후보에게, 값이 작을수록 윤석열 후보에게, 더 우호적인 여론조사라는 뜻입니다. 대선 D-120일인 2021년 11월 8일부터 2022년 3월 4일까지의 전 기간에 대해 분석한 결과, 문헌 기반 정치 성향 분류 방식(p<.01)과 전문가 서베이 기준 분류 방식(p<.05) 모두 진보 성향의 언론사들이 보수 성향 언론사들보다 이재명 후보에게 더 유리한 여론조사 결과를 (반대로 말하면 보수 성향의 언론사들이 윤석열 후보에 더 유리한 여론조사 결과를) 선택하여 보도했다는 걸 보여줍니다. 진보 성향과 보수 성향 언론사가 보도한 여론조사 지지율 차이의 평균은 0.4~0.5%p였습니다. 다만 중도 성향 언론사와 보수 성향 언론사 간에도 유의미한 차이가 있는지에 대해서는 분류 방식에 따라 이견이 있습니다. 문헌 기반 정치 성향 분류 기준으로는 통계적인 차이가 있었지만 (p<.05) 전문가 설문 기준으로는 유의미하다고 판단되지 않았습니다.

언론사는 '유리한 여론조사'만 체리피킹 할까? 대선 3~4개월 전 그래프언론사는 '유리한 여론조사'만 체리피킹 할까? 대선 직전 2개월 전 그래프

선거일이 가까워질수록 진보, 보수 성향 언론사들의 체리피킹 경향은 더 심해집니다. 4) 클릭 가령 대선 3~4개월 전인 2021년 11월 8일부터 2022년 1월 8일 사이에는 언론사 별 차이가 없었지만, 대선 2개월 전인 2022년 1월 8일 이후로는 언론사에서 보도한 여론조사 결과 지지율 차이의 평균이 0.7~0.8%p로 훨씬 더 벌어졌습니다. 만약 후보들에 대한 지지율이 접전이라면 특정 후보가 우세하다는 보도는 유권자들의 심리에 충분히 영향을 줄 수도 있을 것입니다.

이러한 여론조사 보도의 정치적 편향성은 지난 2017년 19대 대통령 선거에서도 관찰된 바 있습니다. 5) 클릭 정치심리학자인 서강대학교 정치외교학과 하상응 교수는 이와 같은 분석 결과에 대해 "언론사 데스크에서 여론조사 결과를 선택하는지, 아니면 기사 작성 과정에서 기자들 개인이 개별적으로 자료를 선택하고 사후적으로 이런 편향이 나타나는지는 알 수 없다"고 하면서도 "이번 20대 대선 이전 선거에서도 유사한 사례들이 관찰되는 것을 볼 때 선거 여론조사보도에 있어서 선택적 보도의 편향성 자체가 충분히 문제가 될 수 있다"고 지적했습니다. 이와 같은 이유로 유권자들은 선거 여론조사 보도를 볼 때, 보다 주의를 기울일 필요가 있겠습니다.

☞ 분석 세부 설명: 언더스코어 https://bit.ly/3udQ2QK

  • 1) 분석 결과에 대한 세부 설명은 https://bit.ly/3udQ2QK 온라인 통계분석 보고서 참조
  • 2) 진보 : 한겨레, 경향신문, MBC, 아주경제 / 보수 : 조선일보, 중앙일보, 동아일보, 한국경제, 서울경제, 국민일보, 세계일보, 매일신문
  • 3) 진보 : 한겨레, 경향신문, KBS, MBC, YTN / 보수 : 조선일보, 중앙일보, 동아일보, 한국경제, 서울경제, 헤럴드경제, 아시아경제, 국민일보, 세계일보,문화일보, 머니투데이, 영남일보
  • 4) 통계적으로 표현하자면, 언론사 성향과 선거일 D-day간의 교차효과(interaction effect)가 유의미하게 나타났습니다. (문헌 연구 기준 이산형 분류 p-value .033 / 전문가 서베이 기준 이산형 분류 p-value .023 / 전문가 서베이 기준 연속형 분류 p-value .027)
  • 5) 송병권. "여론조사 보도에서 나타난 언론매체의 정치적 편향: 제19 대 대통령 선거를 중심으로." 한국정당학회보 18.4 (2019): 69-93.