수능 문제 풀이 능력으로 ChatGPT의 성능 향상 확인이 가능

박윤석 기자 승인 2023.12.27 14:23 의견 0


OpenAI에서 공개한 ChatGPT는 국내 직장인 10명중 8명이 사용한다고 응답했을 정도로 매우 큰 주목을 받으며 인공지능의 발전을 이끌고 있다. 그 중에서도 가장 최신 버전인 ChatGPT 4.0 버전에 대해 기존의 ChatGPT 3.5 모델 대비 정량적으로 성능 향상이 어떻게 이루어 졌는지 비교 분석한 연구 결과가 있어 화제를 모으고 있다.

공인 SW 시험 기관인 주식회사 애나 이상호 CTO 연구팀과 연세대학교 김시호 교수의 STL 연구실은 공동 연구를 통해 2023년 대학수학능력시험의 각 영역별 요구 능력의 차이를 토대로 ChatGPT 3.5와 4.0 버전의 성능을 객관적으로 평가하는 데 성공하였으며, 2023년과 2024년 수능의 난이도를 ChatGPT 4.0을 활용해 비교하고, 부족한 부분을 객관적인 평가 항목을 통해 검증하였다.

첫번째 실험에서는 국어, 영어, 수학 영역의 정답률을 측정하였으며, ChatGPT 4.0은 특히 국어와 수학에서 이전 버전에 비해 뚜렷한 성능 향상을 보이는 것을 확인할 수 있었다. 국어 영역에서 3.5 버전은 34%의 정답률을 기록했지만, 4.0 버전은 48%로 기존 대비 약 41%의 성능 향상율을 보였다. 수학 영역에서는 3.5 버전이 27%의 정답률을 보여주었던 반면, 4.0 버전은 48%의 정답률을 달성하며 78%의 성능 향상률을 보였다.

또한 두번째 실험에서는 난이도가 높은 것으로 알려진 2024년 대학수학능력시험과 2023년 시험을 비교하여 수능의 난이도 변화를 분석하였다. 국어, 영어 및 수학 영역을 중심으로 ChatGPT 4.0의 결과를 확인한 결과 국어영역은 6점 상승, 영어영역은 9점 하락, 수학영역은 5점 하락 등 2024년 대학수학능력시험에서는 국어 과목을 제외한 전반적인 과목의 문항이 어려워진 것으로 판단되며, ChatGPT 역시 정답을 찾아내는 데 어려움을 겪었다.

마지막으로, ChatGPT 4.0의 오답 유형을 확인한 결과 문자의 순서 파악, 논리적 전개 파악 등에 어려움을 겪는 것으로 보였으며 난이도가 높은 문제에서는 정답을 맞추었지만, 상대적으로 쉬운 문제에서도 이해를 하지 못해 오답을 내놓는 현상이 나타났다.

결론적으로, ChatGPT 4.0은 이전 버전인 3.5에 비해 뚜렷한 성능 향상을 보이며, 최근 LLM 기술의 급격한 발전을 증명하고 있다. 또한 '불수능'이라 불릴만큼 어려웠던 2024년 대학수학능력시험과의 비교를 통해 수능 응시자가 어려움을 겪는 부분이 ChatGPT에게도 어려움을 줬다는 것과, ChatGPT가 특별히 문제를 해결하는 데 어려움을 겪는 영역을 정량적으로 정의하고 평가할 수 있음을 보여주었다.

이러한 연구를 주도한 연세대학교의 김시호 교수는, "이번 결과는 ChatGPT와 같은 생성형 인공지능 모델의 성능을 평가하고 객관적인 기준을 제시했다는 데 매우 큰 의의가 있으며, 향후 생성형 인공지능의 객관적인 성능 평가에 활용할 수 있는 평가 메트릭을 개발하였다는 데 큰 의미가 있다." 라고 말하며 "현재까지 사람의 주관적인 요소가 개입된 평가 지표(HumanEval)를 대체하고 정량적이고 객관적인 생성형 모델의 성능 평가가 가능하도록 하는 데 큰 기여를 할 수 있을 것으로 기대된다" 라고 말했다.

유인춘 기자 ceo@startupn.kr

출처 : 스타트업엔(StartupN)(https://www.startupn.kr)

저작권자 ⓒ 창조아고라, 무단 전재 및 재배포 금지