의사면허시험 통과 챗GPT ... 한의사 국가시험도 통과

박윤석 기자 승인 2023.12.26 11:03 | 최종 수정 2023.12.27 12:37 의견 0

[헬스코리아뉴스 / 이지혜] 생성형 인공지능(AI) 모델인 챗GPT(ChatGPT)가 각국의 의사 면허시험을 통과하고 있어 주목된다. 국내에서는 한의사 국가시험 합격선을 통과했다는 연구 결과가 나왔다.



챗GPT 정답률 66.18%로 한의사 국시 통과


가천대 한의대 연구팀, 챗GPT 한의사 국가시험 연구 논문
가천대학교 한의과대학 김창업 교수, 장동엽 연구원 연구팀은 오픈에이아이(OpenAI)가 개발한 챗GPT 최신판인 GPT-4를 한의사 국시에 적용했다.

연구팀은 지난 2022년 진행한 한의사 국시 문항 340개를 제시하고 GPT-4 정답률을 평가했다. 한의학 분야에 대한 추가 훈련을 별도로 하지 않은 모델을 이용했다.

평가 결과, GPT-4 정답률은 66.18%로 합격선(60%)을 넘어섰다. 과목별 평가에서도 과락 기준인 40%를 통과했다.

과목별 정답률은 ▲본초학(한의학에서 활용되는 약재에 대한 학문) 87.5% ▲소아과학 81.2% ▲부인과학 79.2% ▲보건의약관계법규 40.0% ▲상한론·사상의학 43.8%였다.

정답률은 프롬프트 엔지니어링을 어떻게 하느냐에 따라 차이를 보였다. 한국어 문항을 그대로 입력했을 때 평균 정답률은 51.82%를 기록했다. 한의학 용어를 한자로 함께 적은 경우 57.59%로 상승했다. GPT-4가 문항을 영어로 번역해 풀도록 했을 때 정답률은 63.65%였다.

자기 일관성 기법을 적용해 같은 문항을 반복적으로 풀이하고 빈도가 가장 높은 답을 선택하게 했을 때 정답률은 66.18%까지 상승했다.

김창업 교수는 “기존 연구에 비해 이번 연구에서는 프롬프트엔지니어링을 통해 한의학적 문제해결능력을 강화할 수 있다는 사실을 밝혔다는데 의의가 있다”며 “동일한 내용의 문제라도 어떤 언어로 사고하는지, 어떤 방식으로 사고하는지에 따라 큰 성능의 차이가 있었다는 데 주목할 필요가 있다”고 밝혔다.

장동엽 연구원은 “한국의 특수성을 반영하는 보건의약관계법규, 상한론-사상의학과 같은 과목들에서 낮은 점수가 나왔다는 것에 주목할 필요가 있다”며 “GPT-4처럼 글로벌 기업에서 구축된 AI가 한국의 특수성을 잘 반영하지 못할 수 있다는 점을 보여 준다. 추후 의료 인공지능 개발 시 각 지역의 특수성을 반영할 수 있는 노력이 필요할 것으로 보인다”고 말했다.

이번 연구 결과는 국제 학술지 ‘PLOS Digital Health’에 ‘GPT-4 can pass the Korean National Licensing Examination for Korean Medicine Doctors’라는 제목으로 이달 게재됐다.



챗GPT, 미국·일본 의사면허시험도 통과


챗gpt 의료 AI 인공지능
지난 1월에는 챗GPT가 미국 의사면허시험(USMLE)에 합격했다는 소식이 나왔다. 미국 캘리포니아의 의료 스타트업인 앤서블헬스 연구팀은 챗GPT에 USMLE을 실시한 결과, 모든 시험에서 50% 이상 정확도를 보여줬다는 연구 결과를 발표했다.

이번 실험은 의대 2학년생을 대상으로 하는 스텝1, 의대 4학년생을 대상으로 하는 스텝2, 전공의 1년차를 대상으로 하는 스텝3의 문제를 풀게 하는 방식으로 진행됐다. USMLE 홈페이지에 공개된 376개의 문제 샘플 중 챗GPT가 인식할 수 있는 텍스트 기반 문제 305개를 연구에 사용했다.

USMLE는 1992년부터 시행된 미국 의대생·의사 지식을 평가하는 테스트로 미국에서 의료업무를 하기 전에 합격해야 하는 시험이다. 미국에서 매년 10만명 넘는 학생이 이 시험을 본다. 챗GPT는 USMLE에서 52.4~75점을 획득해 통과했다. 매년 통과 기준치는 평균 60점이다.

지난 5월 일본 의사면허시험에도 합격했다는 연구 결과가 나왔다. 미국 워싱턴대 가사이 준고 연구원 연구팀은 챗GPT 3.5 버전, 최신 버전인 GPT-4에게 2018년 이후 5년 치의 일본 의사국가시험을 풀게 했다. 그 결과, 3.5 버전은 전부 불합격했지만 GPT-4는 모두 합격했다.

합격한 GPT-4가 받은 점수는 인간 응시자의 평균 점수보다는 낮았다. 임신한 환자에게 투여할 수 없는 약물을 선택하거나, 환자에게 안락사를 권유하는 표현을 ‘적절한 대응’이라고 답변하는 등 부적절한 답을 내놓기도 했다.

의료계 관계자는 “챗GPT가 의료진 또는 환자의 단순 편의를 대체할 수 있는 수준에는 도달했지만, 의료진의 전문적 판단이 필요한 영역까지 활용하기에는 아직 한계가 있다”고 말했다.

저작권자 © 헬스코리아뉴스 무단전재 및 재배포 금지

출처 : 헬스코리아뉴스(http://www.hkn24.com)

저작권자 ⓒ 창조아고라, 무단 전재 및 재배포 금지