• 구름많음속초-4.4℃
  • 구름많음-4.0℃
  • 구름많음철원-7.9℃
  • 구름많음동두천-7.6℃
  • 구름많음파주-8.0℃
  • 구름많음대관령-9.7℃
  • 구름많음춘천-3.6℃
  • 맑음백령도-9.0℃
  • 구름많음북강릉-3.5℃
  • 구름많음강릉-2.4℃
  • 구름많음동해-2.1℃
  • 구름많음서울-5.5℃
  • 구름많음인천-6.6℃
  • 구름많음원주-3.0℃
  • 눈울릉도-1.7℃
  • 구름많음수원-5.3℃
  • 구름많음영월-2.3℃
  • 구름많음충주-3.0℃
  • 흐림서산-6.2℃
  • 구름많음울진-1.2℃
  • 구름많음청주-4.7℃
  • 구름많음대전-4.2℃
  • 구름많음추풍령-1.9℃
  • 구름많음안동0.1℃
  • 구름많음상주-1.0℃
  • 구름많음포항4.0℃
  • 구름많음군산-3.6℃
  • 구름많음대구2.6℃
  • 흐림전주-2.6℃
  • 구름많음울산3.6℃
  • 구름많음창원5.5℃
  • 흐림광주-1.8℃
  • 맑음부산6.4℃
  • 구름많음통영4.5℃
  • 구름많음목포-2.6℃
  • 구름많음여수4.2℃
  • 구름많음흑산도-1.8℃
  • 구름많음완도-1.2℃
  • 흐림고창-3.5℃
  • 구름많음순천-0.3℃
  • 구름많음홍성(예)-6.1℃
  • 구름많음-5.6℃
  • 흐림제주3.3℃
  • 흐림고산3.0℃
  • 흐림성산2.9℃
  • 흐림서귀포9.8℃
  • 구름많음진주5.5℃
  • 구름많음강화-7.8℃
  • 구름많음양평-3.4℃
  • 구름많음이천-3.9℃
  • 구름많음인제-3.6℃
  • 구름많음홍천-3.1℃
  • 흐림태백-6.6℃
  • 구름많음정선군-2.0℃
  • 구름많음제천-3.1℃
  • 흐림보은-3.1℃
  • 흐림천안-5.5℃
  • 흐림보령-5.6℃
  • 흐림부여-3.5℃
  • 흐림금산-1.4℃
  • 흐림-4.9℃
  • 흐림부안-2.9℃
  • 흐림임실-2.5℃
  • 흐림정읍-3.6℃
  • 흐림남원-1.3℃
  • 흐림장수-2.1℃
  • 흐림고창군-3.2℃
  • 흐림영광군-3.3℃
  • 구름많음김해시5.4℃
  • 흐림순창군-2.1℃
  • 구름많음북창원6.3℃
  • 구름많음양산시6.7℃
  • 흐림보성군0.0℃
  • 흐림강진군-1.3℃
  • 흐림장흥-1.1℃
  • 흐림해남-2.4℃
  • 흐림고흥0.7℃
  • 흐림의령군2.6℃
  • 흐림함양군1.8℃
  • 구름많음광양시3.2℃
  • 흐림진도군-2.1℃
  • 흐림봉화-2.9℃
  • 흐림영주-1.7℃
  • 흐림문경-1.9℃
  • 구름많음청송군-0.3℃
  • 구름많음영덕0.2℃
  • 흐림의성1.3℃
  • 구름많음구미0.9℃
  • 구름많음영천2.3℃
  • 구름많음경주시2.9℃
  • 흐림거창1.2℃
  • 구름많음합천3.6℃
  • 구름많음밀양4.8℃
  • 흐림산청2.3℃
  • 구름많음거제4.0℃
  • 구름많음남해4.0℃
  • 구름많음5.7℃
기상청 제공

2026년 02월 06일 (금)

GPT-4, 추가 학습 없이 한의사 국가시험 ‘통과’

GPT-4, 추가 학습 없이 한의사 국가시험 ‘통과’

특화된 프롬프트 엔지니어링을 통한 예측 성능 향상 보여
김창업 가천대 한의대 교수 연구팀, ‘PLOS Digital Health’에 게재

김창업.jpg

 

[한의신문=주혜지 기자] 가천대학교 한의과대학 김창업 교수(사진) 연구팀이 최근 생성형 인공지능 모델(generative AI model)인 GPT-4가 한의학 데이터에 대한 특별한 훈련 없이 한의사 국가시험을 통과하는 성능을 나타냈다고 밝혔다. 기존 연구에서는 GPT-4가 한의사 국가시험을 간발의 차로 합격하지 못했던 반면 이번 연구에서는 언어모델에게 문항을 제시하는 방식을 최적화하여 모델의 성능을 극대화하는 기법인 프롬프트 엔지니어링(prompt engineering)을 활용해 합격 수준을 달성했다.

 

연구팀은 2022년 한의사 국가시험에 포함된 340문항을 GPT-4에 제시한 뒤 GPT-4의 정답률을 평가했다. 그 결과 GPT-4는 전체 문항 중 66.18%의 문항에 대해 정답을 맞혔으며, 각 과목에 대해서도 과목별 과락 기준인 40%보다 높은 정답률을 나타냈다. 구체적으로는 △본초학 87.5% △소아과학 81.2% △부인과학 79.2% 과목에서 높은 정답률을 나타냈으며, 한국의 특성을 반영하는 상한론‧사상의학(43.8%)이나 보건의약관계법규(40.0%) 과목에서는 상대적으로 낮은 정답률을 보였다.

 

특히 이번 연구에서는 프롬프트 엔지니어링에 따라 GPT-4의 성능이 합격·불합격에 영향을 미칠 만큼 성능에 큰 영향을 주는 것도 확인했다. 한국어로 된 문항을 그대로 입력했을 경우에는 평균 정답률이 51.82%였던 것에 반해, 한의학 용어를 한자로 병기했을 때는 57.59%, 지시와 문제를 영어로 스스로 번역해 풀게 했을 경우에는 63.65%로 증가했다. 또한 같은 문항에 대해 반복적으로 답변을 얻은 뒤 답변 중 가장 빈도가 높게 등장한 답을 최종 답으로 선택하는 자기일관성(Self-consistency) 기법을 사용했을 경우 정답률이 66.18%로 향상되는 현상을 확인했다.

 

이와 관련 김창업 교수는 “기존 연구에 비해 이번 연구에서는 프롬프트 엔지니어링을 통해 한의학적 문제해결능력을 강화할 수 있다는 사실을 밝혔다는데 의의가 있다”며 “동일한 내용의 문제라도 어떤 언어로 사고하는지, 어떤 방식으로 사고하는지에 따라 큰 성능의 차이가 있었다는 데에 주목할 필요가 있다”라고 밝혔다. 

 

이번 연구를 함께 수행한 장동엽 연구원은 “한국의 특수성을 반영하는 보건의약관계법규, 상한론‧사상의학과 같은 과목들에서 낮은 점수가 나왔다는 것에 주목할 필요가 있다”며 “이는 GPT-4와 같은 글로벌 기업에서 구축된 AI가 한국의 특수성을 잘 반영하지 못할 수 있다는 점을 보여주며, 추후 의료 인공지능 개발시 각 지역의 특수성을 반영할 수 있는 노력이 필요하다는 점을 보여준다”고 말했다.

 

한편 이번 연구 결과는 ‘PLOS Digital Health’ 저널에 “GPT-4 can pass the Korean National Licensing Examination for Korean Medicine Doctors”라는 제목의 논문으로 출판됐다(DOI: 10.1371/journal.pdig.0000416).

 

관련기사

가장 많이 본 뉴스

더보기
  • 오늘 인기기사
  • 주간 인기기사

최신뉴스

더보기

뉴스

더보기