• 맑음속초4.5℃
  • 맑음-2.7℃
  • 맑음철원-3.6℃
  • 맑음동두천-1.8℃
  • 맑음파주-3.0℃
  • 맑음대관령-3.1℃
  • 맑음춘천-2.2℃
  • 맑음백령도3.4℃
  • 맑음북강릉2.7℃
  • 맑음강릉4.6℃
  • 맑음동해2.8℃
  • 맑음서울1.7℃
  • 맑음인천1.4℃
  • 맑음원주-1.0℃
  • 구름많음울릉도3.9℃
  • 맑음수원-0.4℃
  • 맑음영월-2.4℃
  • 맑음충주-1.3℃
  • 맑음서산-1.9℃
  • 구름조금울진4.0℃
  • 맑음청주2.4℃
  • 맑음대전0.4℃
  • 맑음추풍령1.5℃
  • 맑음안동-1.9℃
  • 맑음상주2.2℃
  • 맑음포항5.9℃
  • 맑음군산0.7℃
  • 맑음대구4.5℃
  • 맑음전주1.8℃
  • 맑음울산4.1℃
  • 맑음창원6.2℃
  • 맑음광주3.7℃
  • 맑음부산6.3℃
  • 맑음통영4.9℃
  • 맑음목포4.3℃
  • 맑음여수5.2℃
  • 맑음흑산도6.6℃
  • 맑음완도3.7℃
  • 맑음고창0.3℃
  • 맑음순천2.2℃
  • 맑음홍성(예)-0.4℃
  • 맑음-0.9℃
  • 맑음제주8.1℃
  • 맑음고산8.6℃
  • 맑음성산5.9℃
  • 맑음서귀포8.8℃
  • 맑음진주-0.3℃
  • 맑음강화-1.2℃
  • 맑음양평-0.3℃
  • 맑음이천0.2℃
  • 맑음인제-1.6℃
  • 맑음홍천-1.2℃
  • 맑음태백-2.8℃
  • 맑음정선군-4.0℃
  • 맑음제천-3.4℃
  • 맑음보은-2.5℃
  • 맑음천안-1.7℃
  • 맑음보령0.1℃
  • 맑음부여-1.4℃
  • 맑음금산-1.2℃
  • 맑음0.2℃
  • 맑음부안0.8℃
  • 맑음임실-1.4℃
  • 맑음정읍0.3℃
  • 맑음남원-0.9℃
  • 맑음장수-2.6℃
  • 맑음고창군-0.3℃
  • 맑음영광군0.7℃
  • 맑음김해시4.3℃
  • 맑음순창군-0.2℃
  • 맑음북창원5.9℃
  • 맑음양산시5.0℃
  • 맑음보성군4.2℃
  • 맑음강진군2.0℃
  • 맑음장흥-0.9℃
  • 맑음해남1.2℃
  • 맑음고흥1.9℃
  • 맑음의령군-2.1℃
  • 맑음함양군1.0℃
  • 맑음광양시3.7℃
  • 맑음진도군4.7℃
  • 맑음봉화-3.7℃
  • 맑음영주-1.1℃
  • 맑음문경2.3℃
  • 맑음청송군-3.0℃
  • 맑음영덕5.0℃
  • 맑음의성-2.5℃
  • 맑음구미0.3℃
  • 맑음영천2.9℃
  • 맑음경주시3.0℃
  • 맑음거창-2.2℃
  • 맑음합천-0.2℃
  • 맑음밀양0.7℃
  • 맑음산청1.9℃
  • 맑음거제6.8℃
  • 맑음남해3.6℃
  • 맑음3.3℃
기상청 제공

2025년 12월 17일 (수)

“한의사와 AI의 상생, 미래의 의료환경은?”

“한의사와 AI의 상생, 미래의 의료환경은?”

“AI 활용하는 한의사, 생산성 달라질 것…환자에게 큰 편익 제공”
임상술기 등 AI가 대체하기 어려운 영역들에선 중요도 더욱 향상

장동엽.png

장동엽 연구원

(가천대학교 한의과대학 생리학교실)


<편집자주> 

최근 GPT-4가 ‘2022년 한의사 국가시험’에서 57.29%의 정답률로 합격선에 근접한 성적을 거둔 것으로 나타났다. GPT-4는 340개 문항에 걸쳐 각 5번의 실험을 반복했으며, 질문에 대한 답변이 일관성이 높을수록 정확도가 높아졌다. 

 

본란에서는이번 연구를 진행한 장동엽 연구원(가천대학교 한의과대학 생리학교실)을 만나 연구 진행방식부터 연구결과, 향후 한의계의 미래에 대해 들어봤다.장 연구원은 현재 박사 4년차로 기초한의학의 다양한 아이디어들을 데이터 과학적 연구방법론을 활용해 확인하는 연구들을 진행하고 있다.


Q. GPT를 한의사 국가시험에 적용한 계기는?

 

한의사의 의사결정과정을 모사하는 AI를 개발하는 것은 오래 전부터 많은 한의학 연구자들의 목표였다. 이를 위해 최근까지도 많은 연구자들이 매진하고 있다. 그러던 와중, ChatGPT가 단순히 일반적인 대화뿐 아니라 다양한 전문 영역에서 높은 성능을 발휘한다는 소식을 듣게 됐다. 

 

특히 ChatGPT가 미국 의사 면허 시험을 합격한 소식을 듣고 ‘한의사 국가시험도 풀 수 있을까?’라는 의문에서 연구는 출발됐다. 한의사 국가시험과 유사한 유형의 문제로 ChatGPT에게 풀게 해봤는데, 생각보다 정답률이 높았다. 공식적으로 한 번 연구해봐도 괜찮겠다는 생각이 들어 연구를 시작하게 됐다.


장동엽3.PNG

Q. GPT-4 정답률이 국시 합격선에 근접했다.

 

대형언어모델(Large language model, LLM)에 대해 우리 연구실에서도 예전부터 관심이 많았으나, 이를 한의학 연구에 사용할 수 있을지에 대해서는 이견이 분분했다. 

 

사실 ChatGPT의 기반 모델이 된 GPT-3가 처음 공개됐을 때, GPT-3를 만든 OpenAI에서 홍보한 것에 비해서는 퍼포먼스가 아쉽다는 평가가 지배적이었다. 무엇보다 GPT-3 등 대형언어모델들은 주로 영미권에서 수집된 데이터를 학습하기 때문에, 한국어에 취약하다는 문제가 있다. 

 

또한 일반적으로 학습되는 데이터가 특정 분야(의학 등)에 한정되어 학습되는 것이 아니기 때문에, 이러한 모델들을 특정 분야에 활용하기 위해서는 해당 분야에 대한 데이터로 모델을 추가로 학습시키는 미세 조정(fine-tuning)을 해야 한다는 것이 상식이었다. 한의학적 내용 역시도 당연히 파악하지 못할 것이라고 생각했다. 한의학에 대형언어모델을 사용하려면 이러한 장벽을 해결해야 하고, 이를 위해선 꽤 긴 시간에 걸친 특별한 노력들이 필요하다고 생각할 수밖에 없었다. 

 

그러나 GPT-3을 개량한 GPT-3.5, 그리고 이를 기반으로 만들어진 ChatGPT는 기대 이상의 성능을 발휘했다. 특히 GPT-4는 정답률이 약 57.29%로 합격기준에 근접하는 성적을 냈다. 평균 정답률이 합격 기준인 60%에 약간 부족한 것은 사실이지만, 한의학에 대한 내용에 이 정도의 성능을 나타낸다는 것 자체가 매우 큰 충격으로 다가왔다.


Q. 과목별로 정답률 편차가 심하다.

 

가장 큰 원인은 GPT 모델들이 학습된 데이터의 문화적 편중이라고 본다. GPT-3는 여러 텍스트 데이터를 학습했는데, 대부분이 영어로 되어 있거나 영미권에서 생산된 데이터이다. 

 

예를 들어, Reddit이라는 커뮤니티의 게시물을 학습에 활용했는데, 이 커뮤니티의 이용자의 절반 이상이 영미권 국가에 거주하는 사람이다. 또한 다른 텍스트 데이터의 경우에서도 영어 데이터는 50% 이상을 차지하는 반면 한국어 데이터는 0.65%에 불과하다. 한국어 및 한국 문화에 대한 학습이 충분히 이뤄지지 않았다고 볼 수 있다.

 

실제로 이번 연구에서도 양방 지식으로 충분히 풀 수 있는 문제들의 경우 높은 정답률이 나타난 반면, 한의학 문제의 경우 상대적으로 낮은 정답률이 나타났다. 그에 따라 양방 지식을 평가하는 문제의 비중이 높은 과목은 상대적으로 높은 정답률, 그렇지 않은 과목은 낮은 정답률을 나타내는 것으로 보인다. 그 중에서도 가장 낮은 정답률이 나온 ‘내과학2’는 중의학보다 한의학에서 더욱 중요하게 다뤄지는 상한론이나 사상의학에 대한 과목으로, 이에 대해 학습할 수 있는 데이터가 중의학과 공유하는 내용들에 비해 더욱 부족했던 것으로 보인다.


Q. 이번 연구에서 강조하고 싶은 부분은?

 

‘보건의약관계법규’ 과목에서 낮은 점수를 나타낸 것이 이번 연구에서의 가장 중요한 발견이라고 생각한다. 보건의약관계법규는 한의학과 무관하기 때문에 상대적으로 정답률이 높을 것으로 기대했지만, 평균에 비해 정답률이 낮았다. 영미권에서 생산된 데이터가 한의학에 대한 지식이 부족할 뿐 아니라, 사실은 한국 의료의 특징을 결정하는 한국의 의료체계, 의료법, 진료지침 등에 대해 충분히 학습하지 못했을 가능성을 나타내기 때문이다. 

 

이러한 점은 단순히 한의AI 개발에서만의 이슈가 아닌, 한국에서의 일반적인 의료AI의 개발, 더 나아가 서로 다른 의료체계를 가진 다양한 국가에서 모델을 개발 및 활용할 때 참고할 수 있는 발견이라고 생각한다. 실제로 일본 의사 국가시험에 대한 GPT 모델들의 정답률을 평가한 연구에서도, 일본에서 안락사가 금지돼 있음에도 불구하고 안락사를 권유하는 뉘앙스의 응답을 하는 등 일본 의료의 특징을 제대로 반영하지 못하는 현상이 나타나기도 했다. 한의학을 소재로 연구를 수행하는 과정에서, 보다 보편적인 의료AI 연구에 참고할 수 있는 점을 발견했다고 생각한다.


장동엽2.png
한의사 국가시험 예시 문항와 그에 대한 GPT-4의 응답

 

Q. 한의학과 GPT의 미래 모습은?

 

아직은 초기 개발 단계에 있지만, 만약에 이런 AI들이 상용화돼 임상에 적용된다면 지금과는 임상 현장이 크게 달라지지 않을까 생각한다. 한의사와 환자 간의 대화를 바탕으로 진료 차트를 작성할 뿐 아니라 치료계획을 수립해줄 수도 있을 것이다. 한의사 한 명의 생산성이 크게 올라가면서 진료를 보다 심층적으로 수행할 수 있게 되고, 궁극적으로는 환자에게 큰 편익으로 돌아올 것이라고 생각한다. 이러한 AI를 제대로 사용할 수 있고, 더 나아가 그 기술을 이해해 비판적으로 사용하거나 새로운 시스템을 개발할 수 있는지에 따라 한의사의 실력이 달라지지 않을까 생각한다. 

 

이러한 의료환경에서 AI를 활용하지 못하는 한의사는 마치 엑셀을 활용하지 못하는 사무직 직원과 같은 처지에 놓이지 않을까 싶다. 한의학의 의사결정과정도 충분히 AI로 재현할 수 있음을 이번 연구를 통해 보인 것처럼, 한의학도 이러한 흐름에서 벗어나 있다고 보기는 어렵다. 임상술기 등 아직까지는 AI가 대체하기 어려운 영역들에 대한 중요도가 더 높아질 가능성도 있다.

 

이러한 AI가 한의사를 직접적으로 대체하지는 않을 것이고, 보조하는 역할을 수행할 것으로 생각한다. 그러나 동시에 한의사의 역할이 지금과는 많이 달라질 것이라고 본다.


Q. 앞으로 계획된 후속 연구는?

 

GPT-4 등 모델이 한의학적 내용을 지금보다 더 학습할 수 있는 방법을 개발하고 이를 통해 정답률을 더 높여보려고 한다. 이를 직접적으로 임상에 활용할 뿐 아니라 한의학 기초이론 연구에 활용할 수 있는 방법 역시 추후 연구할 예정이다.


Q. 이외에 하고 싶은 말은?

 

생각했던 것보다 이번 연구가 많은 사람들에게 언급이 되는 것 같아 감사하다. 저와 김창업 교수님을 포함한 저희 NNSM Lab이 수행하는 연구들에 대해 앞으로도 많은 관심을 가져주시길 바란다.


 

관련기사

가장 많이 본 뉴스

더보기
  • 오늘 인기기사
  • 주간 인기기사

최신뉴스

더보기

뉴스

더보기