최근 인공지능(AI) 분야의 발전은 의료 진단에 혁명을 일으켰고, 대형 언어 모델(LLM)은 다양한 진단 과제에 활용될 잠재력을 보여주었다. 오픈소스 LLM의 진단 정확도에 대한 연구가 진행되었으며, 그 결과는 의료계에 중요한 시사점을 제공한다.
최근 발표된 연구에 따르면, 오픈소스 LLM이 Eurorad 사례 보고서 1933개를 기반으로 한 진단 성능에서 뛰어난 정확도를 보였다. 이 연구는 오픈소스 LLM이 방사선 차등 진단에 어떻게 활용될 수 있는지를 보여주며, 의료계에 중요한 시사점을 제공한다.
Eurorad 사례 보고서는 다양한 방사선 진단 전문 분야를 다루는 광범위한 사례 모음으로, 유럽 방사선학회(ESR)가 관리한다. 이 연구는 LLM이 임상 기록과 영상 소견을 바탕으로 차등 진단을 제공하는 능력을 평가했다. 진실한 진단이 상위 3개 제안에 포함된 경우 응답은 올바른 것으로 간주되었다.
이 연구에 포함된 오픈소스 LLM은 15개였으며, GPT-4o라는 폐쇄형 LLM과 비교되었다. LLM은 각 사례에 대한 진단 결과를 제공했고, 이를 전문가 평가로 비교하여 정확도를 평가했다.
결과는 고무적이었다. 오픈소스 LLM 중 하나인 Llama-3-70B는 87.8%의 정확도를 달성하며 우수한 성능을 보였다. 이는 인간 전문가의 평가에 대한 높은 일치도를 보여주는 결과이다.
이 연구는 또한 LLM의 크기와 진단 정확도 사이의 긍정적인 상관관계를 보여주었다. 그러나 일부 경량 모델은 더 큰 모델을 능가하는 성능을 보여주었으며, 이는 더 작은 모델이 의료 분야에서 충분히 활용될 수 있음을 시사한다.
이 연구는 LLM을 의료 분야에 적용할 때 고려해야 할 몇 가지 중요한 사항을 제시한다. 먼저, 의료진의 LLM 활용 방법과 잠재적 위험 완화 방안이 아직 불명확하다는 점이다. 또한, LLM은 진단 결과를 제공할 수 있지만, 결과의 타당성은 의료진의 비판적 평가에 달려 있다.
이 연구의 한계로는 LLM의 데이터 오염 가능성, LLM의 온도 설정이나 프롬프트 설계가 진단 정확도에 미치는 영향에 대한 미조사, 그리고 사례에 대한 다양한 기술이 LLM 성능에 미치는 영향 등이 있다.
하지만 전반적으로, 이 연구는 오픈소스 LLM이 진단용 방사선 차등 진단을 위한 결정 지원 도구로서 잠재력을 가지고 있음을 보여준다. 의료계의 신중한 고려와 적절한 활용을 통해, LLM은 의료 서비스의 효율성과 정확성을 향상시킬 수 있는 중요한 도구가 될 수 있다.