카카오가 자체 개발한 멀티모달 대형언어모델(LLM) '카나나-V'의 개발 현황을 공개하며, 한국어 기반 이미지 처리 능력의 강화를 예고했다.
'카나나-V'는 카카오의 차세대 LLM으로, 텍스트와 이미지를 모두 이해하는 것을 목표로 한다. 카카오테크 공식 블로그를 통해 공개된 개발 상황에 따르면, '카나나-V'는 기존 LLM '허니비'의 연구 성과를 기반으로 이미지와 텍스트를 처리하는 능력을 고도화하는 중이다.
글로벌 AI 모델 시장에서 멀티모달 LLM은 다수 존재하지만, 한국어를 기반으로 한 이미지 이해 능력에 특화된 모델은 드문 것이 현실이다. '카나나-V'는 이러한 현실 속에서 한국어 텍스트와 이미지를 모두 처리하는 데 강점을 보이며, 특히 아날로그 문서 이미지 처리, 광학문자인식(OCR) 기술, 포스터나 그림의 문자 이해 등에서 우수한 성능을 보인다.
카카오 측은 '카나나-V'의 벤치마크 테스트 결과에 대해 "한국형 지식 영역에서 타사 모델에 비해 두 번째로 높은 성능을 기록했다"고 밝혔다. 또한, "향후 한국형 지식 관련 데이터를 지속해서 수집하고, 해당 분야의 성능을 향상하기 위해 노력할 것"이라고 전했다.
차범준 카나나알파 조직 개발자는 멀티모달 언어모델 개발의 핵심 요소로 데이터의 중요성을 강조했다. 그는 "고성능 모델을 학습하기 위해서는 고품질 데이터셋이 필수적"이라며, "양질의 데이터 확보에 많은 비용과 시간이 소요되며, 퍼블릭 데이터 사용 시 라이선스 문제도 고려해야 한다"고 설명했다.
카카오는 '카나나-V'의 성능 향상을 위해 영어 데이터를 추가하는 과정도 공개했다. 영어 데이터는 관련 직원이 직접 검토하고, 모델 학습에 적합하도록 전처리 과정을 거친다. 이후, 전처리된 데이터를 학습에 활용하고, 데이터의 가치를 판단해 사용량을 결정하는 체계적인 방식을 취하고 있다.
한국어 데이터의 경우, 멀티모달 언어모델용 퍼블릭 데이터가 부족해 개발자들이 직접 제작했다. 카카오 그룹 내 한국어 데이터와 AI HUB의 공개 데이터를 수집하고, 이미지 처리를 위한 '질문-답변' 형식으로 변환하는 작업을 수행했다.
차 개발자는 "한국어 데이터의 양이 부족했지만, 다양한 도메인을 포괄하기 위해 노력했다"고 밝히며, "부족한 도메인의 데이터는 직접 수집하고, 어노테이션을 통해 고품질 데이터셋을 구축하는 방법을 사용했다"고 전했다.
카카오는 '카나나-V' 외에도 비디오 입력을 처리할 수 있는 '카나나-O'를 개발 중이라고 밝혔다. 카카오는 "2025년까지 비디오 입력을 포함한 확장된 멀티모달 LLM을 개발해, AI가 일상에 실질적인 도움을 주는 파트너가 되길 기대한다"고 전하며, 지속적인 AI 기술 개발 의지를 내비쳤다.
카카오의 멀티모달 LLM 개발은 한국어 기반 AI 기술의 경쟁력 강화와 함께, 실생활에 유용한 AI 서비스를 제공하기 위한 노력으로 평가된다.