와이즈넛, 멀티모달 RAG로 기술 확장 “텍스트에서 음성, 이미지, 영상까지” | |||||
---|---|---|---|---|---|
등록일 | 2024-08-30 | 조회수 | 550 | 이름 | 홍보팀 |
- 초거대언어모델(LLM)의 구조적 한계 극복…사용자 의도 파악 더욱 정확해져 - 기존 텍스트 기반 RAG에서 음성, 이미지, 영상 등 멀티모달 데이터 RAG로 확장
최근 LLM이 가진 문제를 해결할 수 있는 RAG(Retrieval-Augmented Generation, 검색증강생성) 기술의 중요성이 날로 커져가는 가운데, 텍스트 이외에도 음성, 이미지, 동영상 등 다양한 데이터를 결합하여 추론이 가능한 ‘멀티모달 RAG 기술’이 AI와 인간이 구사하는 인지사고의 편차를 현저히 줄일 것으로 각광받고 있다.
이러한 기술 추세에 발맞추어, 인공지능(AI) 전문기업 와이즈넛(대표 강용성)은 과학기술정보통신부가 주관하는 정보통신방송기술개발사업 중 정보통신기획평가원이 추진하는 ‘멀티모달 데이터 입력 기반 검색증강생성 기술 개발’ 과제의 주관사로서 1차년도 연구에 착수했다고 29일 밝혔다.
오는 27년까지 4년에 걸쳐 진행되는 본 연구는 실제 업무환경에서 융합되어 활용되는 멀티모달 데이터를 기반으로 초거대언어모델(LLM)의 구조적.성능적 한계로 제기되는 △최신화된 정보유지의 어려움 △할루시네이션 △도메인 정보 부족 △대규모 컴퓨팅자원소요 등의 한계를 극복하는 멀티모달 RAG 기술 개발을 목표로 한다.
멀티모달(Multi modal)은 인간이 사물의 양상을 다양한 감각기관으로 받아들이는 것처럼 텍스트, 이미지, 음성, 비디오 등 다양한 형태의 데이터 채널(Modality)을 동시에 처리하는 것을 뜻한다. 이는 텍스트와 함께 소리 데이터를 융합하고 이를 분석해 소리의 크기나 성격을 더 정확하게 이해하거나, 동영상에서 얼굴 이미지를 인식하고 음성 대화를 텍스트로 변환해 자동자막을 생성하는 등 폭넓게 활용될 수 있는 만큼 새로운 대안으로 주목받는 기술이다.
와이즈넛은 이번 과제에서 멀티모달 데이터 수집 및 처리, 검색, 통합관리 기술 개발에 주력한다. 자체 보유하고 있는 LLM 기술 기반 검색증강생성(RAG) 기술을 적용해, 멀티모달 질의 이해 및 답변 생성기술부터 LLM의 성능을 높이기 위한 언어모델 최신화 기술, 효율적인 데이터 학습 및 관리를 위한 RAG 데이터 파이프라인 기술, 도메인 실증까지 전반의 기술 개발을 총괄 수행한다.
본 과제는 연구개발에 이어 의료(전남대학교병원), 법률(앤쌤), 제조(JB주
특히, 그간 전통적인 제조분야의 산업현장, 반도체 공정 등에서 멀티모달 RAG기술에 대한 필요성이 꾸준히 제기되어 왔던 만큼, 본 기술을 반영하여 수요가 있는 다양한 분야에서 더욱 복잡하고 효율적인 작업을 수행 할 수 있게 실증사업을 진행할 예정이며, 향후 더 많은 고객군을 대상으로 사업을 확대해 나갈 것으로 기대를 모으고 있다.
또한, 다양한 멀티모달 데이터 통합처리를 통해 LLM의 데이터 이해 및 분석 역량을 향상하고 맞춤형 응답과 문제 해결능력을 함양할 수 있어, AI 서비스를 활용하는 고객의 사용자 경험 및 만족도를 대폭 향상시킬 전망이다.
와이즈넛 강용성 대표는 “향후 인공지능이 ‘인간처럼’ 사고하고 상호작용하기 위해서는 멀티모달 RAG기술은 필수적”이라며, “와이즈넛은 이번 연구에서 멀티모달 RAG기술을 통해 AI 기술 수준을 한 단계 업그레이드하고, 혁신적인 비즈니스 모델을 선제적으로 창출하는 기술적 토대를 마련할 것”이라고 덧붙였다. |
WISE iChat