와이즈넛, 2년 연속 AI 학습용 데이터 구축사업 선정...한국어 SNS 데이터 고도화한다 | |||||
---|---|---|---|---|---|
등록일 | 2022-08-18 | 조회수 | 4719 | 이름 | 홍보팀 |
- 오는 12월까지 한국어 SNS 데이터 고도화를 위한 AI 학습용 데이터 구축 과제 수행 예정 - 양질의 일상 대화 학습용 데이터 확보해 AI 허브에 공공데이터로 개방 목표
비대면 사회가 생활 전반에 걸쳐 깊숙이 자리 잡아감에 따라, 우리가 일상 대화에서 사용하는 현대 용어들은 각종 비대면 플랫폼(SNS)을 통해 빠르게 증가하고 더욱 다양해지고 있다. 이에 따라, 궁극적으로 인간의 언어를 이해하고, 처리하여 대화할 수 있는 AGI(인공일반지능)를 지향하는 대화형 AI 기술과 연구는 인간의 수많은 언어를 유연하게 수용하고 이를 빠르게 반영하는 방향으로 나아가고있다.
이러한 상황 속, 인공지능 전문기업 와이즈넛(대표 강용성)은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 지원하는 2022년 인공지능 학습용 데이터 구축 사업에서 ‘한국어 SNS 데이터 고도화’ 과제의 주관기관으로서 2년 연속 선정됐다고 18일 밝혔다.
와이즈넛은 크라우드웍스, 비투엔과 함께 컨소시엄을 구성해 한국어 SNS 데이터 고도화를 위한 AI 학습용 데이터 구축 과제를 수행한다.
금년 내 완료 예정인 이번 사업은 2020년도에 구축되어 AI 통합 플랫폼 ‘AI Hub(AI 허브)’에 공개되어 있는 카카오톡 일상 대화 중심의 ‘한국어 SNS 데이터’ 약 180만 건과 2021년도에 구축된 각종 SNS 데이터가 포함된 ‘주제별 텍스트 일상 대화 데이터’ 약 10만 건을 포함해 총 190만 건의 한국어 SNS 인공지능 학습용 데이터를 대상으로 전수검사를 진행하여, 기존 데이터를 재검증 및 최신화하고, 이를 다시 AI 허브에 공공데이터로 공개하는 것을 목표로 한다.
특히, 본 사업에서는 하나의 대화 안에 여러 주제가 혼재하는 경우를 고려한 대화 데이터의 △‘멀티 라벨링(Multi-Topic Labeling)’, SNS 데이터 특성을 반영한 △‘다중 분류체계 수립’, 2022년 개인정보 비식별화 기준 등을 반영한 △‘개인정보 클렌징’ 등을 수행한다.
이를 통해, 한국어 SNS 데이터의 정확성을 높이고 주제별 데이터를 다양하게 추출하여 최적의 AI 대화 알고리즘과 모델을 개발 및 구축할 수 있게 된다.
또한, 최종 구축된 한국어 SNS 데이터는 AI 허브를 통해 공공데이터로 개방되기 때문에 각 비즈니스 활용 목적에 맞는 양질의 한국어 SNS 데이터를 누구나 쉽게 확보하고 활용할 수 있다.
이러한 일련의 과정을 통해 마련된 고도화된 한국어 SNS 데이터는 추후 한국어 대화 데이터와 한국어 언어 모델 상용화에 기여할 수 있고, 구어체 및 일상 대화를 반영하여 한층 자연스러운 인공지능 상담 및 챗봇 기술 구현 및 AI 비서, 스마트 홈 등 한국어 구어 자연어처리 엔진 개발에도 도움이 될 것으로 전 산업의 기대를 모으고 있다.
본 사업의 주관사인 와이즈넛은 지난 22년간 빅데이터 수집 및 분석, 인공지능 모델 및 기술 개발을 수행해 온 AI 전문기업이다. 그간 자연어 이해 및 처리 기술을 자체 개발하며 축적한 한국어 기반 사전학습 언어모델 기술력과 인공지능 사업 노하우를 통해, 일상 대화 데이터를 활용한 사전학습 언어모델 기반의 대화 응답 선택 모델을 구축할 계획이다.
강용성 와이즈넛 대표는 “이번 한국어 SNS 데이터 고도화 사업은 양질의 일상 대화용 학습 데이터를 확보하고 이를 공공데이터로 개방하는 과정에서 그 의미가 있다”며, "와이즈넛은 이번 사업을 통해 AI 학습용 데이터를 지속 고도화하여, 디지털 플랫폼 정부가 추구하는 인공지능 및 데이터 산업 생태계 조성 및 활성화에 기여할 것"이라고 말했다. |
WISE iChat