빅데이터란?

‘빅데이터’ 기존의 방법으로는 저장/관리/분석하기가 어려울 정도의 방대한 데이터를 의미 하며, 이를 크기(Volume), 다양한 형태(Variety), 빠른 속도(Velocity)의 3V로 불리는 3가지 특징으로 정의를 합니다.
일반적으로 ‘빅데이터’라고 하면 크기(Volume)에 집중을 하는데, ‘빅데이터’로 간주될 수 있는 데이터 크기(Volume) 자체가 시대의 변화에 따라 달라지므로, 몇 테라바이트 또는 페타바이트를 넘으면 ‘빅데이터’가 된다든가 하는 식으로 정의할 수는 없고, 부분이나 업계에 따라 보통 어떤 소프트웨어 도구를 사용하고 어느 정도 되는 규모의 데이터를 다루는지에 따라서도 ‘빅데이터’의 크기(Volume)은 다르게 정의될 수 있습니다.

빅데이터 특징

와이즈넛 빅데이터 기술

이렇게 데이터 양이 급격하게 늘어나는 것은 세계적인 현상이며, 기업들은 이러한 ‘빅데이터’를 다양하게 활용하여 비즈니스에 보다 민첩하게 대응하고 새로운 통찰력을 찾을 수 있는 기회로 여기고 있습니다.

와이즈넛은 이러한 기업들의 요구에 대응하여 ‘빅데이터’에 대해 전문적인 ‘검색’ 과 ‘분석’에 대한 관점에서 기술을 제공하고 있습니다.

와이즈넛빅데이터기술

검색 기술

기본적으로 ‘검색’은 ‘빅데이터’가 현상으로 불리기 이전 부터 ‘빅데이터’를 다루어 오기 시작했습니다. 다양한 형태 또는 시스템들의 데이터(Variety)를 통합하여 많은 양의 데이터(Volume)에서 원하는 자료를 빨리(Velocity) 찾도록 도와 줌으로서 고객에게 가치(Value)를 제공했습니다.

와이즈넛의  ‘검색’ 기술은 ‘빅데이터’ 현상에 대해 다음과 같이 검색 기술을 발전시키고 있습니다.

집기술

빅데이터를 검색하기 위해서는 많은 양의 다양한 데이터를 빠른 시간에 수집할 수 있어야 합니다. 와이즈넛은 일반적인 레거시 시스템 뿐만 아니라, 최근 빅데이터를 저장/관리하기 위해 등장한 다양한 분산저장소(Hadoop, NoSQL 등)에서의 데이터 수집, 그리고 SNS와 같은 서비스의 데이터 수집에 이르기까지 다양하고, 큰 데이터에 대한 수집 기술을 보유하고 있으며, 새롭게 등장하는 다양한 기술의 데이터 저장소에 대해 신속한 대응을 하고 있습니다.

산/병렬 색인기술

검색을 위해서는 데이터를 분석/재가공하여 색인 데이터를 생성합니다. 이때 빠르게 색인을 하기 위해서 색인 데이터 분할 및 병합 기술과 빅데이터에 대한 분산/병렬 프로세싱 기술을 제공하여 빠르게 색인을 수행합니다.

산/병렬 검색기술

빅데이터에 대응하는 검색은 기본적으로 빠르게 증가하는 많은 양의 데이터에 대해서 빠른 검색을 할 수 있어야 합니다. 이러한 빠른 검색을 가능하게 하는 것은 빅데이터에 최적화된 분산/병렬 검색기술입니다.

장소에 대한 연동기술

빅데이터에 대응하는 검색 시스템은 검색 대상 소스 데이터의 양에 따라 검색 시스템에서 사용하는 색인데이터의 양도 증가하게 됩니다. 이러한 색인 데이터도 빅데이터 저장소(Hadoop)에 저장하고 기존의 저장소에 저장할 때와 같은 퍼포먼스를 가능하게 하는 연동 기술을 와이즈넛은 보유하고 있습니다.

양한 데이터의 언어를 수용하는 자연어 처리 기술

검색은 기본적으로 정확성을 위해 자연어 처리 기술을 사용합니다. 빠르게 늘어나는 데이터에는 하나의 언어 만이 존재하는 것이 아닌 다양한 언어가 존재합니다. 와이즈넛은 이를 대응하기 위해 국내 최초 자체 기술로 한국어 뿐만 아니라 영어, 중국어, 일본어를 지원하는 자연어 처리 기술을 보유하고 있으며, 지속적으로 다양한 언어를 늘려가고 있습니다.

생산되는 빅데이터를 위한 통계 기술

검색이라는 시스템은 사용자가 검색을 하면 검색 로그와 같은 또 다른 빅데이터를 재 생산하게 됩니다. 와이즈넛은 이렇게 검색 시스템에서 재 생산되는 빅데이터에 대해서 통계적 의미를 찾고 활용할 수 있도록하는 인기검색어, 검색 추이 등과 같은 통계 기술을 제공합니다.

분석 기술

일반적으로 ‘분석’은 통계와 같은 정형화된 데이터에 대한 정량적인 분석을 떠올리게 됩니다. 하지만 와이즈넛에 추구하는 ‘분석’은 비정형화된 텍스트 데이터에서 인사이트를 제공하는 것입니다. 이를 위해서 아래와 같은 ‘분석’ 기술을 보유하고 있습니다.

제어/주제 분석 기술

다양한 텍스트 문서에 대해서 해당 문서의 주제어를 마이닝하고, 이를 기반으로 하여 주제를 부여하는 기술입니다. 일반적으로 대규모 텍스트에서 의미있는 정보를 추출하는 텍스트 마이닝 기술의 한 부분으로 통계적인 방법과 규칙적인 방법을 혼합하여 분석을 수행합니다.
이렇게 분석되어 진 주제어/주제는 다양한 정형적 데이터와 결합하여 또 다른 분석 결과를 제공합니다. 예를 들어 주제와 시간이 결합되어 분석되어 질 경우 주제에 대한 트랜드를 볼 수 있거나, 주제와 작성자를 결합할 경우 해당 주제를 전문적으로 다룬 작성자를 분석할 수 있습니다.

양한 자연언어 처리

앞에 설명한 주제어/주제 분석의 기반이 되는 기술로 빅데이터 ‘검색’ 기술에서 언급한 자연언어 처리 기술은 형태소 분석과 같은 부분이라면 빅데이터 ‘분석’에서 다루는 자연언처 처리 기술은 형태소 분석이외에 구문 분석, 개체명 인식 등의 기술을 포함하여 형태론적인 분석보다 발전한 의미론적인 분석을 다루며 와이즈넛은 이러한 분야에 선도적인 기술을 보유하고 있습니다.

계 학습

주제 분석 기술에 대한 기반이 되는 기술로 충분한 양의 정확한 학습데이터로 부터 모델을 생성하고 이를 통해 자동 분류, 자동 군집, 추론과 같은 다양하고 강력한 분석 기능을 제공합니다.

각화

위에서 분석되어진 다양한 사항은 사용자에게 보다 나은 이해도와 통찰력을 제공하기 위한 분석 결과 데이터에 대한 시각화부분도 간과할 수 없습니다. 와이즈넛은 분석 데이터에 대한 표현 유형과 다른 데이터 결과와의 매시업을 지원하는 다양하고 고차원된 시각화 기술을 제공합니다.

주요제품