Overview

데이터 수집 솔루션

-
대규모 데이터를
정확하고 빠르게 수집해주는
WISE BICrawler ! -
WISE BICrawler는 대규모 데이터를 정확하고 빠르게 수집할 뿐만 아니라 클렌징 기술로 수집 데이터의 스토리지 공간을 최소화하여, 불필요한 스토리지 운영으로 인해 발생하는 데이터저장 비용 및 관리 업무의 시간을 절감하며 신속한 전략수립 및 대응책을 마련하기 위한 솔루션 입니다.
- 수집엔진 마켓쉐어 1위
- 다양한 수집 기술 : URL Tracking, RSS
- 국내 최다 SNS 수집 커버리지(트위터 전수수집 솔루션)
사양 | 내용 |
---|---|
성능의 우수성 |
|
사용의 편의성 |
|
제품의 안정성 |
|
다양한 사업경험 |
|
collection process
-
WISE BICrawler는 언어분석 기술을
기반으로 빅데이터 수집과 소셜 데이터 분석에
최적화된 “빅데이터 정보수집 솔루션”입니다. - WISE BICrawler는 언어분석 기술을 기반으로 빅데이터 수집과 소셜 데이터 분석에 최적화된 “빅데이터 정보수집 솔루션”입니다. 방대한 정보 속에서 필요한 영역/형태에 관계없이 원하는 정보를 자동으로 추출하고, 불필요한 정보를 Cleansing(정제)하여 사용자에게 필요한 정보만을 빅 데이터 저장소에 저장합니다.

core technology
- 포커스 크롤링 기술
(자바스크립트 처리 가능) -
포커스 크롤링은 전역 크롤링과 달리 수집 데이터 중 주제와 관련이
있는 데이터만을 추출하는 기술입니다. 포커스 크롤링 기술을 통해
수집 키워드, 포함어, 배제어의 조건에 부합하는 문서만을 수집할 수
있습니다.

- 소셜미디어 준 실시간 수집 기술
(스트림 데이터 처리) -
스트리밍 데이터는 연속적으로 생성되는 데이터입니다. 본 제품은
지속적으로 생성되는 새로운 동적 데이터를 준 실시간으로 수집이
가능하도록 구현하였습니다.

- 대용량 분산 인프라
-
본 제품은 대용량 데이터를 처리할 수 있는 구조로 설계되어
부하분산과 고가용성을 확보하였습니다. 따라서 10억 건 이상의
대용량 데이터 또한 처리가 가능하도록 안정성을 갖추었습니다.

system diagram
WISE BICrawler는 사용자가 원하는 데이터를 추출하는 수집모듈, 수집된 데이터를 정제하는 클린징모듈,
수집된 데이터를 저장하는 저장모듈, 저장된 데이터를 관리하는 관리모듈로
구성되어 있습니다.

STRONG POINT
- 수집 기능
-
SNS 수집(트위터, 페이스북, 미투데이 등) 및 선별적 정보 수집
웹페이지, 댓글/답글, 대규모 소셜 미디어 자동 수집
댓글 페이지의 페이징 지원
검색페이지에 질의어 입력 수집
항목별 데이터 추출
소셜미디어 준 실시간 수집 기술 (스트림 데이터 처리)
첨부파일(내부망데이터) 및 다양한 수집옵션 제공(예약수집 기능)
유의어 처리 (수집전 키워드 확장)
표준 RSS 본문 수집
- 클렌징 기능
-
중복 문서 정책 강화 (중복문서 검출)
패턴기반 데이터 필터링 및 필터링
자동 추출
URL 중복 체크 필터링
자연어 처리
- 분류 및 저장 기능
-
사용자 지정 이관 기능(Hadoop, NoSQL, File, RDBMS 지원)
수집기 자체 저장 기능
원하는 항목별 추출 저장
카테고리(뉴스, 카페, 블로그, 트위터 등) 분류 관리
카테고리 별 조회/ 다중선택/ 편집기능
- 관리/기타 기능
-
자동화되고 편의성이 향상된 룰 등록
수집오류/ 수집통계 조회 및 통계자료 제공
수집대상 분류 관리 및 수집에러/정보원 변경시 알림
소셜 미디어 해석 기술을 이용한 콘텐츠 구조화
URL 중복 체크를 위한 단일 패턴 구조화
키워드 필터링을 위한 키워드 매칭 구조화
데드 링크 조회 기능 및 권한 관리(사용자별 수정 / 사용내역 등 시스템 운영 로그 제공)
main function
-
-
수집/추출 기능
-
SNS 수집(트위터, 페이스 북, 미투데이 등)
선별적 정보 수집
댓글/답글의 수집
자바스크립트 처리
인증페이지 수집
수집등록 마법사
웹페이지 수집
이미지 수집
첨부파일 수집 및 파일 이름 추출
팝업창으로 연결된 내용 페이지 수집
첨부파일 이름 자동추천
댓글 페이지의 페이징 지원
검색페이지에 질의어 입력 수집
항목별 데이터 추출
다국어 데이터 지원
지속적으로 안정적인 수집
수집페이지의 스크린샷
표준 RSS 본문 수집
기존 문서 업데이트 및 데드링크 체크
-
-
-
관리/기타 기능
-
수집기 작업 스케줄링
자동화되고 편의성이 향상된 룰 등록
직관적인 UI 기반의 룰 관리
반복적인 규칙 등록의 간소화
수집 상태/에러/결과에 대한 보고
수집기 리소스 관리를 통한 안정적 수집
웹관리 도구를 통한 통계 및 데이터 조회
수집대상 분류 관리
-
-
-
클렌징 기능
-
중복 문서 정책 강화
패턴기반 데이터 필터링
필터링 자동 추천
URL 중복 체크 필터링
-
-
-
저장기능
-
사용자 지정 이관 기능 (Hadoop, NoSQL, File, RDBMS 지원)
ODBC 지원
-