Overview
![](/img/sub/wiseBirawler_logo.jpg)
데이터 수집 솔루션
![](/img/sub/collection_img01.jpg)
-
대규모 데이터를
정확하고 빠르게 수집해주는
WISE BICrawler ! -
수집엔진 마켓쉐어 1위
WISE BICrawler는 대규모 데이터를 정확하고 빠르게 수집할 뿐만 아니라 클렌징 기술로 수집 데이터의 스토리지 공간을 최소화하여, 불필요한 스토리지 운영으로 인해 발생하는 데이터저장 비용 및 관리 업무의 시간을 절감하며 신속한 전략수립 및 대응책을 마련하기 위한 솔루션 입니다.
사양 | 내용 |
---|---|
성능의 우수성 |
|
사용의 편의성 |
|
제품의 안정성 |
|
다양한 사업경험 |
|
collection process
-
WISE BICrawler는 언어분석 기술을
기반으로 빅데이터 수집과 소셜 데이터 분석에
최적화된 “빅데이터 정보수집 솔루션”입니다. - WISE BICrawler는 언어분석 기술을 기반으로 빅데이터 수집과 소셜 데이터 분석에 최적화된 “빅데이터 정보수집 솔루션”입니다. 방대한 정보 속에서 필요한 영역/형태에 관계없이 원하는 정보를 자동으로 추출하고, 불필요한 정보를 Cleansing(정제)하여 사용자에게 필요한 정보만을 빅 데이터 저장소에 저장합니다.
![](/img/sub/collection_process_img.jpg)
core technology
- 패턴기반 데이터 필터 기술
-
패턴기반 데이터 필터 기술은 전역 크롤링과 달리 수집 데이터 중
주제와 관련이 있는 데이터만을 추출하는 기술입니다. 패턴기반
데이터 필터 기술을 통해 수집 키워드, 포함어, 배제어의 조건에
부합하는 문서만을 수집할 수 있습니다.
![](/img/sub/collection_coreInfo_img01.jpg)
- 대용량 분산 인프라
-
본 제품은 대용량 데이터를 처리할 수 있는 구조로 설계되어
부하분산과 고가용성을 확보하였습니다. 따라서 10억 건 이상의
대용량 데이터 또한 처리가 가능하도록 안정성을 갖추었습니다.
![](/img/sub/collection_coreInfo_img03.jpg)
system diagram
WISE BICrawler는 사용자가 원하는 데이터를 추출하는 수집모듈, 수집된 데이터를 정제하는 클린징모듈,
수집된 데이터를 저장하는 저장모듈, 저장된 데이터를 관리하는 관리모듈로
구성되어 있습니다.
![](/img/sub/collection_diagram_img01.jpg)
STRONG POINT
- 수집 기능
-
웹페이지 수집
검색페이지에 질의어 입력 수집
항목별 데이터 추출
첨부파일(내부망데이터) 및 다양한 수집옵션 제공
유의어 처리 (수집전 키워드 확장)
- 클렌징 기능
-
중복 문서 정책 강화 (중복문서 검출)
패턴기반 데이터 필터링 및 필터링
자동 추출
URL 중복 체크 필터링
- 분류 및 저장 기능
-
사용자 지정 이관 기능(Hadoop, File, RDBMS 지원)
수집기 자체 저장 기능
- 관리/기타 기능
-
수집오류/ 수집통계 조회 및 통계자료 제공
URL 중복 체크를 위한 단일 패턴 구조화
키워드 필터링을 위한 키워드 매칭 구조화
main function
-
-
수집/추출 기능
-
웹페이지 수집
첨부파일 수집 및 파일 이름 추출
검색페이지에 질의어 입력 수집
다국어 데이터 지원
지속적으로 안정적인 수집
-
-
-
관리/기타 기능
-
직관적인 UI 기반의 룰 관리
수집 상태/에러/결과에 대한 보고
웹관리 도구를 통한 통계 및 데이터 조회
-
-
-
클렌징 기능
-
중복 문서 정책 강화
패턴기반 데이터 필터링
URL 중복 체크 필터링
-
-
-
저장기능
-
사용자 지정 이관 기능 (Hadoop, NoSQL, File, RDBMS 지원)
ODBC 지원
-