개요

특히 사용자가 입력한 검색어를 분석하고, 검색 대상 문서 내에서 색인어를 추출하는 것이 프로세스의 처음과 끝인 검색솔루션에서는 형태소 분석의 품질이 검색엔진의 품질을 좌우한다고도 볼 수 있습니다.
- 형태소란?
예) “아까 약자를 도왔던 사람들이다”의 형태소 분석 결과
[아까] : 아까(부사)
[약자를] : 약자(명사) +를(조사)
[도왔던] : 돕(동사) + 았(선어말어미) + 던(어미)
[사람들이다] : 사람(명사) + 들(접미사) + 이(서술격조사) + 다(어미)
특장점
- 고성능 형태소 분석 품질 및 성능
- 순수한 자체 개발, 원천기술 보유
- 약 40여 개의 품사로 구분하여 분석
- 미등록어 추천 기능 - 사전 전담팀의 전문적 사전 관리
- 사전 솔루션 원천기술 보유
- 전문가로 구성된 사전 전담팀의 지속적 사전 관리
- 기본 사전, 복합명사 사전, 전문어 사전, 유의어 사전 등 - 다양한 활용처
- 색인어 추출 및 검색어 분석에 활용은 기본
- 문서분류/범주화/요약/마이닝 등에서도 적용 가능
- 응용 분야별 독립된 API 제공
- 검색 관련 전 솔루션과의 연계 가능 - 다양한 부가 기능
- 품사태거 부가적 장착 가능
- 일반문서와 특수문서(상품 데이터, 카테고리 데이터 등) 각각의 분석에 최적화된 옵션 및 모드 선택 가능
- Search Formula-1 등 기타 제품과의 연동 시 선택 적용 가능
주요 기능
- 한글코드 : 현대 한글 모두 처리
예) "아햏햏", "얳" 등과 같은 한글 처리 가능
- 한자/한글 변환 처리 : 한자로 입력된 단어를 한글로 변환 처리 가능
예) "大學校" → "대학교" - 불용어 처리 : 사전에 기반, 무의미한 색인어 제거
- 동의어 처리 : 사전에 기반, 색인어 확장
예) "하회탈" → "민속탈", "안동 하회 마을 탈" - 규칙/불규칙 용언의 원형 복원, 본용언/보조용언의 분리 및 원형 복원
예) "도와줘"의 어절에 대해 "돕다" & "주다"의 원형 복원 - 복합명사 분해 : 복합명사 추정 루틴과 사전을 이용한 방법을 혼합하여 최적의 단위명사 생성
예) "국민연금관리공단" > "국민", "연금", "관리", 공단" - 미등록 처리 : 신조어/미등록어(사전에 등록되지 않은 단어) 색인어로 추천
예) "슈마허는" 에서 "슈마허"가 사전에 등록되어 있지 않아도 "슈마허" 추출 가능 - 접두어 및 접미어 분해/결합 유연 : 접두어 및 접미어 분해/결합으로 유연한 색인어 추출
예) "담당자" → "담당자", "담당" 모두 또는 선택적 색인어 추출 - N-best Ranking(optional) : 여러개의 분석결과(중의성)가 존재하는 경우에 일정 scoring에 의해 N-best 선택 추출
예) "대학생선교회" : "대학생+선교회", "대학+생선+교회" → "대학생+선교회" - 2-level 품사 태깅(optional) : 두 가지 모드의 품사 태깅 방법을 제공
1) N-best Ranking에서 1-best Ranking을 이용한 품사 태깅(명사 위주의 keywords를 주로 사용하는 경우, retrieval, clustering, classification etc.)
2) 경험적 통계 및 문법 규칙을 이용한 hybrid 품사 태깅(명사 위주의 keywords 사용이 아닌 경우, text mining, syntax analysis etc.) - 분석 속도 : 초당 130,000 어절 처리(File input processing and reading 시간 포함)
사양) Intel® Qaud CPU Q6700 2.66GHz - 고효율의 분석성능 및 언어자원 관리 : 적절한 사전 엔트리 관리를 통해 낭비되는 메모리가 생기지 않도록 감시, 수백만건의 기분석 사전 엔트리를 들고 다니지 않아도 고효율의 분석 성능과 적절한 언어자원 관리를 통해 동등 또는 그 이상의 performance를 보임
시스템 구성





