WISE KMA

개요

사용자 삽입 이미지
형태소 분석은 정보검색의 기반 기술이며, 형태소 분석은 검색 관련 솔루션의 품질을 결정짓는 핵심적 기반 모듈입니다.

특히 사용자가 입력한 검색어를 분석하고, 검색 대상 문서 내에서 색인어를 추출하는 것이 프로세스의 처음과 끝인 검색솔루션에서는 형태소 분석의 품질이 검색엔진의 품질을 좌우한다고도 볼 수 있습니다.


  • 형태소란?
       일정한 의미가 있는 가장 작은 말의 단위.
              예) “아까 약자를 도왔던 사람들이다”의 형태소 분석 결과
              [아까] : 아까(부사)  
              [약자를] : 약자(명사) +를(조사)
              [도왔던] : 돕(동사) + 았(선어말어미) + 던(어미)
              [사람들이다] : 사람(명사) + 들(접미사) + 이(서술격조사) + 다(어미)

특장점

  • 고성능 형태소 분석 품질 및 성능
     - 순수한 자체 개발, 원천기술 보유
     - 약 40여 개의 품사로 구분하여 분석
     - 미등록어 추천 기능
  • 사전 전담팀의 전문적 사전 관리
     - 사전 솔루션 원천기술 보유
     - 전문가로 구성된 사전 전담팀의 지속적 사전 관리
     - 기본 사전, 복합명사 사전, 전문어 사전, 유의어 사전 등
  • 다양한 활용처
     - 색인어 추출 및 검색어 분석에 활용은 기본
     - 문서분류/범주화/요약/마이닝 등에서도 적용 가능
     - 응용 분야별 독립된 API 제공
     - 검색 관련 전 솔루션과의 연계 가능
  • 다양한 부가 기능
     - 품사태거 부가적 장착 가능
     - 일반문서와 특수문서(상품 데이터, 카테고리 데이터 등) 각각의 분석에 최적화된 옵션 및 모드 선택 가능
     - Search Formula-1 등 기타 제품과의 연동 시 선택 적용 가능
주요 기능

  • 한글코드 : 현대 한글 모두 처리
    예) "아햏햏", "얳" 등과 같은 한글 처리 가능
  • 한자/한글 변환 처리 : 한자로 입력된 단어를 한글로 변환 처리 가능
    예) "大學校" →  "대학교" 
  • 불용어 처리 : 사전에 기반, 무의미한 색인어 제거
  • 동의어 처리 : 사전에 기반, 색인어 확장
    예) "하회탈" → "민속탈", "안동 하회 마을 탈"
  • 규칙/불규칙 용언의 원형 복원, 본용언/보조용언의 분리 및 원형 복원 
    예) "도와줘"의 어절에 대해 "돕다" & "주다"의 원형 복원
  • 복합명사 분해 : 복합명사 추정 루틴과 사전을 이용한 방법을 혼합하여 최적의 단위명사 생성
    예) "국민연금관리공단" > "국민", "연금", "관리", 공단"  
  • 미등록 처리 : 신조어/미등록어(사전에 등록되지 않은 단어) 색인어로 추천
    예) "슈마허는" 에서 "슈마허"가 사전에 등록되어 있지 않아도 "슈마허" 추출 가능
  • 접두어 및 접미어 분해/결합 유연 : 접두어 및 접미어 분해/결합으로 유연한 색인어 추출
    예) "담당자" → "담당자", "담당" 모두 또는 선택적 색인어 추출
  • N-best Ranking(optional) : 여러개의 분석결과(중의성)가 존재하는 경우에 일정 scoring에 의해 N-best 선택 추출
    예) "대학생선교회" : "대학생+선교회", "대학+생선+교회" → "대학생+선교회"
  • 2-level 품사 태깅(optional) : 두 가지 모드의 품사 태깅 방법을 제공
    1) N-best Ranking에서 1-best Ranking을 이용한 품사 태깅(명사 위주의 keywords를 주로 사용하는 경우, retrieval, clustering, classification etc.)
    2) 경험적 통계 및 문법 규칙을 이용한 hybrid 품사 태깅(명사 위주의 keywords 사용이 아닌 경우, text mining, syntax analysis etc.)
  • 분석 속도 : 초당 130,000 어절 처리(File input processing and reading 시간 포함)
    사양) Intel® Qaud CPU Q6700 2.66GHz
  •  고효율의 분석성능 및 언어자원 관리 : 적절한 사전 엔트리 관리를 통해 낭비되는 메모리가 생기지 않도록 감시, 수백만건의 기분석 사전 엔트리를 들고 다니지 않아도 고효율의 분석 성능과 적절한 언어자원 관리를 통해 동등 또는 그 이상의 performance를 보임
시스템 구성

 
2008/12/08 15:43 2008/12/08 15:43
Response
No Trackback , No Comment
RSS :
http://wisenut.co.kr/rss/response/73

Trackback URL : 이 글에는 트랙백을 보낼 수 없습니다

« Previous : 1 : ... 129 : 130 : 131 : 132 : 133 : 134 : 135 : 136 : 137 : ... 173 : Next »

Archives

Calendar

«   2013/05   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

Site Stats

Total hits:
1639998
Today:
992
Yesterday:
973

1629

815

-30 days

today : 992