본문 바로가기

● NHN다이퀘스트/제품 소개

다이퀘스트 언어처리솔루션 /textmining

 

 

 

 

텍스트 기반 비정형 데이터의 정보 추출, 요약, 분류, 군집, 연관도 분석까지!

 

기업 및 기관 데이터의 80%는 워드프로세서, 프레젠테이션, 이메일 등과 같은 텍스트 기반의 비정형데이터로 구성되어 있습니다.

텍스트마이닝(Textmining)은 이러한 텍스트로 이루어진 비정형데이터에서 의미있는 정보를 생산하는 과정으로 자연어처리 및 기계학습 등의 기술을 이용하여 정보의 추출부터 요약, 분류, 군집 연관도 분석 등의 과정을 수행합니다.

 

 

 

 

 

 

 

다이퀘스트의 언어처리 솔루션

 

다이퀘스트는 비정형데이터분석에 필요한 모든 언어처리솔루션과 핵심기술을 자체 보유하고 있습니다.

 

요약

분류 

정제,추출,분석

추출,분석 

DQ-SUM

(자동요약기) 

DQ-CAT

(자동 분류기) 

DQ_CLU

(자동 군집기) 

DISA

(정보 추출기) 

DRAMA

(연관도분석기) 

- 주요 키워드를 활용한

자동 요약수행

- 사용자 설정에 따른

문서의 자동분류

 

- 웹 기반의 관리 도구로 편리한 학습 및 분류 설정 관리

 

- 고 정밀 형태소 분석 및 자연어 지원을 통해 문서 분류의 정확도를 높이고 분류 대상 학습의 정밀도 향상

- 문서간의 유사도를 기준으로 한 군집화

 

- 특정 키워드 및 피드 별 가중치 부여, 카테고리 개수 등 튜닝

 

- 검색 결과에 대한 실시간 군집기능 수행 

- 비정형 데이터 내에서 정형화된 의미 정보 추출

 

- 형태소 분석, 구문 분석, 개체명 추출을 통한 정보 추출

 

- 긍정 부정에 대한 감성 정보 추출

 

- 웹 기반의 관리 도구로 손 쉬운 추출 패턴 및 규칙 관리 

- 자동 언어 처리로 핵심 키워및 연관어 추출

 

- 추된 검색 결과의 다양한 시각화

 

 

 

 

DQ-CAT (자동분류기-디큐캣)

 

디큐 캣은 문서 검색을 위해 각 문서마다 범주를 지정하여 할당함으로써 기존 수작업으로 문서마다 범주를 지정해주는 작업을 자동화 하는 시스템 입니다.

 

 

 

 

자동분류 속도 및 안전성

- 대상문서 수와 관계없이 일정한 자동분류 속도 및 성능 유지
- 대상문서의 수가 증가하더라도 학습속도는 일정하게 증가

대상정보에 맞는

다양한 학습기법 적용

- 대상 정보에 맞는 다양한 학습기법의 적용 후 고객화 된 지식분류체계 적용으로 정확성 보장
- 통계와 규칙을 혼합한 강건한 정보 분류 시스템으로 사전작업의 최소화
- 고 정밀 자연어 처리 엔진을 이용한 대상문서 특성분석 및 학습

웹 기반 관리도구

- 학습 및 학습 시간예약 설정기능 등을 관리하는 도구 제공
- 분류기준의 변화에 대한 맵핑 관리도구 제공
- 새로운 용어 및 전문용어에 대한 알림 제공
- 불용어 및 카테고리 강제 할당 관리 기능 제공

 

 

 

 

DQ-Clu (자동 군집기-디큐 클루)


다이퀘스트 자동 군집기 ‘디큐 클루’는 문서 간 유사도를 기준으로 자동으로 군집화 된 검색 결과를 제공합니다.
그룹별 주제 어휘 검색 결과에 대한 손쉬운 파악이 가능하여 정보 접근성을 보다 강화할 수 있습니다.

 

 

 

 정보 접근성 향상

 명확한 검색 결과

 개인화 서비스 지원

 실시간 클러스터링

정리되지 않은 문서들의 유사도와 관련도 파악을 통한 멀티레벨 구조의 그룹핑 지원

카테고리 별 특정 어휘로 검색 결과를 한눈에 파악 가능

관심 분야의 특정 키워드 또는 필드별로 가중치를 부여하거나 카테고리 개수 조절 등을 통해 개인화 서비스를 지원

실시간 정보 수집으로 빠르고 정확한 자동 클러스터링 검색 결과를 제공

 

 

 

 

DISA ((비정형 데이터) 의미 정보 추출 시스템-디사)


 

정보 추출기 ‘디사’는 다양한 형태의 비정형 데이터에서 의미 개체, 관계 정보, 감성 정보 등의 의미 정보를 추출하여 정형화된 데이터로 정제하여 줍니다.

 

 

 

 

빠르고 정확한 언어분석 및

정보추출

 웹 기반의 손쉬운 관리도구

 다양한 매쉬업 서비스와 연계

 검증된 성능 및 안정성

- 한국어, 영어, 중국어, 일본어 등 다국어 지원 형태소 분석기 사용


- Rule 기반의 언어 분석 지원으로 정확하고 빠른 성능을 보장하며, 튜닝을 통한 정확도 향상 기능 제공

- 의미 정보 추출 프로세스 전체에 대한 통합 관리 도구 제공


- 추출 정확도 향상을 위한 지식 사전과 추출 패턴의 관리 기능 제공


- 추출 성능 검증과 튜닝을 위한 검증 기능 제공


- 다양한 도메인 적용을 위한 지식사전 적용

- 데이터베이스, 파일 등 다양한 형태의 출력 지원으로 타 시스템과의 원활한 연계 시스템


- 라이브러리 형태의 검색엔진 및 추론엔진에 플러그 인 적용기능 제공


- 독립시스템 형태의 서버 구축 기능

- 순수 자체 핵심기술인 자연어 처리 기술 탑재


- 다수의 정보 추출 프로젝트 진행으로 검증된 성능과 안정성

- 통합 검색 시스템, 온톨로지 시맨틱 검색 시스템과의 원활한 관계

 

 

 

 

 

 

 

 

DRAMA (연관도 분석기-드라마)

 

연관도분석기 ‘드라마’는 자연어처리 기반의 형태소 분석기를 적용하여 검색 키워드의 연관 검색어, 관계도, 유사 문서 문석 등의 검색 결과를 제공 합니다.

 

 

 

 다양한 연관어 추출

 우수한 연관도 분석

 직관적 인터페이스

- 자체 보유한 핵심 자연어 처리 기술 적용으로, 메타데이터 및 텍스트 문서  키워드 추출 기능 제공


- 키워드 추출, 형태소 분석 기반의 품사태그 추출, 복합 명사, 사용자 명사 등의 다양한 단어 추출 기능 수행

- MI, XQ Methods 방식의 데이터 마이닝으로 키워드 간 연관 정도에 대한 높은 정확성 제공


- 인물, 기관, 상품, 지역 등 특정 대상 키워드에 대한 데이터베이스를 이용한 연관도 분석 수행

- RIA 기반의 인터페이스 구축으로 연관도 분석 방사형 형태 구조로 제공


- 검색 네비게이션 기능 지원