Text Mining Solution ctrl & Semantex

오늘은 비구조적인 정보, 즉 일반적인 텍스트 문서, 일반 웹페이지로부터 정보를 추출하는 두가지 솔루션을 소개할까 합니다. 텍스트 마이닝 기술은 현재 기본적으로 문서 분석이나 검색 등에서 활용하는 중요한 기술이라고 할 수 있는 대요. ctrl이나 Semantex 와 같은 솔루션은 좀 더 고차원 적인 분석을 제공하는 솔루션들입니다.

사용자 삽입 이미지

ctrl 솔루션은 먼저 단어(word) 추출이 아니라 나아가 개념(concept) 추출, 주제(topic) 추출, 핵심 주제(key topic) 추출로 이어지는 솔루션이라고 할 수 있습니다. 일반 검색에 사용하는 색인 레벨이 단어추출이고 조금 확장하는 경우가 개념 추출인 경우와 비교 했을 때 그보다 훨씬 나아간 개념이지요. 조금 자세히 설명하면 단어 추출의 경우는 텍스트 문서에서 일반적인 단어을 추출하는 단계이고 개념 추출은 그 단어가 사람인지, 나라인지, 기관인지, 상품 인지를 추출해내는 과정입니다. 나아가 주제 추출은 단순한 개념이 아닌 개념들의 조합이라고 할 수 있습니다. 예를 들어 정보라는 단어가 개념이라고 하면 주제 추출은 정보 관리 시스템을 추출하는 기술이라고 할 수 있습니다.  보통 사람들이 관심있는 대상은 단어나 개념이 아닌 주제라고 할 수 있겠지요. 마지막으로 추출된 주제 중에 해당 문서의 가장 핵심이 되는 주제를 뽑아내는 기술이 핵심 주제 추출입니다. ctrl은 현재 주제 추출까지의 정확도가 높다면 결국 그 문서는 핵심주제 하나로 요약이 가능할 것이라고 이야기 하고 있습니다.

사용자 삽입 이미지
ctrl에서 이야기하는 개념들은 다른 개념이나 주제와 연결되어 있습니다. 단순히 단어가 비슷하다고 연결되어 있는 것이 아니라 물론 의미적으로 비슷해야 연관관계가 있는 거지요. 예를 들어 왕년의 뉴욕에서의 베이브루스의 인기라는 문장과 뉴욕에서 루스 박사의 인기는 단어가 비슷하더라도 주제나 의미가 전혀 다르기 때문에 아무련 연관관계가 없는 경우이고 미국 대통령 버락 오바마이전의 영국총리 토니 블레어는 단어는 다르지만 연관관계가 발생하는 경우입니다. 다른 예를 들면 데이터 마이닝(data mining)과 광산 데이터(mining data)는 쓰이는 단어는 같지만 완전히 다른 주제의 내용이지요. ctrlWord Sense Disambiguation(WSD) 알고리듬을 통해 이러한 의미 분석을 수행한다고 합니다.

ctrl은 이러한 기술력을 바탕으로 현재 다양한 분야에 적용되어 있습니다. 뭐 뉴스와 같은 미디어 분야에서는 뉴스를 요약해서 제공하는 ‘story highlight’ 기능을 통해 주제를 바탕으로 뉴스를 분류하거나 색인할 수 있게끔 지원하기도 하고 특정 주제의 뉴스만은 RSS 피드를 통해 제공할 수 있도록 활용되고 있습니다. 그 밖에 기업내에서 특정 주제별로 고도화된 검색을 할 수 있도록 지원하거나 그 밖에 다양한 분야에서 활용되고 있습니다.

  

두번째 텍스트 마이닝 엔진은 Semantex라는 엔진입니다. Semantex 역시 비 구조화된 문서에서 단어나 개념을 추출하는 것은 ctrl와 같으나 조금 다른 기능을 제공하는 엔진입니다. ctrl이 개념 추출을 통해 주제 추출로 이어지는 것에 반해 Semantex은 개념 자체에 좀 더 초점을 두고 있습니다. Semantex는 일단 추출한 개념에 대해 개념 프로필(Entity Profiles)이라는 기능을 제공합니다. 이 개념 프로필은 말그대로 개념에 대한 프로필인대요 추출한 각 개념들과 관련된 다른 개념이나 이벤트 프로파일 등을 제공합니다. 개념 프로파일은 하나의 문서 분석 결과만을 담고 있는 것이 아니라 여러 문서(cross-document)들을 분석하여 여러 문서를 통해 관련이 있는 개념이나 이벤트정보를 가진 프로필입니다. 그리고 일반적인 개념과는 조금 다르게 이벤트은 경우 텍스트 마이닝을 통해 이벤트의 유형 및 누가, 무엇을, 언제, 어디서와 같은 이벤트에 대한 기본 정보를 식별하고 이에 대한 정보를 추출하게 됩니다. 텍스트 마이닝을 이용하더라도 주제 추출에 초점을 맞추고 있는 ctrl과는 확실히 차이를 보이고 있습니다.

 

사용자 삽입 이미지

Semantex는 텍스트 마이닝을 이용한 개념 추출 외에도 번역 기능도 제공합니다. 일반 번역과는 다른 맥락을 파악한 번역? Context Aware Translation 기능을 제공합니다(Context Aware는 한국어로 번역하기가 어려운 단어라는 생각이 늘 드내요) 개념들에 대한 원어 태깅을 통해 사람이나 장소, 기관명에 대한 정확한 번역을 제공한다고 이야기 하고 있습니다. 예를 들어 斯洛文尼亚总理扬沙,欧洲委员会主席巴罗佐和欧盟外交政 策负责人索拉纳与梅德韦杰夫共进非正式晚 (Slovenian President Jansa, European Commission president Barroso and EU foreign policy chief Solana had an informal dinner with Medvedev)”라는 중국어 대한 번역을 할 경우 “Slovenia premier the sand blowing, Council of Europe President Baluozuo and European Union foreign policy person in charge Solana and Medvedev have the unofficial supper.”으로 번역이 된다고 합니다(야후 번역기의 경우). 여기서 문제가 되는 부분은 sand blowingBaluozuo이라고 할 수 있는 대 sand blowing는 슬로베이나의 총리 ‘Jansa’를 이름이 아니라 문자 그대로 번역해서 생긴 문제 이고 BaluozuoEC의 의장 ‘Barroso’ 바로 영어로 번역하지 않고 발음을 그대로 표기해 발생해서 생긴 문제입니다. Semantex는 슬로베이나 총리 이름인 Jansa EC의 의장 Barroso를 사람 이름으로 추출한 후 태깅하여 정확하게 번역하는 기능입니다. Semantex는 그 밖에 다른 기능이나 특징을 제공하고 있지만 뭐 눈에 띄는 특징이라고 하면 위에 소개한 두가지 특징이라고 할 수 있겠내요.


사용자 삽입 이미지

다양한 분야에서 텍스트 마이닝 기술의 중요성은 점점 부각되고 있습니다. 조금씩 구조적인 형태의 문서나 메타 데이터들이 많이 등장할 것이고 그러한 노력들이 많이 이루어 지고 있지만 이미 생성되어 있는 수많은 비구조적인 정보와 지금도 만들어 지고 있는 비구조적인 정보의 양을 정말 상상을 초월하지요. 때문에 비구조적인 정보 더미 속에서 의미 있는 진주를 발굴하는 기술인 텍스트 마이닝은 더욱 가치가 있지 않나 하는 생각입니다. 오랜만에 작성한 포스트가 조금 딱딱한 포스트가 되어 버렸내요.

 

출처: http://ctrl.pragma-tech.com,

http://www.janyainc.com/products/the-semantex-platform/overview