::


사용자 삽입 이미지
공상과학 시대의
자연어를 이용한 유비쿼터스 정보검색

요즘
유비쿼터스라는 단어가 최고의 Buzz word로 떠오르는 가운데 언론에서는 연일 유비쿼터스 시대의 도래를 알리는 기사들이 보도된다. 일반인들은 이제 컴퓨터가 다양한 모습으로 자기를 도와줄 것이라는 환상에 좀 더 가까워 진듯하다.

유비쿼터스 컴퓨팅은 컴퓨터가 여러가지 다양한 모습을 가지고 우리의 생활 곳곳에 스며들어 인간을 도와 줄 수 있다는 개념으로 여기에서 컴퓨터는 다양한 모양의 센싱과 컴퓨팅 능력을 가지고 전부 무선 네트워크로 연결된 형태의 다양한 모양의 디바이스들을 말한다. 이것은 가상현실과는 반대되는 개념으로 가상현실처럼 컴퓨터를 이용한 실제 같은 가상의 세계를 만드는 것이 아니고 컴퓨터가 가상세계에서 실제 세계로 물리적으로 나와서 오직 나만을 위해서 보이지 않은 곳에서 다양한 형태의 서비스를 제공함을 말한다. 따라서 이것은 분명 한대의 컴퓨터를 가지고 여러 명이 사용 하는 Main Frame 컴퓨팅 시대와 한대의 컴퓨터를 한 명이 사용하는 Personal Computing 시대를 훌쩍 뛰어넘는 제 3 Computing Paradigm 이며 인터넷 사회의 미래를 예측하게 해 줄 수 있는 새로운 차세대 인터넷 Paradigm임엔 틀림이 없다.

 

그러면 이러한 유비쿼터스 컴퓨팅 시대에 사람은 어떤 방식으로 컴퓨터와 대화를 하고 컴퓨터를 통해 정보를 얻을 것인가? 분명히 현재의 키보드, 마우스, 모니터의 기본 대화방식은 힘들어 질 것이며 아마도 인터페이스도 보이지 않는 곳으로 숨어서 제 역할을 해야 할 것이다. 과연 그것이 어떻게 가능할까? 그것에 대한 해답은 공상과학 영화에서 흔히 보듯 인간의 언어를 가지고 컴퓨터와 자연스럽게 대화하는 것이면 될 것이며 공간제약이 없는 홀로그램 형식의 Visual Interface를 가지면 될 것이다.

 

그렇다 스타워즈의 R2D2를 기억하는가?

 

이미 인간의 언어를 사용한 대화형 인터페이스에 대한 연구는 선진국에서 수십 년의 역사를 가지고 이루어져 왔으며 근래에는 부분적으로 전화망을 통한 상용 시스템들이 등장하기 시작하여 이제 심심치 않게 컴퓨터와 자연어를 이용하여 여러 가지 업무를 보는 일들이 주변에 점점 많아지고 있다. 제한된 음성대화를 통한 비행시간안내, 주식시세, 날씨안내등의 보편화는 물론 SK

 

Telecom Nate Drive 서비스처럼 좀 더 진보된 자연어처리대화를 이용하여 길안내를 받는가하면, 지능로봇과 자연어대화를 이용하여 박물관이나 전시관 안내를 받을 수 있으며 심지어는 가정에서 로봇이나 디지털 티브이와 대화 하면서 영어 학습이나 여러 가지 정보를 얻을 수 있는 응용 솔루션들이 속속들이 개발되고 있다. 앞으로는 여러분이 가진 복합단말기를 이용하여 GPS장치를 통한 길안내 서비스나 맛집 소개, 관광지 안내 등을 자연어 대화를 통하여 정보 안내를 받을 수 있을 것이며 코스트코 같은 대형 쇼핑몰에서 상품을 찾기 위해 점원에게 일일이 물어보는 대신에 복합단말기의 안내를 받을 것이다. 또 해외에 박물관이나 관광지안내를 현지에서 자연어대화를 이용한 정보검색을 통하여 보다 알찬 관람을 할 수 있는 가능성도 열릴 것이다. 여기에 자동통역을 해주는 단말기를 가지고 모르는 나라에서도 불안감 없이 여행을 즐길 수 있다고 생각하면 상상만으로도 기분이 좋아진다.

 

이러한 자연어 대화를 이용한 정보획득은 우리가 당연하게 생각하는 음성만이 아닌 다양한 형태의 텍스트 입력 수단이나 gesture 같은 멀티모달 입력 수단을 통한 대화도 가능해 질 수 있다. 그리고 대화의 내용도 지금 서비스 되고 있는 MS의 심심이 서비스나 SK 1mm 서비스 같은 단순한 채팅을 벗어나 GSeshop의 샤피처럼 초보적 정보획득을 위한 대화서비스로 점차 진화해 갈 것이며 심지어는 모든 가전제품을 대화를 통해 제어하고 필요한 정보를 획득하는 대화형 만능 리모콘 같은 것도 곧 상품화 될 것이다.

 

앞으로의 미래사회는 유비쿼터스, 디지털 컨버젼스와 네트워크가 지배하는 사회로 정의될 것이다.

모든 디바이스가 모양만 가지고는 용도를 알 수 없을 만큼 다양하고 복합적인 기능을 가질 것이며 실제환경 구석구석 박혀있는 여러 컴퓨팅 디바이스와 서로 거미줄처럼 얽혀있는 디바이스 네트워크가 인간을 사회적으로 연결하는 Social Network을 형성 할 것이다. 이러한 환경에서 모든 정보획득은 컴퓨터와의 자연스런 자연어처리 기술을 통해 얻어질 것이며 그것은 굳이 음성뿐만이 아니라 여러 가지 다양한 형태의 입력 수단을 통하여 오감을 다 동원하는 멀티모달 커뮤니케이션의 보편화를 의미한다. 물론 이러한 서비스가 성공적이 되기 위해서는 인간언어가 가지는 복잡성과 애매성을 해소하기 위한 꾸준한 연구가 있어야 할 것이다. 이미 선진국에서는 지난 수십 년간의 연구 결과를 통하여 상당부분 인간언어의 애매성 문제를 해결한 상태이다. 또한 이러한 보편적인 유비쿼터스 대화 인터페이스를 위하여 인간언어 사용을 어느 정도 정형화 (stylized sub-language)하여 기계로 하여금 인식이 쉽게 하고자 하는 USI (universal speech interface)의 개념도 CMU에서 연구되고 있다. 이것은 마치 GUI (graphic user interface)가 약간의 훈련만 가지고 모든 컴퓨터를 사용하는 보편적인 대화 수단으로 자리 잡은 것처럼 인간언어 사용을 조금만 정형화하여 기계가 인식을 쉽게 하도록 하여 앞으로 USI GUI를 대체 할 수 있는 보편적 인터페이스로 사용가능 하도록 하자는 연구이다.

 

컴퓨터를 이용한 인간언어처리에 관한 연구는 지난 50년간 꾸준히 연구되고 선진국을 중심으로 대형 연구지원이 많이 지속적으로 이루어 져 왔다. 50-60년대의 통계적 방법이 70-80년대의 규칙기반 방식으로 바뀌면서 언어의 2차원의 구조적인 연구가 좀 더 가능해졌다. 90년대 이후에는 다시 규칙기반의 구조적 연구 위에 통계기반의 연구를 다시 결합시킴으로써 여러가지 시너지 효과를 내면서 Paradigm Shift가 일어나고 있다. 이러한 기술적 Paradigm Shift는 바로 Innovation

 

과 연결되어 새로운 기술이 만들어지고 새로운 시장이 형성되고 있다. 과거의 기계번역은 모두 언어규칙과 지식기반이었고 개발에 많은 인력과 자금이 들어 갔지만 요즘의 기계변역은 통계적 디코더를 이용하여 음성인식이나 기계번역이나 동일한 구조로 처리함으로서 성능과 안정성을 동시에 얻는 것이 대표적인 Innovation의 예가 된다. 지금 검색신화를 일으키고 있는 google 같은 회사는 기존의 검색이 문서내의 데이터만을 가지고 하는 것이라는 고정관념을 깨고 문서바깥의 링크데이터를 적극 활용하여 검색을 함으로서 새로운 검색 기술의 Innovation를 이루고 검색광고의 Blue ocean market을 열어 오늘의 google이 되었음을 상기할 때 기술적 Innovation은 바로 10 배 이상의 성능보장을 약속하여 새로운 Blue ocean 시장을 곧바로 창출 할 수 있는 열쇠가 되는 것이다.

 

이제 위에서 말한 여러가지 자연어 대화를 이용한 유비쿼터스 정보획득은 앞으로 이러한 Blue ocean market을 열수 있는 대표적인 신기술중의 하나가 될 것 임에는 분명하다. 앞으로 이러한 자연어 대화형 정보검색을 위해 음성인식의 오류수정 및 환경적응, 강인한 언어 의미분석, 자연스러운 대화처리기술 등이 더 연구되고 안정화되고 상용화 될 때 유비쿼터스 자연어대화는 모든 정보서비스의 약방의 감초와 같은 역할을 할 것이며 우리 생활을 송두리째 획기적으로 바꾸어 놓는 새로운 기술적 Innovation이 될 것이다.

 

나는 공상과학 영화를 좋아한다.

 

오늘도 이러한 자연어대화처리에 관한 연구에 푹 빠져서 언젠가는 내 주변의 모든 사물과 자연어 대화로 의사전달이 가능해지는 바로 공상과학과 같은 시대가 오리라는 흐뭇한 생각을 자주 해보며 연구에 피곤한 마음을 수시로 달래보곤 한다. 그리고 다이퀘스트라는 우리가 만든 조그만 회사가 바로 앞으로 수십 년 후에 그런 공상과학의 세계를 이끌어 나가는 선두에 있을 때 나의 즐거움과 기쁨은 배가 될 것이다.


사용자 삽입 이미지

검색엔진 기술의 진화

한동안 IT업계를 흥분시켰던 인터넷 비즈니스 닷컴열풍이 꺼지고 더 이상 인터넷에서 대박은 없을 것으로 인식되어 왔다. 

그러나 얼마 전 구글이라는 인터넷 검색전문업체가 세계적인 관심을 끌면서 IT 업계에서 새로운 강자로 떠오르기 시작했다. 이들이 가지고 있는 시장 경쟁력은 검색서비스를 넘어서서 새로운 개념의 사용자 인터페이스까지 미쳤고 그동안 세계 인터페이스 시장을 독식해오던 마이크로소프트도 구글의 존재에 매우 민감한 반응을 보이기 시작했다.
앞으로 일반 사용자들은 자신의 PC에서 윈도우를 작동 시킨 후 자연스럽게 구글이 제공하는 인터페이스로 들어가 그곳에서 모든 작업을 하게 될 지도 모른다; 구글 서치, 구글 메일, 구글 문서 관리기, 구글 컨텐츠 관리기 등등.

미국의 구글 뿐 아니라 국내에서도 네이버와 같이 인터넷 검색서비스를 기반으로 한 포탈이 기존의 웹메일 서비스를 기반으로 선두에 나섰던 다음을 제치고 인터넷 포털의 최강자로 떠오르게 되면서 모든 인터넷 포탈들이 각각 검색서비스의 차별화를 위하여 엄청나게 많은 노력을 기울이게 되었다.

지난 10년간 검색엔진에 관련된 환경은 계속 변화되어 왔다.
초창기 국내의 소규모 검색엔진개발 그룹들을 누르고 오랫동안 시장점유율 1위를 해 왔던 미국의 베리티 엔진의 시장점유율이 최근 3년간 지속적으로 떨어지면서 국내의 검색전문업체가 개발한 검색엔진들이 전진하는 것도, 다양한 검색환경에 유연하게 대처할 수 있는 기술적인 기반을 확보한 국내 업체들이 상대적으로 유연성이 떨어지는 외산 엔진보다 시장친화적으로 접근할 수 있는 능력이 월등하기 때문인 것이다.

검색환경은 두 가지 측면에서 계속 변화되어 왔다.
첫째는 검색대상이 되는 문서의 수가 기하급수적으로 늘어나고 있다는 측면이다. 10년 전에는 많아야 2-3만문서 정도를 가지고 있는 기관이 대부분이었지만 지금은 기관의 문서보유량이 2-3백만을 넘어 3천만 문서까지 되면서, 검색포탈로써의 검색엔진이 필요할 것으로 보인다. 게다가 웬만한 포탈이 운영하고 있는 게시판의 문서 수는 억대를 넘어서서 일반적인 검색엔진으로는 감당되지 않는 수준에 와 있다. 예전의 검색엔진으로는 꿈도 꾸지 못할 문서의 양을 감당해야 하고, 게다가 실시간에 검색해야 한다는 제약조건은 문제를 더욱 어렵게 만들고 있다.

두번째는 검색의 정확성과 사용자의 편리성이다. 검색 결과가 정확하지 않으면 사용자들의 만족도가 떨어지게 된다. 검색기술에서 속도와 정확도는 동시에 잡아야 하는 아주 어려운 숙제이다. 사용자들의 편리성도 매우 중요한 이슈가 된다. 일반적인 키워드 몇 개로 사용자가 원하는 질문을 만들기 어렵다는 것은 다 알고 있는 사실이다. 따라서 네이버와 같이 자연어 검색방식이라는 것이 유행을 타게 되었으나, 결국 그것도 키워드 방식과 크게 다를 바가 없는 방식이다. 이런 방식의 검색은 수천만개의 문서속에서 관련된 문서 몇 개만 찾아도 되는 환경에서는 유효하지만, 수십만개 이하의 문서에서는 관련문서를 전혀 찾지 못해서 별로 도움이 되지 못하는 경우가 많이 있다.  일례로 이런 방식의 검색엔진을 설치했었던 쇼핑몰에서 “테레비” 라고 검색하면 “찾으시는 물건이 없고 곧 준비하겠습니다”는 메시지를 내보내는 경우가 대부분이었는데, 사실 이 쇼핑몰에는 수백개의 테레비가 있었고, 애석하게도 영어로 “TV”라고 쳐야지만 검색이 되는 것이었다. 즉 의미적인 고려 없이 단어만으로 검색을 할 경우 이런 현상이 나오는 것은 당연한 것이다. 

현재 차세대 검색방식으로 미국 표준연구소 주관으로 진행되어 오는 TREC이라는 경진대회에서는 10여 년 전부터 다양한 검색관련 기술들을 평가하면서, 계속 새로운 문제를 제시하여 전 세계의 관련 연구의 도전을 유도하고 있다. 막대한 예산을 들여가면서 방대한 양의 표준 데이터를 구축하고 그것을 이용해서 전 세계의 정상급 연구팀들의 개발 결과들의 성능을 벤치마킹하여 그 순위를 발표하면서 경쟁하는데, 최근에 가장 각광을 받고 있는 차세대 검색 과제가 바로 질의응답(Question-Answering: QA)이라고 하는 분야다. 이것은 제목에서 볼 수 있듯이 검색질의에 대해서 관련된 문서를 찾아주는 기존의 키워드 기반의 검색 기법과는 달리, 사용자의 각종 질문에 대한 정답을 찾아서 제시하는 기술이다. 그러기 위해서는 자연어 문장으로 입력된 질문의 의미를 정확하게 분석할 수 있는 기술이 있어야 하고, 그 질문에 답이 될 수 있는 부분을 수많은 문서들 속에서 찾아내어 제시하는 기술이 필요하다. 이를 위해서 필요한 것이 문서 내의 키워드를 의미적으로 미리 분류하여야 하고, 각 의미들 사이의 관계 즉 소위 온톨로지라고 하는 지식기반이 중요한 역할을 하게 된다.

QA 시스템이 처리해야 하는 질의는 매우 다양하다. 예를 들면 “세계에서 가장 부자는 누구인가?” 라는 질문을 던지면 “빌 게이트” “워렌 버핏”과 같은 사람의 이름을 답으로 내야 하는데, QA 시스템은 검색엔진과 같이 수많은 문서들 내에서 이 답들을 실시간에 찾아서 제시하여야 한다. 이렇게 사람이름을 묻는 것 외에도, “모짜르트는 언제 죽었는가?” “신라의 수도는?” 과 같이 시간이나 지명에 관한 질문, 심지어는 “콩나물 국밥은 어떻게 만드는가?” 와 같이 단답형이 아닌 질의응답까지도 과제에 포함된다.

현재 QA시스템 기술은 계속 진행되고 있는데, 필자와 포항공대 이근배교수가 ㈜다이퀘스트를 창업하면서 이 기술을 개발하여 영어 QA시스템을 출품하여 미국의 TREC에서 정식으로 평가를 받았다. 당시 세계에서 가장 앞서고 있다는 MIT, CMU. USC, Bell Lab. 등과 경쟁하여 대등한 성능을 보였고 그 다음해 일본어 QA시스템을 개발하여 일본 정부에서 시행한 평가에 출품하여 일본의 모든 경쟁자들을 물리치고 1등을 한 경험이 있다.

QA시스템 기술은 의미적 검색을 가능하게 하여 질의응답이 아닌 일반 문서 검색에서도 탁월한 정확도와 편리성을 제공한다. QA시스템에서 개발되었던 키워드의 의미적 분별 기술과 자연어 질문의 의미적 분석기술을 이용한 대표적 국내 검색솔루션으로는 현재 다이퀘스트의 상품전용 검색엔진 ‘다이버(DIVER)’로, 기존의 검색엔진과는 차별화된 정확도와 편리성을 보이고 있다. ‘다이버’의 기술은 지능형 채팅 기술에 접목되어 단순한 채팅이 아닌 목적지향적 질의응답 기능을 가진 채팅 시스템인 인포채터를 개발하는데 중요한 기여를 하게 되었다.

이제 많은 관공서나 기업들이 문서관리, 지식관리 시스템들을 운영하고 있는데, 이러한 시스템에 어김없이 검색엔진들이 하나씩 설치되어 있다. 많은 예산을 들여서 지식관리 시스템을 구축해서 사용하고 있으나, 그 시스템의 활용도가 얼마나 되는지, 실제 생산성을 높이는데 얼마나 기여를 하고 있는지 분석해볼 필요가 있다. 사용자들이 자신들이 고민하고 있는 문제를 검색했을 때 얼마나 관련 문서(지식)을 잘 찾아 내는가? 실제 상당수의 검색엔진들이 관련 문서가 있음에도 불구하고 찾지 못하는 경우가 매우 비일비재하다. 아무리 지식문서를 잘 쌓아 놓아도 필요할 때 찾지 못한다면 없는 것이나 다름이 없지 않은가!

미국의 자동차 업체인 GM에서는 작업장에서 많은 문제들이 발생할 때마다, 그리고 그에 대한 해결책을 찾을 때마다 지식관리 시스템에 저장하여 공유함으로써 생산성 향상을 추구하고 있다. 이 시스템의 핵심 기술은 domain ontology를 이용한 ontology-guided search에 있다고 AI magazine 의 최신호(2005년 9월, Vol.26, No. 3)에 기고된 한 논문에서 밝히고 있다. 문제는 이렇게 각 업체의 분야에 맞는 온톨로지를 구축하고 그것을 이용해서 정확하게 검색을 하는 의미적 검색엔진은 구축비용이 많이 든다는 것이다. 실제로 전체 지식관리 시스템을 구축하는 것 이상의 비용이 드는 작업일 것이다.  하지만, 이렇게 쉽고 편리하게 원하는 지식을 찾아내는 시스템이야말로 전 사원들의 생산성을 높이는데 중요한 기여를 하게 될 것이다.

예전에는 필요한 시스템을 하나씩 장만하는데 급급했지만, 이제는 각 시스템들의 실제 서비스 능력을 검증해서 그 질을 높이는 것이 중요하다. 국민소득 2만불 까지는 하드웨어로 가능하지만, 그 이상은 소프트웨어가 따라주어야 한다. 즉 일류기업이 되기 위해서는 그 기업의 개개인의 능력이 향상되어야 하듯이, 그 기업이 운영하고 있는 소프트웨어 시스템들이 최상의 quality를 올려주어야 하는 것이다. 현대 기업이나 조직의 늘어나는 문서와 지식을 관리하는데 검색엔진의 역할은 더 이상 부수적인 것이 아니다. 이제는 그 조직이 사용하는 검색시스템의 성능이 전체 조직의 경쟁력을 좌우하는 시대가 된 것이다.