본문 바로가기

● DQ 연구소/주요 구축사례

서강대학교 정보통신대학원장 서정연교수


사용자 삽입 이미지

검색엔진 기술의 진화

한동안 IT업계를 흥분시켰던 인터넷 비즈니스 닷컴열풍이 꺼지고 더 이상 인터넷에서 대박은 없을 것으로 인식되어 왔다. 

그러나 얼마 전 구글이라는 인터넷 검색전문업체가 세계적인 관심을 끌면서 IT 업계에서 새로운 강자로 떠오르기 시작했다. 이들이 가지고 있는 시장 경쟁력은 검색서비스를 넘어서서 새로운 개념의 사용자 인터페이스까지 미쳤고 그동안 세계 인터페이스 시장을 독식해오던 마이크로소프트도 구글의 존재에 매우 민감한 반응을 보이기 시작했다.
앞으로 일반 사용자들은 자신의 PC에서 윈도우를 작동 시킨 후 자연스럽게 구글이 제공하는 인터페이스로 들어가 그곳에서 모든 작업을 하게 될 지도 모른다; 구글 서치, 구글 메일, 구글 문서 관리기, 구글 컨텐츠 관리기 등등.

미국의 구글 뿐 아니라 국내에서도 네이버와 같이 인터넷 검색서비스를 기반으로 한 포탈이 기존의 웹메일 서비스를 기반으로 선두에 나섰던 다음을 제치고 인터넷 포털의 최강자로 떠오르게 되면서 모든 인터넷 포탈들이 각각 검색서비스의 차별화를 위하여 엄청나게 많은 노력을 기울이게 되었다.

지난 10년간 검색엔진에 관련된 환경은 계속 변화되어 왔다.
초창기 국내의 소규모 검색엔진개발 그룹들을 누르고 오랫동안 시장점유율 1위를 해 왔던 미국의 베리티 엔진의 시장점유율이 최근 3년간 지속적으로 떨어지면서 국내의 검색전문업체가 개발한 검색엔진들이 전진하는 것도, 다양한 검색환경에 유연하게 대처할 수 있는 기술적인 기반을 확보한 국내 업체들이 상대적으로 유연성이 떨어지는 외산 엔진보다 시장친화적으로 접근할 수 있는 능력이 월등하기 때문인 것이다.

검색환경은 두 가지 측면에서 계속 변화되어 왔다.
첫째는 검색대상이 되는 문서의 수가 기하급수적으로 늘어나고 있다는 측면이다. 10년 전에는 많아야 2-3만문서 정도를 가지고 있는 기관이 대부분이었지만 지금은 기관의 문서보유량이 2-3백만을 넘어 3천만 문서까지 되면서, 검색포탈로써의 검색엔진이 필요할 것으로 보인다. 게다가 웬만한 포탈이 운영하고 있는 게시판의 문서 수는 억대를 넘어서서 일반적인 검색엔진으로는 감당되지 않는 수준에 와 있다. 예전의 검색엔진으로는 꿈도 꾸지 못할 문서의 양을 감당해야 하고, 게다가 실시간에 검색해야 한다는 제약조건은 문제를 더욱 어렵게 만들고 있다.

두번째는 검색의 정확성과 사용자의 편리성이다. 검색 결과가 정확하지 않으면 사용자들의 만족도가 떨어지게 된다. 검색기술에서 속도와 정확도는 동시에 잡아야 하는 아주 어려운 숙제이다. 사용자들의 편리성도 매우 중요한 이슈가 된다. 일반적인 키워드 몇 개로 사용자가 원하는 질문을 만들기 어렵다는 것은 다 알고 있는 사실이다. 따라서 네이버와 같이 자연어 검색방식이라는 것이 유행을 타게 되었으나, 결국 그것도 키워드 방식과 크게 다를 바가 없는 방식이다. 이런 방식의 검색은 수천만개의 문서속에서 관련된 문서 몇 개만 찾아도 되는 환경에서는 유효하지만, 수십만개 이하의 문서에서는 관련문서를 전혀 찾지 못해서 별로 도움이 되지 못하는 경우가 많이 있다.  일례로 이런 방식의 검색엔진을 설치했었던 쇼핑몰에서 “테레비” 라고 검색하면 “찾으시는 물건이 없고 곧 준비하겠습니다”는 메시지를 내보내는 경우가 대부분이었는데, 사실 이 쇼핑몰에는 수백개의 테레비가 있었고, 애석하게도 영어로 “TV”라고 쳐야지만 검색이 되는 것이었다. 즉 의미적인 고려 없이 단어만으로 검색을 할 경우 이런 현상이 나오는 것은 당연한 것이다. 

현재 차세대 검색방식으로 미국 표준연구소 주관으로 진행되어 오는 TREC이라는 경진대회에서는 10여 년 전부터 다양한 검색관련 기술들을 평가하면서, 계속 새로운 문제를 제시하여 전 세계의 관련 연구의 도전을 유도하고 있다. 막대한 예산을 들여가면서 방대한 양의 표준 데이터를 구축하고 그것을 이용해서 전 세계의 정상급 연구팀들의 개발 결과들의 성능을 벤치마킹하여 그 순위를 발표하면서 경쟁하는데, 최근에 가장 각광을 받고 있는 차세대 검색 과제가 바로 질의응답(Question-Answering: QA)이라고 하는 분야다. 이것은 제목에서 볼 수 있듯이 검색질의에 대해서 관련된 문서를 찾아주는 기존의 키워드 기반의 검색 기법과는 달리, 사용자의 각종 질문에 대한 정답을 찾아서 제시하는 기술이다. 그러기 위해서는 자연어 문장으로 입력된 질문의 의미를 정확하게 분석할 수 있는 기술이 있어야 하고, 그 질문에 답이 될 수 있는 부분을 수많은 문서들 속에서 찾아내어 제시하는 기술이 필요하다. 이를 위해서 필요한 것이 문서 내의 키워드를 의미적으로 미리 분류하여야 하고, 각 의미들 사이의 관계 즉 소위 온톨로지라고 하는 지식기반이 중요한 역할을 하게 된다.

QA 시스템이 처리해야 하는 질의는 매우 다양하다. 예를 들면 “세계에서 가장 부자는 누구인가?” 라는 질문을 던지면 “빌 게이트” “워렌 버핏”과 같은 사람의 이름을 답으로 내야 하는데, QA 시스템은 검색엔진과 같이 수많은 문서들 내에서 이 답들을 실시간에 찾아서 제시하여야 한다. 이렇게 사람이름을 묻는 것 외에도, “모짜르트는 언제 죽었는가?” “신라의 수도는?” 과 같이 시간이나 지명에 관한 질문, 심지어는 “콩나물 국밥은 어떻게 만드는가?” 와 같이 단답형이 아닌 질의응답까지도 과제에 포함된다.

현재 QA시스템 기술은 계속 진행되고 있는데, 필자와 포항공대 이근배교수가 ㈜다이퀘스트를 창업하면서 이 기술을 개발하여 영어 QA시스템을 출품하여 미국의 TREC에서 정식으로 평가를 받았다. 당시 세계에서 가장 앞서고 있다는 MIT, CMU. USC, Bell Lab. 등과 경쟁하여 대등한 성능을 보였고 그 다음해 일본어 QA시스템을 개발하여 일본 정부에서 시행한 평가에 출품하여 일본의 모든 경쟁자들을 물리치고 1등을 한 경험이 있다.

QA시스템 기술은 의미적 검색을 가능하게 하여 질의응답이 아닌 일반 문서 검색에서도 탁월한 정확도와 편리성을 제공한다. QA시스템에서 개발되었던 키워드의 의미적 분별 기술과 자연어 질문의 의미적 분석기술을 이용한 대표적 국내 검색솔루션으로는 현재 다이퀘스트의 상품전용 검색엔진 ‘다이버(DIVER)’로, 기존의 검색엔진과는 차별화된 정확도와 편리성을 보이고 있다. ‘다이버’의 기술은 지능형 채팅 기술에 접목되어 단순한 채팅이 아닌 목적지향적 질의응답 기능을 가진 채팅 시스템인 인포채터를 개발하는데 중요한 기여를 하게 되었다.

이제 많은 관공서나 기업들이 문서관리, 지식관리 시스템들을 운영하고 있는데, 이러한 시스템에 어김없이 검색엔진들이 하나씩 설치되어 있다. 많은 예산을 들여서 지식관리 시스템을 구축해서 사용하고 있으나, 그 시스템의 활용도가 얼마나 되는지, 실제 생산성을 높이는데 얼마나 기여를 하고 있는지 분석해볼 필요가 있다. 사용자들이 자신들이 고민하고 있는 문제를 검색했을 때 얼마나 관련 문서(지식)을 잘 찾아 내는가? 실제 상당수의 검색엔진들이 관련 문서가 있음에도 불구하고 찾지 못하는 경우가 매우 비일비재하다. 아무리 지식문서를 잘 쌓아 놓아도 필요할 때 찾지 못한다면 없는 것이나 다름이 없지 않은가!

미국의 자동차 업체인 GM에서는 작업장에서 많은 문제들이 발생할 때마다, 그리고 그에 대한 해결책을 찾을 때마다 지식관리 시스템에 저장하여 공유함으로써 생산성 향상을 추구하고 있다. 이 시스템의 핵심 기술은 domain ontology를 이용한 ontology-guided search에 있다고 AI magazine 의 최신호(2005년 9월, Vol.26, No. 3)에 기고된 한 논문에서 밝히고 있다. 문제는 이렇게 각 업체의 분야에 맞는 온톨로지를 구축하고 그것을 이용해서 정확하게 검색을 하는 의미적 검색엔진은 구축비용이 많이 든다는 것이다. 실제로 전체 지식관리 시스템을 구축하는 것 이상의 비용이 드는 작업일 것이다.  하지만, 이렇게 쉽고 편리하게 원하는 지식을 찾아내는 시스템이야말로 전 사원들의 생산성을 높이는데 중요한 기여를 하게 될 것이다.

예전에는 필요한 시스템을 하나씩 장만하는데 급급했지만, 이제는 각 시스템들의 실제 서비스 능력을 검증해서 그 질을 높이는 것이 중요하다. 국민소득 2만불 까지는 하드웨어로 가능하지만, 그 이상은 소프트웨어가 따라주어야 한다. 즉 일류기업이 되기 위해서는 그 기업의 개개인의 능력이 향상되어야 하듯이, 그 기업이 운영하고 있는 소프트웨어 시스템들이 최상의 quality를 올려주어야 하는 것이다. 현대 기업이나 조직의 늘어나는 문서와 지식을 관리하는데 검색엔진의 역할은 더 이상 부수적인 것이 아니다. 이제는 그 조직이 사용하는 검색시스템의 성능이 전체 조직의 경쟁력을 좌우하는 시대가 된 것이다.