::
검색의 미래, 개인화, 정리된 정보, 시멘틱 웹


사용자 삽입 이미지
차정원 창원대학교 정보통신공학과 교수

인터넷이 지금의 위치에 오를 수 있었던 것에 검색이라는 기술이 일조를 한 것은 부인할 수 없을 것이다. 정보의 바다라기보단 데이터 창고인 인터넷에서 정보를 찾기 위해서는 검색이 반드시 필요하다. 그러나 검색 프로그램의 한계와 정보를 찾는 사람들에 미숙함으로 인해서 창고를 헤매는사람들이 더욱 많이 늘고 있다. 구글이라는 독보적인 인터넷 검색엔진이 출현하여 검색시장을 장악하였지만 우리는 아직도 좀 더 똑똑한 검색엔진을 필요로 한다. 때문에 본 글에서는 미래의 검색에 요구되는 사항에 대해서 기술하려고 한다.

검색을 하는 사람들은 사실 자신이 찾고자 하는 것이 명확하게 무엇인지, 또는 어떤 단어로 표현해야 하는지 모르는 경우가 많다. 머리 속에 떠오는 개념 혹은 객체를 우리가 사용하는 단어로 형상화하여 검색을 한다. 그런데 이렇게 생성된 단어가 우리가 정말 찾고 있는 ‘어떤 것’을 잘 설명한다고 말하기에는 부족함이 많다. 때문에 검색시스템은 사용자로부터 보완할 좀 더 많은 정보들을 받아야 한다. 이것이 개인화의 시작이다.

현재 개인화 정보를 검색에 이용하려는 시도는 많이 있다. 대부분 개인의 프로파일을 작성하게한 후 로그인을 통해 검색결과에 반영한다. 이것은 사용자에게 보다 많은 정보를 받아내어 검색에 이용하려는 마이크로소프트 쪽의 방법과 유사하다. 그러나 이것은 사용자에게 상당한 부담이 될 것수도 있다. 생각 해 보라. 검색을 할 때마다 로그인을 해야 한다면 많은 사람들이 중요한 사항이 아니고서는 이용하려 들지 않을 것이다. 따라서 로그인 과정이 없는 개인화 정보사용법에 대한 연구가 필요하다. 이것은 주로 구글 쪽의 방법과 유사한데, 사용자의 검색 패턴을 분석하여 질의어와 검색결과의 선택, 그리고 다수의 행동패턴, 통계적인 기법 등을 같이 사용한다면 가능할 것이다.

또 하나의 시도는 창고에 흩어진 데이터를 정보로 가공하여 서고에 진열하는 것이다. 정리된 데이터가 쌓아 논 파일보다 좋다는 것은 이미 잘 알려진 것이다. 따라서 현재의 많은 정보를 얼마나 잘 조직화하여 사용자에게 제공하느냐가 중요한 요소가 된다. 이것을 위해서는 일반 웹문서로 부터 조직화된 데이터베이스로 자동 생성할 수 있는 기술이 필요하다. 이것은 자연어처리 기술이 해결할 수 있을 것이다. 아직은 그 성능이 완벽하지 않지만 정확하게 추출이 가능한 부분만을 사용하더라도 상당한 검색향상을 가져올 것으로 기대된다.

마지막으로 관심의 대상이 되는 것이 시멘틱 웹이다. 이것은 ‘인간이 읽을 수 있는 문서’ 중심의 현재 웹문서에서 기계가 이해할 수 있는 문서로 전환하여 자동화하겠다는 계획이다. 개념적으로 는 완벽하다고 생각한다. 그러나 여기에는 반드시 해결해야 할 문제가 있다. 그것은 정보의 생성이다. 지금의 웹이 가능하게 된 것은 사용자의 참여이다. 즉, 전문가의 전유물이던 정보의 생산을 일반인들도 자신만이 알고 있는 정보를 사용자들이 생산하게 됨으로써 인터넷이 지금과 같이 풍부해지고 활기차게 된 것이다. 그런데 시멘틱웹은 너무 어렵다. 따라서 사용자의 참여가 제한적일 수밖에 없다. 그렇게 되면 인터넷은 다시 전문가의 영역으로 되돌아가게 된다. 따라서 일반 웹문서를 자동으로 시멘틱 웹에서 사용하는 문서(RDF/OWL, 토픽맵을 이용)로 변환할 수 있는 기술이개발되어야 한다.

지금도 많은 사용자가 정보를 찾아서 창고를 헤매고 있을 것이다. 자연어처리 기술과 정보검색기술에서 선두에 있는 다이퀘스트가 사용자가 쉽게 이용할 수 있는 검색기술의 개발로 많은 사람들의 등불이 되어주길 기대해본다.

 

Semantic 시대의 준비


사용자 삽입 이미지

지난 2007년 11월에 국내에서는 거의 모든 사람이 생소하다고 느낄 수 있는 제6회 ISWC & ASWC 2007에 참석하고자 부산 BEXCO에 다녀왔다. 본 행사는 차세대 웹 기술의 핵심이라고 할 수 있는 시맨틱웹을 연구하는 전세계 석학들이 모여 논문을 발표하는 행사다. 유럽을 중심으로 전세계에서 시맨틱웹을 연구하는 500여명의 인력이 참가하여 6일간에 걸쳐 논문발표 및 열띤 토의가 이루어졌다. 역설적이지만, 인터넷 비즈니스 선진국임을 항상 외치는 우리나라의 참가자는 한국 부산에서 개최되었음에도 불구하고 10%에도 미치지 못하는 것을 보고 그 의아함을 감출 수가 없었다.

우리나라는 차세대 웹의 핵심인 시맨틱웹에 대한 준비를 하고는 있는 것인가?

1992년 웹을 처음 만들었던 팀 버너스 리가 개발한 하이퍼텍스트(HTML)와 HTTP는 아주 간단한 기술 사양만으로 정보를 연결하고 기술할 수 있다는 점에서 웹은 전 세계적으로 매우 성공을 거두었다. 이것을 토대로 인터넷은 정보소비자와 정보 생산자의 구별을 없애고 정보획득 장벽을 철폐함으로써 정보 유통의 민주화와 대중화, 그리고 비즈니스 차원의 전자상거래라는 거대한 시장을 창출하였다. 인터넷을 통한 정보 유통의 혁명은 사회민주화와 세계화, 그리고 e-비즈니스로 진화하면서 동시에 정보획득 불균형의 확대라는 새로운 문제를 야기했다. 더구나 인터넷에 의해 무차별 배포되는 정보에서 진짜 정보를 찾고 불필요한 정보를 제거하는 것은 현재 인터넷 환경에서는 현실적으로 불가능할 지경이다.

 자신이 원하는 정보만을 원하는 형태로 제공받기를 원하는 인터넷 이용자들에게 인터넷 시스템환경은 서로 호환될 수 있도록 지속적으로 확장되어야 하고 거짓정보와 진짜 정보, 필요한 정보와 불필요한 정보가 뒤섞인 인터넷에서 정보유통의 효율화를 이루면서 정보 이용의 격차를 극복하고 극대화하기 위해 원하는 정보만을 획득할 수 있는 방법론이 제공되어야 한다.

이 일환으로 웹 창시자 팀 버너스 리는 인간뿐만 아니라 기계도 이해할 수 있는 상호 호환성을 위한 시맨틱웹을 제창했다. 시맨틱웹은 정보의 접근 자체에 대한 제약이 없어야 한다는 비전에 근거한다.

현재 시맨틱웹에 대한 연구는 유럽과 미국 선진국을 중심으로 기술 자체의 표준과 필수 구성요소에 대한 연구가 많이 진행되고 있다. 상용화 할 수 있는 시맨틱웹 응용시스템은 개발되지 않았지만, 최근에 시맨틱웹의 가능성을 보여주는 여러 연구가 이루어지고 있다. 주목할 부분은 이러한 연구 중 현재 유럽에서는 EU 지원을 기반으로 SUPER(Semantic Utilised for Process Management within and between Enterprise) Project를 통해 시맨틱웹 기술을 이루는 구성요소들을 활용하는 서비스나 기업간 비즈니스 프로세스 연계 서비스를 국가차원에서 개발하고 있다는 사실이다. EU에서는 단순히 시맨틱웹 기술개발뿐만 아니라 기술을 활용할 수 있는 연구를 진행하고 있는 상황이다.

요즘 한국에서는 ‘공학’은 있지만 ‘기초과학’은 죽었다는 말들을 흔히 듣는다.
한국 기업들이 ‘당장 수익이 창출되는’ 공학 분야에는 많은 투자를 하지만, ‘수익을 내기 위해서는 많은 시간이 소요될 수 있는’ 기초과학 분야에는 큰 관심을 기울이지 않기 때문에 나온 말일 것이다.

한국 IT 산업계에도 이와 비슷한 현상이다.
세계적인 IT산업 강국이라는 허울 좋은 이름 뒤에 프로그래머는 있어도 프로그래밍 언어 개발자는 없고, 게임 개발자는 많아도 게임 엔진 개발자는 턱없이 부족하고, 검색/포털 사이트는 많이 있어도 검색엔진을 만드는 회사는 거의 없다는 현실이 있다.

한국이 세계 IT업계를 선도하는 기술력을 보유하기 위해서는 바로 IT의 기초과학이라고 할 수 있는 기본 이론과 알고리즘 연구에 투자해야 한다. 지금 세계는 새로운 차세대 Web 환경을 제공하는 시맨틱웹에 주목하고 있다. 비단 유럽과 미주의 선진 시장 환경과 비교하기에는 국내 환경이 턱없이 부족하지만, 시맨틱웹 환경에서 기술의 주도권을 행사하기 위해서는 시맨틱웹 기본 이론과 알고리즘 연구에 대한 투자와 시맨틱웹 어플리케이션 개발이 선행되어야 할 것이다.

웹과 시맨틱웹을 주창한 팀 버너스 리가 예견한 시맨틱웹의 활성화 시기는 2010년 전후이다. 미래의 신 성장 동력 비즈니스에 대비하는 기업이라면 향후 기업간 정보시스템에 중요한 영향을 미칠 시맨틱웹과 이를 활용하는 방안에 대해서 관심을 갖는 것이 필요하다.

자연어 처리 기술과 정보검색 기술에서 선두에 있는 다이퀘스트가 과거 알렉산드리아 도서관이 세계적인 지성인들의 메카(Mecca)가 되었던 것처럼, 의미기반 검색기술에 대해 끊임없는 연구/개발로 방대한 정보 가운데 정확한 정보를 찾고 분석하고자 하는 욕구를 가진 오늘날의 지성인들이 가장 많이 사용하는 검색엔진이 되기를 기대한다.