검색의 미래, 개인화, 정리된 정보, 시멘틱 웹


사용자 삽입 이미지
차정원 창원대학교 정보통신공학과 교수

인터넷이 지금의 위치에 오를 수 있었던 것에 검색이라는 기술이 일조를 한 것은 부인할 수 없을 것이다. 정보의 바다라기보단 데이터 창고인 인터넷에서 정보를 찾기 위해서는 검색이 반드시 필요하다. 그러나 검색 프로그램의 한계와 정보를 찾는 사람들에 미숙함으로 인해서 창고를 헤매는사람들이 더욱 많이 늘고 있다. 구글이라는 독보적인 인터넷 검색엔진이 출현하여 검색시장을 장악하였지만 우리는 아직도 좀 더 똑똑한 검색엔진을 필요로 한다. 때문에 본 글에서는 미래의 검색에 요구되는 사항에 대해서 기술하려고 한다.

검색을 하는 사람들은 사실 자신이 찾고자 하는 것이 명확하게 무엇인지, 또는 어떤 단어로 표현해야 하는지 모르는 경우가 많다. 머리 속에 떠오는 개념 혹은 객체를 우리가 사용하는 단어로 형상화하여 검색을 한다. 그런데 이렇게 생성된 단어가 우리가 정말 찾고 있는 ‘어떤 것’을 잘 설명한다고 말하기에는 부족함이 많다. 때문에 검색시스템은 사용자로부터 보완할 좀 더 많은 정보들을 받아야 한다. 이것이 개인화의 시작이다.

현재 개인화 정보를 검색에 이용하려는 시도는 많이 있다. 대부분 개인의 프로파일을 작성하게한 후 로그인을 통해 검색결과에 반영한다. 이것은 사용자에게 보다 많은 정보를 받아내어 검색에 이용하려는 마이크로소프트 쪽의 방법과 유사하다. 그러나 이것은 사용자에게 상당한 부담이 될 것수도 있다. 생각 해 보라. 검색을 할 때마다 로그인을 해야 한다면 많은 사람들이 중요한 사항이 아니고서는 이용하려 들지 않을 것이다. 따라서 로그인 과정이 없는 개인화 정보사용법에 대한 연구가 필요하다. 이것은 주로 구글 쪽의 방법과 유사한데, 사용자의 검색 패턴을 분석하여 질의어와 검색결과의 선택, 그리고 다수의 행동패턴, 통계적인 기법 등을 같이 사용한다면 가능할 것이다.

또 하나의 시도는 창고에 흩어진 데이터를 정보로 가공하여 서고에 진열하는 것이다. 정리된 데이터가 쌓아 논 파일보다 좋다는 것은 이미 잘 알려진 것이다. 따라서 현재의 많은 정보를 얼마나 잘 조직화하여 사용자에게 제공하느냐가 중요한 요소가 된다. 이것을 위해서는 일반 웹문서로 부터 조직화된 데이터베이스로 자동 생성할 수 있는 기술이 필요하다. 이것은 자연어처리 기술이 해결할 수 있을 것이다. 아직은 그 성능이 완벽하지 않지만 정확하게 추출이 가능한 부분만을 사용하더라도 상당한 검색향상을 가져올 것으로 기대된다.

마지막으로 관심의 대상이 되는 것이 시멘틱 웹이다. 이것은 ‘인간이 읽을 수 있는 문서’ 중심의 현재 웹문서에서 기계가 이해할 수 있는 문서로 전환하여 자동화하겠다는 계획이다. 개념적으로 는 완벽하다고 생각한다. 그러나 여기에는 반드시 해결해야 할 문제가 있다. 그것은 정보의 생성이다. 지금의 웹이 가능하게 된 것은 사용자의 참여이다. 즉, 전문가의 전유물이던 정보의 생산을 일반인들도 자신만이 알고 있는 정보를 사용자들이 생산하게 됨으로써 인터넷이 지금과 같이 풍부해지고 활기차게 된 것이다. 그런데 시멘틱웹은 너무 어렵다. 따라서 사용자의 참여가 제한적일 수밖에 없다. 그렇게 되면 인터넷은 다시 전문가의 영역으로 되돌아가게 된다. 따라서 일반 웹문서를 자동으로 시멘틱 웹에서 사용하는 문서(RDF/OWL, 토픽맵을 이용)로 변환할 수 있는 기술이개발되어야 한다.

지금도 많은 사용자가 정보를 찾아서 창고를 헤매고 있을 것이다. 자연어처리 기술과 정보검색기술에서 선두에 있는 다이퀘스트가 사용자가 쉽게 이용할 수 있는 검색기술의 개발로 많은 사람들의 등불이 되어주길 기대해본다.

Posted by

2008/05/14 16:33 2008/05/14 16:33
, , , , ,
Response
No Trackback , No Comment
RSS :
http://blog.diquest.com/rss/response/81

Trackback URL : http://blog.diquest.com/trackback/81

Leave a comment
« Previous : 1 : ... 42 : 43 : 44 : 45 : 46 : 47 : 48 : 49 : 50 : ... 124 : Next »

블로그 이미지

-

Notices

Archives

Authors

Calendar

«   2010/09   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    

Site Stats

Total hits:
104586
Today:
60
Yesterday:
88