본문 바로가기

● DQ 연구소/주요 구축사례

한국과학기술정보연구원(KISTI) 정한민박사

사용자 삽입 이미지
차세대 웹 환경에서의 정보검색

웹의 눈부신 발전을 보고 있자면 PC 통신, FTP 등을 사용하면서 신기해하던 때가 있었나 하는 즐거운 회상을 하곤 한다.
매년 정보량이 두 배씩 증가한다는 믿기 힘든 뉴스도 인터넷 상에 범람하는 정보들을 보고 있자면 또 아니 믿을 수 없게 만든다.

최근 정보 증가에는 차세대 웹의 하나로 일컬어지는 웹2.0의 화두인 UCC(사용자 생산 콘텐츠)도 많은 기여를 하고 있다. 언제부터인가 웹에서 정보를 얻는 수동적인 입장에서 웹에 정보를 제공하는 능동적인 입장으로 네티즌들의 역할이 바뀌어 가고 있는 것이다. 싸이월드, 다음카페, 지식인 등 예전부터 지켜보고 있던 서비스들이 콘텐츠 생산의 주역으로 자리 매김하고 있으며, 특히 지식인과 싸이월드는 해당 포털의 순위를 끌어올리는 데 결정적인 역할을 했다고 본다. UCC는 이제 가벼운 사용처를 뛰어 넘어 디지털도서관이나 온라인 서점의 독자 서평, 온라인 쇼핑몰의 상품평 등 경제에까지 영향을 미치고 있다.

또 다른 방향에서의 차세대 웹은 시맨틱 웹을 중심으로 움직이고 있다. 팀 버너스리의 창시 이후 시맨틱 웹은 W3C를 통한 표준화와 여러 분야에서의 도메인 온톨로지 기반 서비스가 동시에 이루어지고 있다. 나 역시 2004년 이후 시맨틱 웹 기술을 R&D 전주기 지원이라는 목표 하에 정보유통 플랫폼에 접목시키는 시도를 하고 있으며, 어느 정도 성과가 나온 상태이다.
시맨틱 웹은 결국 기계가 이해할 수 있는 콘텐츠를 만들어 보자는 것으로 이를 위해 개념 공유를 위한 온톨로지를 필수 지식으로 활용한다. 얼핏 보면 웹2.0과는 별개의 방향으로 보일 수 있지만, 궁극적으로 웹을 적극적으로 활용할 수 있게 한다는 공통점을 가진다고 볼 수 있다.

이제 정보의 구성 관점에서 웹2.0과 시맨틱 웹이 어떤 역할을 하는 지 살펴보도록 하자.
웹2.0에서는 사용자 중심의 독립적이고 자발적인 콘텐츠가 생성되기도 하지만, 기존 전문가에 의해 생성된 콘텐츠에 주석을 다는 형태의 부가적인 콘텐츠가 생성되기도 한다. 공공기관, 전자상거래업체 등에서 자신들의 콘텐츠에 사용자들의 자발적 참여로 생성된 부가정보를 결합시킴으로써 콘텐츠의 활용도를 높이고 이를 매출과 연결하고자 하는 시도를 적극적으로 하고 있기 때문에 정보검색 업체에서는 콘텐츠 간의 연계에 주목할 필요가 있다. 예를 들어, 요즘 전자상거래를 통해 상품을 구입하는 사람들은 대부분 다른 구매자들에 의해 생성된 상품평을 참조한다. 이러한 상품평은 다른 구매자의 판단에 많은 영향을 끼치게 된다.

시맨틱 웹에서는 온톨로지를 이용하여 콘텐츠의 내용에 의미를 부여하는데, 상•하위 기본 관계 외에도 개체들 간의 다양한 관계를 포함시켜 콘텐츠를 연결하고 그 내용들에 주석을 붙인다. 예를 들어, 작동 완구가 건전지를 사용해야 하는 경우에 이 두 상품을 부품 관계로 연결하여 놓으면 작동 완구를 구매하고자 할 때 건전지라는 상품이 참고 정보로 보일 수 있다. 앞으로는 이러한 콘텐츠의 연계와 그들 간의 관계에 보다 초점이 맞추어진 형태로 정보가 구성될 것이다.

정보검색 엔진 입장에서 볼 때 기존에 각각 별개 정보로서만 다루어 해당 필드들에 대해서만 색인하고 검색할 수 있도록 하던 방식을 벗어나지 않으면 이러한 정보 구성 변화에 적응하기 어렵게 될 것이다. 특정 정보를 색인할 때 그 관계 정보들도 관계명과 같이 색인할 수 있도록 함으로써 다양한 관점의 검색결과 제시가 가능해진다. 특정 독자 서평 내에서 언급된 도서명이 검색대상이 될 때 어떤 도서가 그 서평을 가지고 있는 지를 서평 관계로 연계하여 보여준다거나, 특정 건전지를 검색할 때 해당 건전지를 사용할 수 있는 완구를 사용 가능한 제품으로서 동시에 제시하는 등의 다각적인 검색 서비스가 사용자의 구매 욕구를 불러일으킬 수 있다는 것이다. 또한, 콘텐츠 내의 개체명을 인식하고 이를 온톨로지를 이용하여 의미화시킴으로써 텍스트 자체에서 얻지 못한 의미까지도 검색을 통해 얻어낼 수 있을 것으로 본다.

아직까지는 콘텐츠가 부분적으로 연계되거나 별도로 구축되지만 차세대 웹 환경으로의 빠른 이동은 콘텐츠간 연계의 중요성을 더욱 부각시킬 것이다. 이러한 환경 변화에 발빠르게 대처하기 위해서는 시소러스, 온톨로지 등을 탑재할 수 있고 더 나아가 이러한 기반 지식자원을 구축할 수 있는 여건을 갖추어야 한다. 다행히도 다이퀘스트는 자연어처리 분야에서도 강점을 가지고 있는 회사로서 이러한 환경 변화에 충분히 대응할 수 있으리라 생각하기에 그 발전을 멀리서나마 안심하고 지켜보게 된다.