작년에 이어 올해도 ReadWriteWeb에서 선정한 2010년 베스트 시멘틱웹 서비스에 대한 글이 포스팅 되었습니다. ReadWriteWeb에서 올해 발표한 10개의 서비스 중 5개의 서비스는 2010년 혁신적으로 사용자들에게 많은 관심을 받았던 서비스이고 5개의 서비스는 구글이나 페이스북, BBC와 같이 대기업(?)과 관련이 있는 서비스들입니다. 작년에 이름을 올린 서비스도 있고 올해 새롭게 이름은 올린 서비스도 꽤 보이는 군요.

 

Freebase

사용자 삽입 이미지
먼저 Freebase입니다. Freebase는 작년에도 선정되었던 서비스로 개방되어 있는 시맨틱 데이터 베이스입니다. 위키와는 다르게 linked data로 배포 가능한 구조적 형태라는 것이 특징이죠. 2010 googleFreebase를 서비스하고 있는 Metaweb을 인수하면서 Freebase google의 좀 더 지능화되고 고차원적인 검색 결과 제공에 기여를 할 것으로 보입니다.

 

GetGlue

사용자 삽입 이미지
지난 번에 소개 한적이 있는 GetGlue도 순위에 들었습니다. GetGlue는 지난번에 소개한 대로 소셜 데이터를 바탕으로 사용자를 특정 대상이나 미디어에 연결해 주는 서비스입니다(사실 GetGlue Glue라는 이름으로 작년에도 선정되었던 서비스 이기도 합니다). GetGlue 2010년이 전환점이었다고 할 수 있는대요.  2010 GetGlue로 바꾸고 새로운 웹 사이트도 런칭했습니다(웹 브로우저 애드원에서 웹사이트로 서비스로 전환을 했습니다). 이러한 시도로 사용자 수가 2010 9월 말 기준으로 600,000명에 이를 정도로 급격하게 늘었습니다.

 

Flipboard

사용자 삽입 이미지
2010년 아이패드가 런칭한 이후 많은 startup 어플리케이션(뭐라고 번역을 해야할 모호하군요;;) 커뮤니티에는 새로운 바람이 불었습니다. Flipboard startup 어플리케이션 하나로 다양한 매거진을 읽을 있도록 지원하는 어플리케이션 입니다. Flipboard startup 어플리케이션의 특징인 편리한 UI 측면 이외에도 개인화를 위한 시맨틱 기술이 활용되었기 때문에 이번 순위에 포함되었다고 있습니다. Flipboard 2010 6, 지능화된 데이터 파싱 알고리듬를 이용해 실시간 검색 엔진 등을 개발하던 Ellerdale 인수해 Ellerdale 기술을 활용한 사용자들에게 개인화된 매거진을 실시간으로 서비스하고 있습니다.

 

Hunch

Hunch Q&A 서비스로 출발했으나 2010 8월에 개인화 서비스로 전환한 경우입니다. 이미 이전 포스트에서 소개를 한적도 있지요. Hunch는 사용자들에게 20가지의 질문을 한 후 질문 결과에 맞게 프로필을 구성하고 잡지나 TV 프로그램, 책들을 추천해주는 서비스로 인터넷의 모든 사람들에게 인터넷의 모든 개체들을 매핑 시켜 주는 것을 미션으로 삼고 있습니다. Hunch는 사용자들에게 개인화된 서비스를 제공하기 위해 검색 대신 decision tree model 사용하고 있는 것이 특징입니다.

 

사용자 삽입 이미지

Apture

사용자 삽입 이미지
Apture도 작년에 이어 올해도 Top 10에 선정되었습니다(간단하게 Apture에 대해 다시 설명하자면 작성자가 글에 추가적인 정보를 연결할 수 있는 플러그 인을 제공하는 서비스입니다). Apture 2010 8월에 Apture Highlights 라는 플러그인을 새롭게 런칭했는데요. Apture Highlights는 사용자가 어떤 주제에 대해 다른 더 깊게 찾아 볼 수 있는 서비스로 사용자가 위키피디아나 유튜브, 트위터와 같은 웹에서 주제에 대해 자세한 정보를 찾을 수 있는 기능입니다.  초기에 작성자가 특정 주제에 대해 선정한 멀티미디어 자료들을 직접 팝업 형태로 링크하는 방식 이었으나 새로운 서비스로 인해 모든 링크가 자동으로 진행되며 다양한 웹상의 정보를 이용하는 방식으로 장벽이 허물어졌다고 할 수 있습니다. ReadWriteWeb도 현재 Apture의 서비스를 활용하고 있습니다(ReadWriteWeb 포스트의 일부분을 드래그하면 ‘Learn More’라는 작은 창이 뜨는 걸 볼 수 있죠. 이 서비스가 바로 Apture Highlights 서비스입니다).

 

올해도 작년에 이어 일단 선정된 10개 시맨틱 서비스 중 다섯개에 대해서 간단히 소개를 하게 되었내요. 다음 포스트에서는 나머지 5개에 대해서 소개를 하겠습니다.


Posted by

2011/02/08 10:15 2011/02/08 10:15

검색의 미래, 개인화, 정리된 정보, 시멘틱 웹


사용자 삽입 이미지
차정원 창원대학교 정보통신공학과 교수

인터넷이 지금의 위치에 오를 수 있었던 것에 검색이라는 기술이 일조를 한 것은 부인할 수 없을 것이다. 정보의 바다라기보단 데이터 창고인 인터넷에서 정보를 찾기 위해서는 검색이 반드시 필요하다. 그러나 검색 프로그램의 한계와 정보를 찾는 사람들에 미숙함으로 인해서 창고를 헤매는사람들이 더욱 많이 늘고 있다. 구글이라는 독보적인 인터넷 검색엔진이 출현하여 검색시장을 장악하였지만 우리는 아직도 좀 더 똑똑한 검색엔진을 필요로 한다. 때문에 본 글에서는 미래의 검색에 요구되는 사항에 대해서 기술하려고 한다.

검색을 하는 사람들은 사실 자신이 찾고자 하는 것이 명확하게 무엇인지, 또는 어떤 단어로 표현해야 하는지 모르는 경우가 많다. 머리 속에 떠오는 개념 혹은 객체를 우리가 사용하는 단어로 형상화하여 검색을 한다. 그런데 이렇게 생성된 단어가 우리가 정말 찾고 있는 ‘어떤 것’을 잘 설명한다고 말하기에는 부족함이 많다. 때문에 검색시스템은 사용자로부터 보완할 좀 더 많은 정보들을 받아야 한다. 이것이 개인화의 시작이다.

현재 개인화 정보를 검색에 이용하려는 시도는 많이 있다. 대부분 개인의 프로파일을 작성하게한 후 로그인을 통해 검색결과에 반영한다. 이것은 사용자에게 보다 많은 정보를 받아내어 검색에 이용하려는 마이크로소프트 쪽의 방법과 유사하다. 그러나 이것은 사용자에게 상당한 부담이 될 것수도 있다. 생각 해 보라. 검색을 할 때마다 로그인을 해야 한다면 많은 사람들이 중요한 사항이 아니고서는 이용하려 들지 않을 것이다. 따라서 로그인 과정이 없는 개인화 정보사용법에 대한 연구가 필요하다. 이것은 주로 구글 쪽의 방법과 유사한데, 사용자의 검색 패턴을 분석하여 질의어와 검색결과의 선택, 그리고 다수의 행동패턴, 통계적인 기법 등을 같이 사용한다면 가능할 것이다.

또 하나의 시도는 창고에 흩어진 데이터를 정보로 가공하여 서고에 진열하는 것이다. 정리된 데이터가 쌓아 논 파일보다 좋다는 것은 이미 잘 알려진 것이다. 따라서 현재의 많은 정보를 얼마나 잘 조직화하여 사용자에게 제공하느냐가 중요한 요소가 된다. 이것을 위해서는 일반 웹문서로 부터 조직화된 데이터베이스로 자동 생성할 수 있는 기술이 필요하다. 이것은 자연어처리 기술이 해결할 수 있을 것이다. 아직은 그 성능이 완벽하지 않지만 정확하게 추출이 가능한 부분만을 사용하더라도 상당한 검색향상을 가져올 것으로 기대된다.

마지막으로 관심의 대상이 되는 것이 시멘틱 웹이다. 이것은 ‘인간이 읽을 수 있는 문서’ 중심의 현재 웹문서에서 기계가 이해할 수 있는 문서로 전환하여 자동화하겠다는 계획이다. 개념적으로 는 완벽하다고 생각한다. 그러나 여기에는 반드시 해결해야 할 문제가 있다. 그것은 정보의 생성이다. 지금의 웹이 가능하게 된 것은 사용자의 참여이다. 즉, 전문가의 전유물이던 정보의 생산을 일반인들도 자신만이 알고 있는 정보를 사용자들이 생산하게 됨으로써 인터넷이 지금과 같이 풍부해지고 활기차게 된 것이다. 그런데 시멘틱웹은 너무 어렵다. 따라서 사용자의 참여가 제한적일 수밖에 없다. 그렇게 되면 인터넷은 다시 전문가의 영역으로 되돌아가게 된다. 따라서 일반 웹문서를 자동으로 시멘틱 웹에서 사용하는 문서(RDF/OWL, 토픽맵을 이용)로 변환할 수 있는 기술이개발되어야 한다.

지금도 많은 사용자가 정보를 찾아서 창고를 헤매고 있을 것이다. 자연어처리 기술과 정보검색기술에서 선두에 있는 다이퀘스트가 사용자가 쉽게 이용할 수 있는 검색기술의 개발로 많은 사람들의 등불이 되어주길 기대해본다.

Posted by

2008/05/14 16:33 2008/05/14 16:33
, , , , ,
Response
No Trackback , 3 Comments
RSS :
http://blog.diquest.com/rss/response/81

 

Semantic 시대의 준비


사용자 삽입 이미지

지난 2007년 11월에 국내에서는 거의 모든 사람이 생소하다고 느낄 수 있는 제6회 ISWC & ASWC 2007에 참석하고자 부산 BEXCO에 다녀왔다. 본 행사는 차세대 웹 기술의 핵심이라고 할 수 있는 시맨틱웹을 연구하는 전세계 석학들이 모여 논문을 발표하는 행사다. 유럽을 중심으로 전세계에서 시맨틱웹을 연구하는 500여명의 인력이 참가하여 6일간에 걸쳐 논문발표 및 열띤 토의가 이루어졌다. 역설적이지만, 인터넷 비즈니스 선진국임을 항상 외치는 우리나라의 참가자는 한국 부산에서 개최되었음에도 불구하고 10%에도 미치지 못하는 것을 보고 그 의아함을 감출 수가 없었다.

우리나라는 차세대 웹의 핵심인 시맨틱웹에 대한 준비를 하고는 있는 것인가?

1992년 웹을 처음 만들었던 팀 버너스 리가 개발한 하이퍼텍스트(HTML)와 HTTP는 아주 간단한 기술 사양만으로 정보를 연결하고 기술할 수 있다는 점에서 웹은 전 세계적으로 매우 성공을 거두었다. 이것을 토대로 인터넷은 정보소비자와 정보 생산자의 구별을 없애고 정보획득 장벽을 철폐함으로써 정보 유통의 민주화와 대중화, 그리고 비즈니스 차원의 전자상거래라는 거대한 시장을 창출하였다. 인터넷을 통한 정보 유통의 혁명은 사회민주화와 세계화, 그리고 e-비즈니스로 진화하면서 동시에 정보획득 불균형의 확대라는 새로운 문제를 야기했다. 더구나 인터넷에 의해 무차별 배포되는 정보에서 진짜 정보를 찾고 불필요한 정보를 제거하는 것은 현재 인터넷 환경에서는 현실적으로 불가능할 지경이다.

 자신이 원하는 정보만을 원하는 형태로 제공받기를 원하는 인터넷 이용자들에게 인터넷 시스템환경은 서로 호환될 수 있도록 지속적으로 확장되어야 하고 거짓정보와 진짜 정보, 필요한 정보와 불필요한 정보가 뒤섞인 인터넷에서 정보유통의 효율화를 이루면서 정보 이용의 격차를 극복하고 극대화하기 위해 원하는 정보만을 획득할 수 있는 방법론이 제공되어야 한다.

이 일환으로 웹 창시자 팀 버너스 리는 인간뿐만 아니라 기계도 이해할 수 있는 상호 호환성을 위한 시맨틱웹을 제창했다. 시맨틱웹은 정보의 접근 자체에 대한 제약이 없어야 한다는 비전에 근거한다.

현재 시맨틱웹에 대한 연구는 유럽과 미국 선진국을 중심으로 기술 자체의 표준과 필수 구성요소에 대한 연구가 많이 진행되고 있다. 상용화 할 수 있는 시맨틱웹 응용시스템은 개발되지 않았지만, 최근에 시맨틱웹의 가능성을 보여주는 여러 연구가 이루어지고 있다. 주목할 부분은 이러한 연구 중 현재 유럽에서는 EU 지원을 기반으로 SUPER(Semantic Utilised for Process Management within and between Enterprise) Project를 통해 시맨틱웹 기술을 이루는 구성요소들을 활용하는 서비스나 기업간 비즈니스 프로세스 연계 서비스를 국가차원에서 개발하고 있다는 사실이다. EU에서는 단순히 시맨틱웹 기술개발뿐만 아니라 기술을 활용할 수 있는 연구를 진행하고 있는 상황이다.

요즘 한국에서는 ‘공학’은 있지만 ‘기초과학’은 죽었다는 말들을 흔히 듣는다.
한국 기업들이 ‘당장 수익이 창출되는’ 공학 분야에는 많은 투자를 하지만, ‘수익을 내기 위해서는 많은 시간이 소요될 수 있는’ 기초과학 분야에는 큰 관심을 기울이지 않기 때문에 나온 말일 것이다.

한국 IT 산업계에도 이와 비슷한 현상이다.
세계적인 IT산업 강국이라는 허울 좋은 이름 뒤에 프로그래머는 있어도 프로그래밍 언어 개발자는 없고, 게임 개발자는 많아도 게임 엔진 개발자는 턱없이 부족하고, 검색/포털 사이트는 많이 있어도 검색엔진을 만드는 회사는 거의 없다는 현실이 있다.

한국이 세계 IT업계를 선도하는 기술력을 보유하기 위해서는 바로 IT의 기초과학이라고 할 수 있는 기본 이론과 알고리즘 연구에 투자해야 한다. 지금 세계는 새로운 차세대 Web 환경을 제공하는 시맨틱웹에 주목하고 있다. 비단 유럽과 미주의 선진 시장 환경과 비교하기에는 국내 환경이 턱없이 부족하지만, 시맨틱웹 환경에서 기술의 주도권을 행사하기 위해서는 시맨틱웹 기본 이론과 알고리즘 연구에 대한 투자와 시맨틱웹 어플리케이션 개발이 선행되어야 할 것이다.

웹과 시맨틱웹을 주창한 팀 버너스 리가 예견한 시맨틱웹의 활성화 시기는 2010년 전후이다. 미래의 신 성장 동력 비즈니스에 대비하는 기업이라면 향후 기업간 정보시스템에 중요한 영향을 미칠 시맨틱웹과 이를 활용하는 방안에 대해서 관심을 갖는 것이 필요하다.

자연어 처리 기술과 정보검색 기술에서 선두에 있는 다이퀘스트가 과거 알렉산드리아 도서관이 세계적인 지성인들의 메카(Mecca)가 되었던 것처럼, 의미기반 검색기술에 대해 끊임없는 연구/개발로 방대한 정보 가운데 정확한 정보를 찾고 분석하고자 하는 욕구를 가진 오늘날의 지성인들이 가장 많이 사용하는 검색엔진이 되기를 기대한다.

Posted by

2008/03/25 10:04 2008/03/25 10:04
, ,
Response
225 Trackbacks , 2 Comments
RSS :
http://blog.diquest.com/rss/response/35


블로그 이미지

-

Notices

Archives

Authors

Calendar

«   2012/02   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      

Site Stats

Total hits:
207017
Today:
166
Yesterday:
337