::

ReadWriteWeb에서 선정한 2009년 베스트 시멘틱웹 서비스에 대한 포스트가 있어 소개할까 합니다. 2009년 내용인데 소개가 조금 늦었군요; 2009년의 시멘틱 웹의 대표적 이슈라고 하면 단연 Linked data라고 할 수 있겠죠. 그래서 ReadWriteWeb에서 선정한 서비스도 data와 관련된 서비스들이 많습니다( data를 다른 dara와 연결하고 data를 공유하는 등의 서비스 지요). ReadWriteWeb이 이번에 선정한 서비스들이 W3C에서 90년도에 예상했던 그런 시맨틱 서비스가 아닐지 몰라도 웹은 분명히 더 시멘틱 웹의 방향으로 가고 있다는 것이 더 중요하다고 이야기하고 있습니다.

 

Google Search Options and Rich Snippets

첫번째 선정된 서비스는 구글의 Search Option Rich Snippets 서비스입니다(구글은 매번 포스팅 때마다 빠지지를 않는 군요). Search Option이야 data와의 공유와는 조금 거리가 있는 검색 결과 클러스터링으로 생각되지만 Rich Snippets 서비스의 경우는 RDFa 기반의 구조화된 data 사용합니다.
 

 

 

위 스크린 샷의 빨간 원안과 같이 웹 사이트로부터 유용한 정보를 추출해 보여주는 서비스가 바로 Rich Snippets 서비스입니다. 사용자들이 상품등을 찾을 경우 사용자들이 Review나 상품에 대한 평점을 쉽게 찾을 수 있으며 사람을 검색 할 경우에도 동명이인을 구분할 수 있는 서비스 이죠. 해당 웹페이지에 RDFa 삽입되어 있으면 구글은 이를 위처럼 보여주는 방식입니다.

 

Feedly

Feedly 2008년에 런칭한 서비스로 Feedly mini를 릴리즈 한 후에 인지도가 높아졌습니다. Feedly mini는 화면 아래에 바 형태의 인터페이스를 통해 사용자들이 웹을 서핑할 수 있도록 지원하는 서비스로 Twitter, FriendFeed, Google Search, Mozilla's Ubiquity 등이 연계되어 있습니다. 해당 웹페이스에 대한 메타 데이터을 이용한 data 공유라는 측면에서 베스트 10 시맨틱 서비스에 선정 된듯합니다. 대략적으로 어떤 서비스를 제공하는지는 아래 스크린 샷을 통해 알 수 있습니다.


 

Apture

세번째 서비스는 Apture라는 서비스 입니다. Apture는 작성자가 글에 추가적인 정보를 연결할 수자있도록 지원하는 자바스크립트 플러그인입니다. 여기서 이야기하는 추가적인 정보를 연결한다는 이야기는 다른 페이지로의 일반 하이퍼 링크가 아니라 예를 들어 노무현 전 대통령에 대한 동영상 자료, 일대기 등의 정보를 팝업 형태로 보여주는 것을 의미합니다. 뭐 아래 스크린 샷을 보시면 더 명확하겠내요.

 

 


문서에 Amy Klobuchar이라는 사람이 등장하고 이를 클릭했을 경우 제공되는 팝업 정보입니다.

 

Zemanta

Zemanta는 블로거들의 포스트 작성을 도와주는 실시간 시멘틱 분석도구 라고 설명하고 있습니다. 간단히 풀어서 이야기하면 작성 중인 텍스트를 분석하여 연관 있는 링크나 사진 등을 제공하는 소프트웨어라고 설명할 수 있겠내요. 아래에 있는 동영상을 보시면 자세히 이해 될실 듯합니다.

 

Zemanta in 60 Seconds from zemanta on Vimeo.


 

Open Calais 4.0

다섯 번째 서비스는 Calais 4.0입니다. Calais 4.0는 블로그나 CMS(Content Management System), 웹사이트 등에서 최고 수준의 시맨틱 측면의 기능을 활용할 수 있도록 지원하는 도구로 예를 들어 콘텐츠에서 사람, 장소, 기업, 등을 분류하고 이와 관련된 정보를 Linked data를 이용해 연결할 수 있도록 지원하는 도구입니다.  Calais와 같은 경우는 Linked data를 사용하는 상용화된 톨킷이라는 측면에서 상징성을 가지고 있습니다. 저도 이런 점에서 상당히 고무적이라고 생각되고 향후 조금 더 자세히 소개해볼까 하는 생각입니다.

 

일단 선정된 10개 시맨틱 서비스 중 다섯개에 대해서 간단히 소개를 해드렸내요. 다음 포스트에서는 나머지 5개에 대해서 소개를 하겠습니다.

About.com에서 검색엔진 베스트 10에 대한 포스트가 있어 소개를 할까 합니다. 검색엔진의 검색 결과, 인터페이스, 검색 범위의 세가지 기준으로 검색엔진 베스트 10을 선정했습니다. 사실 베스트 10이라고 하니 왠만한 검색엔진은 다들어 가는 군요. 베스트 10은 아래와 같고 순서는 순위와 무관합니다.

사용자 삽입 이미지
첫번째는 Clusty 검색엔진입니다. Vivísimo에서 개발한 검색엔진이고 지금은 yippy에서 서비스 하고 있죠. Clusty의 장점이라고 하면 Deep web에 대한 검색이라고 할 수 있습니다. 일반 웹 수집 로봇으로는 가지고 오지 못하는 Deep web에 대한 검색을 수행할 때 아주 유용하다고 이야기하고 있습니다.

사용자 삽입 이미지
두번째는 Cuil 검색엔진이내요. 구글의 이전 스태프에 의해 만들어진 검색엔진으로 알려져 있죠. Cuil 같은 경우 검색 결과를 카테고리로 분류해서 제공합니다. 때문에 인기도나 발생한 날짜 순으로는 정렬할 수 있는 기능은 없지만 특정 주제에 대해서 검색을 원하는 사람에게는 도움이 된다고 합니다(예를 들어 Korea라고 검색 했을 경우 한국의 대통령, 도시, 경제인등의 정보를 함께 제공합니다).

사용자 삽입 이미지
다음은 DuckDuckGo.com입니다. 한번 사용해보시면 알겠지만 구글보다 더 깨끗합니다. DuckDuckGo의 특징이라고 하면 상당히 엄격한 검색엔지이라고 할 수 있습니다. 확연한 타 엔진과의 차이라면 예를 들어 화두가 되고 있는 Semantic web이라고 검색했을 경우 검색 결과 상단에 Official site라는 제목으로 w3c의 semantic web 공식 사이트가 나옵니다. 이는 제목으로 브라우저의 타이틀 부분을 보여주는 구글과의 차이를 보여주는 점입니다. 어쨌던 과장이 섞이긴 했지만 사용자가 원하는 정보를 첫번째 검색 결과 페이지에서 제공할 수 있다고 합니다.

사용자 삽입 이미지
Webopedia가 네번째 검색엔진입니다. Webopedia는 컴퓨터나 기술용어 도메인에 대한 검색엔진으로 기술이나 컴퓨터 부분에 대해서 잘 모르는 분이라면 도움을 줄 수 있습니다. 사실 개인적인 생각으로는 검색 엔진이라기 보다는 일반적인 서비스 사이트 같다는 느낌을 지울 수가 없내요.

사용자 삽입 이미지
다섯번째는 Yahoo입니다. Yahoo야 많은 분들이 알고 있다시피 검색엔진은 물론, 뉴스, 쇼핑센터, 메일, 게임, 심지어 별점까지 서비스하는 포털입니다. 이런 포탈 적인 측면에서 인터넷이 서투른 초심자에는 도움이 될 것이라고 이야기 하고 있습니다.

사용자 삽입 이미지
작년에 서비스를 시작한 마이크로 소프트의 Bing이 여섯번째 입니다. 구글에 대항하기 위한 검색 엔진으로 많이 알려져 있죠. ‘decision engine’으로 현재 이야기 하고 있으며 Bing 검색 결과 왼편에 다양한 검색 옵션을 제공함으로써 사용자들을 지원하고 있습니다(사실 왼편에 검색 옵션을 두는 건 네이버나 구글도 하고 있는 서비스죠). 뭐 구글을 왕의 자리에서 끌어 내리지는 가능성은 크게 안 보이지만 시도는 의미가 있어다고 보이내요.

사용자 삽입 이미지
오랫동안 서비스를 해온 ask.com이 7번째입니다, 구글이나 Bing과 유사하게 다양한 검색 옵션을 제공할 수 있으며 특히 검색 결과를 그룹핑 기능은 구글이나 Bing이 서비스하지 않는 ask.com의 특징이라고 할 수 있습니다.
검색 결과 화면도 Bing이나 구글보다 읽기 쉽고 깨끗합니다.

사용자 삽입 이미지
8번째 검색엔진은 Mahalo라는 검색엔진입니다. Mahalo는 ‘human-powered' 검색엔진이라는 것이 특징이죠. 많은 사람들이 직접 콘텐츠를 편집하고 정제하기 때문에 검색 결과는 적지만 양질의 검색결과를 제공할 수 있다고 하나 사실 제 생각으로는 봤을 때는 검색엔진이 아니라 그냥 네이버 지식인 서비스 같습니다.

사용자 삽입 이미지
The Internet Archieve가 9번째 검색 엔진입니다. Internet Archiev의 특징이라고 하면 과거 문서에 대한 검색 기능입니다. 예를 들어 날짜를 지정해 2005년 근방의 태풍 카트리나에 대한 웹 문서만을 검색 할 수 있습니다.


사용자 삽입 이미지
마지막은 검색 엔진의 왕이라고 할 수 있는 구글입니다. 야후와 같은 포털 서비스는 물론 검색 엔진도 빠르고 강력하죠. 게다가 많은 새로운 웹 기술을 적용한 서비스도 많이 공급하는 편이죠(너무 실험적인 측면으로만 접근한다는 비판도 있습니다).

길고 긴 검색엔진 베스트10 소개가 끝났군요. 소개한 10개의 검색엔진으 점유율은 사용자들의 전체 검색 엔진 사용량의 99%에 근접한다고 하는 군요(물론 미국내에서 이겠죠) 

출처: http://netforbeginners.about.com/od/navigatingthenet/tp/top_10_search_engines_for_beginners.htm

오늘은 ReadWriteWeb에 구글에서 현재 진행중인 핵심 프로젝트 3가지에 대한 내용이 있어 소개를 할까 합니다. 구글의 부사장 Mayerstoday's UK Telegraph와 검색의 새로운 방식을 위해 현재 구글에서 진행하고 세가지 프로젝트에 대해 인터뷰한 내용으로 세가지 프로젝트는 ‘Translated Search’, ‘Social Search and Personalization’, ‘Intuitive Search’ 라고 이야기 하고 있습니다.

1. Translated Search

Translated Search는 말 그대로 변역과 관련된 부분으로 입력한 검색 쿼리를 다국어(모든 언어라고 이야기 하고 있으며 구글에서 현재 서비스 하고 있는 일반 웹사이트에 삽입할 수 있는 번역 가젯을 보니 51개의 다국어를 지원하고 있군요)로 바꿔 줌으로써 언어에 구애되지 않고 모든 정보를 이용할 수 있도록 한다는 것에 목적을 두고 있습니다. 물론 검색 결과에서도 사용자가 무리 없이 원하는 정보를 찾을 수 있도록 검색 결과와 검색 결과에서 선택한 웹페이지도 번역하는 것도 포함합니다. 목적은 공감이 되는 대 과연 정확도가 얼마나 나올지는 의문부터 드는 군요(얼마전 한 아마존 구매대행 사이트에서 기타라고 쳤더니 more로 번역되어서 검색 쿼리를 날리더군요). 뭐 어쨌든 구글은 상당히 긍정적으로 보고 있습니다. 언어 때문에 정보를 이용하지 못했다는 이야기는 이제 상당히 부끄러운 이야기가 될거라고 말한 걸 보면요.


2. Social Search and Personalization

두번째는 Social Search and Personalization입니다. 이건 개인화 검색과 소셜 검색에 관련된 이야기입니다. 구글은 소셜 네트워크를 개인화 검색을 위한 핵심 요소로 보고 있으며 현재 구글은 개인 정보 공개로 해둔 사용자/지멜일에서의 주소록, 채팅 상대, 구글 리더, 구글 프로파일 등을 이용해 생성한 소셜 네트워크 프로파일의 사용자들에 대한 업데이트된 내용, 정보 등을 포함하고 있다고 합니다. 궁극적인 이상은 사용자들의 친구(/오프라인 상의 실제 친구)들에 대한 업데이트된 내용, 정보를 제공하는 것이라고 합니다. 하지만 구글과 페이스북의 완전한 연동은 현재는 어렵다고 합니다. 이는 MS(bing)가 페이스북의 큰 투자자이기 때문이라고 말하고 있습니다. 사실 페이스 북의 창업자인 마크 주거버그는 빌 게이츠와 유사한 면(둘다 하바드 중퇴생이죠)도 많고 사실 제 2의 빌게이츠라고도 불리니 왠지 구글 보다는 MS가 더 어울리긴 하내요).


google_social_search_nz_example.jpg


3. Intuitive Search

마지막으로 Intuitive Search입니다. 사용자들에게 맞는 검색 결과를 제공(추천)하는 우리가 말하는 개인화 검색으로 생각됩니다. 사용자들의 현재 정보를 이용해 그에 따른 검색 결과를 제공하는 것으로 'omnivorous' search라고 설명하고 있습니다. , 사용자들이 어디에 있는지, 어떤 것을 읽고 있는 지와 같은 것을 인식(Context aware)하고 그에 따른 검색 결과를 제공하는 기술입니다. 구글의 모바일 검색에서 이미 자동으로 가까운 식당을 찾아주는 서비스도 지난주에 데모 했다고고 합니다. 뭐 어찌되었든 검색 쿼리가 너무 짧으니 사용자들의 정보(위치 정보, Click-stream history )을 활용해 적합한 쿼리는 추출해서 검색을 수행하겠다 라고 하는 내용이고 가까운 미래에 곧 실현 될 것이라고 이야기 하고 있습니다.

출처: http://www.readwriteweb.com/archives/3_new_forms_of_search_that_google_is_working_on_no.php?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+readwriteweb+(ReadWriteWeb)

comScore.com 1월에 2009년 검색 통계와 관련된 보고서를 발표했었습니다.  이 보고서에 따르면 2009 15세 이상의 전세계 인터넷 사용자들이 검색한 건수는 약 1,310(131 billion)번 이상이며 이는 작년 같은 기간 대비 46% 증가한 수치입니다. 조금 더 구체적으로 살펴 보면 하루 40억번의 검색이 이루어지며 시간당 1 7500(175 million), 분당 290(2.9 million)번의 검색이 이루어지고 있다고 합니다.

국가별로 살펴보면 역시나 미국이 가장 검색건수가 많으며 전세계 검색건수의 약 17%정도를 차지하고 있습니다. 중국, 일본, 영국이 그 뒤를 차지하고 있으며 한국의 검색건수는 작년 대비 44% 증가 했으며 7위에 랭크되어 있습니다(IT 강국의 면모를 보여주고 있군요). 상위 10개국 중에서는 10위에 랭크된 러시아가 작년 대비 92% 검색 건수 증가로 가장 많이 증가했습니다.

검색 건수가 많은 사이트 순위를 살펴봐도 검색 건수가 많은 국가들의 대표 포털들이 랭크되어 있습니다. 1위는 역시나 구글입니다. 작년보다 46% 증가했으면 무려 전세계 검색 건수의 66.8%를 차지하고 있습니다. 2위는 일본시장에서 가장 점유율이 높은 야후이고 3위는 중국의 Baidu.com입니다. 국내의 네이버(NHN Corporation) 6위로 작년 대비 9% 증가했습니다. 증가율이 낮은 것은 국내에서 지나치게 점유율이 높은 상태에서 해외 사용자들을 새롭게 확보하지 못했기 때문으로 판단됩니다(중국의 Baidu.com도 마찬가지의 이유로 7% 증가했습니다). 특이하게 소셜네트워크 업체인 Facebook8위에 랭크되어 있습니다. 역시 Facebook은 웹 2.0 등장 이후로 가장 성공한 사이트라고 할 수 있겠내요.

Top 10 Countries by Number of Searches Conducted*
December 2009 vs. December 2008
Total Worldwide, Age 15+ - Home & Work Locations
Source: comScore qSearch
  Searches (MM)
Dec-2008 Dec-2009 Percent Change
Worldwide 89,708 131,354 46%
United States 18,688 22,741 22%
China 11,778 13,278 13%
Japan 6,213 9,170 48%
United Kingdom 4,623 6,245 35%
Germany 4,079 5,609 38%
France 3,362 5,425 61%
South Korea 2,796 4,039 44%
Brazil 2,454 3,763 53%
Canada 2,900 3,710 28%
Russian Federation 1,735 3,333 92%

*Searches based on “expanded search” definition, which includes searches at the top properties where search activity is observed, not only the core search engines.

Top 10 Search Properties by Searches Conducted
December 2009 vs. December 2008
Total Worldwide, Age 15+ - Home & Work Locations
Source: comScore qSearch
  Searches (MM)
Dec-2008 Dec-2009 Percent Change
Worldwide 89,708 131,354 46%
Google Sites 55,638 87,809 58%
Yahoo! Sites 8,389 9,444 13%
Baidu.com Inc. 7,963 8,534 7%
Microsoft Sites 2,403 4,094 70%
eBay 1,327 2,102 58%
NHN Corporation 1,892 2,069 9%
Yandex 992 1,892 91%
Facebook.com 1,023 1,572 54%
Ask Network 1,053 1,507 43%
Alibaba.com Corporation 1,118 1,102 -1%

*Searches based on “expanded search” definition, which includes searches at the top properties where search activity is observed, not only the core search engines

출처: http://www.comscore.com/Press_Events/Press_Releases/2010/1/Global_Search_Market_Grows_46_Percent_in_2009

오늘은 구글의 Matt Cutts 이야기하는 2010년 검색 트랜드가 있어 전해드립니다. 크게 다섯 가지로 이야기 하고 있으며 클라우드 컴퓨팅 검색 같은 경우는 아직 국내 검색 엔진 업체에서 크게 고려하지 않고 있는 부분 같아 보입니다.

 
1. New Types of Data Searches.
첫번째 이야기하는 트랜드는 데이터의 종류에 따른 검색의 세분화입니다. 일반적인 웹 검색 엔진 같은 경우 현재 웹 데이터가 기하급수적으로 많아짐에 따라 데이터 오버로드가 심한 상황이라고 하는대요. 이를 위해 구글에서는 현재
Google Book Search, Google Patent, Google Government Search, Google Blog Search 등으로 정보의 타입 별로 검색을 나누고 카테고리화 하는 중이라고 이야기 하고 있습니다.

 

2. Semantic Web Search. 요즈음 네이트 시맨틱 검색으로 인해 국내에서도 이슈가 되는 시맨틱과 관련된 이야기입니다(사실 시맨틱과 관련된 이야기는 2000년대 초반부터 이야기 되고 있었지만 국내에서 시맨틱이라는 단어가 관련 연구자가 아닌 일반 사용자들에게까지 이야기 되는 최근이지요). 어쨌건 구글의 검색엔진은 점점 정교해 지고 있으며 사용자가 검색어를 입력했을 구글의 검색 엔진은 사용자가 입력한 검색어에 대한 동의어, 자연어 분석, 사용자의 의도까지 모두 고려한 검색결과를 사용자에게 리턴하고 있습니다.

 

3. Cloud Computing Search. 요즘 클라우드 컴퓨팅에 대한 이야기가 많이 나오고 있습니다. 클라우드 컴퓨팅를 이용하는 국외 사례도 늘고 있으며 이러한 추세를 국내에서도 조금씩 활성화되지 않을까 조심스럽게 이야기 해봅니다. 어찌되었건 클라우드 컴퓨팅이 활성화됨에 따라 클라우드 컴퓨팅 환경에서의 검색 역시 중요한 이슈로 떠오를 것이라고 구글은 전망하고 있습니다.

 

4. Real Time Search Engines. 실시간 검색과 관련된 이야기입니다. 새롭게 등록되거나 수정된 정보를 검색에 빠르게 반영해야 한다는 당연한 소리이지요. 지정된 DB 대한 실시간 검색이 아니라 환경에서의 실시간 검색에 대해서는 연구가 필요한 부분이지요.

 

5. Mobile Web Search. 마지막으로 모바일 검색입니다. 국내에서도 아이폰 도입으로 인해 스마트폰 사용자가 점점 늘어나는 추세이고 이들을 위한 모바일 웹의 특징을 고려한 검색 서비스를 지원해야 합니다.



원문  http://www.skipease.com/blog/google-news-tips/google-search-engine-trends-2010/

readwriteweb에 시맨틱 검색 엔진 Noesis에 대한 소개 글이 올라왔군요.
번역하여 올립니다.


생산적인 시맨틱 검색 도구

Written by Sarah Perez / January 14, 2009 8:01 AM


노에시스는 원하는 연구자료를 좀 더 쉽고 빠르게 접근하고 얻을 수 있는 과학자들의 연구 지원 환경이다. 미국 헌츠빌의 University of Alabama에서 개발된 이 엔인은 과학자들과 연구자들이 어디에 있든지 간에 노에시스를 이용한 시맨틱 기술을 이용하여 보다 생산적이면서도 집중적인 검색을 제공한다.



노에시스 소개

노에시스 검색엔진은 기존 검색엔진과 다른데 이는 사용자가 자신의 검색 쿼리를 스스로 만드는데 있어 시맨틱 기법을 도입했기 때문이다. 이러한 방법의 도입은 더 나으면서도 더 정확하고 더 완벽한 검색 결과를 산출하는데 도움을 준다. 이 검색 결과들은 필요한 경우 노에시스를 사용하는 최종 사용자에 의해서 더욱 더 정제될 수도 있다.

노에시스 프로젝트의 최종 목표는 기상학 분야에서 연구하는 과학자들에게 그동안 검색 엔진에서 접근할 수 없었던 웹 상의 숨은 과학적 목록에 대한 접근성과 검색성을 제공하는데 있다. 왜냐하면 이러한 목록들은 대개 일반적인 어휘집에 바탕하고 있으나 실제 검색에 영향을 주는 경우는 특징적인 전문용어를 사용할 때 검색 결과가 매우 정확하게 나타나기 때문이다.

노에시스를 만들기 위해서 연구자들은 단순히 자신들의 특정한 용어들을 온톨로지에서 주석을 달아주기만 하면 된다. 물론 이러한 주석만으로는 시맨틱 검색 엔진이 할 수 있는 것은 아무것도 없다. 이러한 온톨로지는 이를 이용하고 검색할 수 있는 도구와 반드시 연동되어야 한다. 이를 위해서 노에시스는 Ontology Interface Service(OIS)라 불리는 환경을 도입하였다. SOAP 기반의 웹 서비스 인터페이스며 추론 엔진이다. 사용자가 검색을 수행하면, OIS는 이와 관련된 개념을 검색한다. 세분화와 일반화를 통하여 트리 형태의 정보 구조를 도출하며, 사용자는 이를 통하여 검색을 진행할 수 있다. 동의와와 연관 검색어들 또한 보여질 수 있으며, 체크박스를 통하여 본디 검색 결과를 세분화 할 수 있는 방법을제공한다.

비록 이 프로젝트는 과학의 한 분야를 위하여 설계되었지만, 이 프레임워크는 다른 분야로 쉽게 이전될 수가 있다.



시맨틱 웹: 니치 마켓(소규모 시장)에서 더 나은가?

오늘날 시맨틱 웹의 가장 큰 문제점은 앞서 언급한 온톨로지를 누가 어떻게 구축을 할 것이냐 하는 점이다. 사람이 표현하는 짧은 질의어에서 사용자가 내재적으로 의도하는 바를 기계가 빠르고 쉽게 자동적으로 파악하는 아주 명확한 방법이 아직까지는 존재하지 않는다. 현재는 이러한 방법을 자동이든 반자동이든 적어도 이를 구체화 시켜 내어놓은 솔루션은 없는 상태며, 따라서 진정한 의미의 인텔리전트 웹으로 인식될 수 있는 그 어떤 진척도 아직까지는 없는 실정이다.

현재로써 가장 현실적인 것은 다양한 웹 정보에 수작업으로 조금씩의 코드를 삽입하는 것 밖에는 없을 것이다. 분명하게, 이는 현재 인터넷의 크기를 감안한다면 분명 대단한 도전이 될 것이다. 지금 현재 웹 정보의 증가 속도로 볼 때 이러한 것은 완전히 불가능한 것일지도 모른다. 불행하게도, 자동화 방법론 없이는 진정한 시맨틱 웹은 여전히 인식되지 않는 꿈으로 남을 수 밖에 없을 것이다.

그렇지만, 좀 더 작은 커뮤니티에서는 시맨틱 웹은 쉽게 현실이 될 수 있다. 과학 정보 카탈로그들은 웹에서 차지하는 정보의 분량이 크지 않다. 이들의 제한된 크기의 정보는, 그들이 관리할 수 있는 수준의 제한된 정보량을 제공할 것이다. 그리고 그 실례가 바로 노에시스다. 이 시스템은 앞으로 시맨틱 웹이 앞으로 어떤 방향으로 나아가게 될 것인가를 보여주는 좋은 예다. 만약 이 범위가 작은 니치 마켓에 머무른다면 말이다.



출처: http://www.readwriteweb.com/archives/a_productive_application_of_semantic_search.php




원문

A Productive Application of Semantic Search

Written by Sarah Perez / January 14, 2009 8:01 AM /

class=clear>

Noesis is a new semantic web search engine that helps scientists studying the environment access and retrieve the research data they need. Developed at the University of Alabama in Huntsville, the new engine has the potential to enable scientists and researchers everywhere to perform more productive and focused searches thanks to the semantic technology Noesis uses.

About Noesis

The Noesis search engine (PDF) is different than regular search engines because it employs the use of semantics to help its users better shape their search queries. The results of this lead to better, more accurate, and more complete sets of search results. Those results can then be refined even further by Noesis' end users if necessary.

The goal of the Noesis project is to provide scientists working in the field of Atmospheric Science a way to better search through the "hidden web" of scientific catalogs that traditional search engines cannot reach. Because these catalogs are built using a standard vocabulary, the most efficient searches on the catalogs involve using specific terminology.

To create Noesis, researchers simply annotated those specific vocabulary terms with ontologies - the machine-readable definitions for the words that help computers understand the concept of the term and its relationship to other terms. Of course, annotations alone do not make a semantic web search engine. The ontologies must be coupled with a tool that's capable of searching through them. To that end, Noesis employs something they call the Ontology Interface Service (OIS), a SOAP-based web service interface to an inference engine. When a user performs a search, the OIS is also immediately searched for associated concepts. The Specializations and Generalizations discovered are returned in a tree structure which the user can navigate further. Synonyms and related terms are also shown, and, using checkboxes, they can be appended to the original query to refine it further.

Although the project was designed for use in one select area of science, its framework could easily be replicated in other scientific fields of study.

The Semantic Web: Better in Niches?

The main problem with the semantic web today is that the assignment of those above-mentioned ontologies - the pieces of code that allow machines to grasp meanings that humans innately understand - is that there's no solid way to automate their assignment. At the present time, no automatic or semi-automatic processes to do so have been achieved...at least, not to the point that a true vision of a new, intelligent web can be realized.

Most of the time, annotating web resources must be done using manually inserted bits of code placed into various web pages. Obviously, that's a challenge when you consider the size of the internet - it would be impossible to manually annotate this ever-growing resource. Unfortunately, without automated methodologies, a true semantic web will remain an unrealized dream.

However, in smaller communities, the semantic web can easily become a reality. Scientific data catalogs only represent small portions of the web as whole. Because of their limited size, manually annotating the resources they contain is a manageable feat. This is the case with Noesis. It shows there is promise for the semantic web after all - if only in small niches.


-웅차장-

정보량의 급격한 증가와 정보의 효율적 활용을 위해 검색의 중요성이 날로 증대되는 요즈음, 주요 플랫폼으로 진화하고 있는 검색의 2009년 기술트랜드를 미리 점쳐보는 설문조사 결과가 나왔습니다.

이 설문은 지난 9월 2일에 개최되었던 Search Technology Summit 2008(이하 STS2008) 참가자중 약 500여명을 대상으로 진행한 것으로, 설문응답자의 약 80%이상이 기업종사자입니다.

설문내용은 행사 만족도와 시장상황을 파악하기 위한 문항들로 이루어졌는데, 우선 참가자들은 2009년 검색시장에서 가장 주목받을 기술로 "시맨틱-35%와" "개인화-20%"를 꼽았습니다. 이를 반증하듯 STS2008에서도 시맨틱 검색 및 요소기술에 관련된 세미나가 참가자들의 많은 관심과 만족도를 얻었습니다

시맨틱 검색은 앞으로 검색서비스가 나아가야 할 이상향은 맞지만 관련 시스템과의 완벽한 Interaction을 구현하기에는 현 기술에 한계가 있어 앞으로 지속적으로 관심을 갖고 연구개발해 나갈 분야입니다.

더불어 2008년에 멀티미디어 검색과 함께 가장 많이 이슈가 되었던 개인화 검색도 그 열세를 2009년까지 이어갈 것으로 예상됩니다. 개인화의 강세는 비단 검색분야뿐 아니라 UI, 유비쿼터스 등 IT관련분야에서 가장 중요한 핵심 키워드로 자리매김하고 있는 키워드이기도 합니다.

눈여겨 보아야 할 것은 2008년의 뜨거운 감자였던 멀티미디어 검색이 전체 응답중 7%를 얻었다는 것입니다. 분명 멀티미디어 검색은 인터넷 발달로 인한 블로그의 급부상, 1인 미디어 소유로 인한 멀티미디어 컨텐츠 생성과 유통의 자유로움 등으로 차세대 검색기술임에는 분명하지만 이번 설문결과의 이유를 유추해보자면, 뜨거운 감자였던 반면 실제 구현된 멀티미디어 컨텐츠 검색기술에 대한 적날한 한계가 사용자들의 관심을 멀어지게 한 것으로 보입니다.

현재 동영상 검색등과 같은 멀티미디어 컨텐츠 검색기술(혹은 서비스)가 2008년에 속속 출시되었지만 검색시스템의 기본이라 할 수 있는 정확도와 속도가 낮아 이용자들의 신뢰도를 잃기도 했습니다.

사용자 삽입 이미지

다음으로 검색솔루션 도입시 가장 중요시 여기는 요인은 무엇입니까? 라는 질문에 저의 예상을 무참히 깨고 제품성능/BMT가 51.6%로 1위를 차지했습니다.

실제 프로젝트 사업자로 선정되기 위해서는 제품의 Qulity도 중요하지만 가격도 무척 중요합니다. 아마도 설문이라는 특성상 현실적 대안보다 이성적 대안에 많은 분들이 응답하신것 같습니다.

제품성능/BMT 다음으로 검색업체의 구축서비스/컨설팅을 중요시한다는 응답이 16.5%였으며 가격이 5.5%로 3위를 기록했습니다.
사용자 삽입 이미지


조직내 검색의 중요성(역량)을 묻는 질문에서는 높다는 긍정적 응답이 46%이상을 차지해 검색업체 종사자로써 시장의 비전을 확인하는 듯해 매우 기분이 좋았습니다.

검색솔루션은 국내 SW시장에서 유일하게 외산SW를 제치고 80% 라는 압도적 M/S를 보유하고 있는 기이한 곳이지만, 실제 시장에서는 제품의 중요성에 비해 저평가되고 있는 실정입니다. 검색시장의 전체 발전과 고객들의 올바른 인식고취를 위해 경쟁사간 협력하여 개최한 STS2008과 더불어 본 설문조사와 같이 이용자들이 검색솔루션의 중요성과 가치를 점점 더 높여갔으면 좋겠습니다.

사용자 삽입 이미지

-만월-
Microsoft Research는 항상 새로운 기술들을 많이 개발하고 있습니다. 이번에 U Rank라는 방식을 선보였는데 기존에 구글이 연구하던 Google + Digg 방식의 검색과는 좀 다릅니다. 검색 결과를 다른 사람들과 함께 나눌 수 있고 여기에 랭킹을 튜닝할 수 있다는 점이 좀 다르다고나 할까요.

앞으로는 랭킹을 사용자가 조정할 수 있도록 도와주는 것, 그리고 이러한 정보를 잘 수집하여 profile로 만들고 다른 검색결과에도 영향을 줄 수 있도록 하는 것이 중요해질 것 같다는 생각입니다.

물론 아직까지는 prototype입니다.

-웅차장-



Microsoft Research just announced the release of a new experimental search engine interface with a focus on personalization and social networking. U Rank allows you to reorder your searches, add notes, create lists of results, and share your personalized search results with your friends. The search results look like they are drawn directly from from Microsoft Live Search. Microsoft has created a short screencast that demonstrates U Rank's functionality in detail.

Sponsor

Definitely Not Google+Digg

The main feature of this new search interface - the ability to reorder search results at will - is decisively different from the rumors about a digg-style Google interface that tend to reappear regularly. In U Rank, your changes only appear to your friends and don't influence the overall search index.

The emphasis of U Rank is on collaboration and sharing. U Rank keeps a history of all your searches, but these are not shared by default. U Rank also allows you to create lists of search results by allowing you to copy a given search result to another search. You could, for example, create a list of personalized search results for a search term like "Best Digital Camera."

사용자 삽입 이미지

Definitely Still a Prototype

U Rank is clearly still a prototype. Search results take a long time to load, and some very basic user interface issues clearly still need to be worked out. There is, for example, no way to move a search result from the second search page to the first, and the interface for dragging and dropping items sometimes doesn't work well. To be really useful, it would also be helpful if you could organize your friends into groups, so that you can share your searches on lists more selectively.

However, this is also a very interesting experiment that takes search into a different direction by putting a lot of emphasis on social interaction. If your searches tend to be very broad, you would probably have to have a lot of friends to ever encounter an annotated or reordered result, but we can see how this new interface could be very useful if you are working in a team that is focused on a very specific topic.

출처: http://www.readwriteweb.com/archives/microsoft_u_rank_a_new_and_personalized_search_engine.php

노르웨이 경찰, Fast에 대해 압수수색

올초 MS가 인수한 Fast에 대해서 부정회계 혐의로 압수수색을 실시했다고 합니다. 이에 대해서는 얼마전 웅차장이 보고하기도 했습니다만, 퇴사한 직원이 재입사한 회계법인에  회계감사를 맏기거나, 데모로 설치해주고 정식계약되지 않아서 계약 파기된 제품에 대해서도 매출 자료로 잡는 등 여러 수법을 통해서 매출을 늘리고 부정을 저질렀다는 점입니다.

이로 인해 생긴 이익은 창업주의 저택이나 요트를 구매하는 자금으로 사용되는 등 좀 방만하게 운영되었다고 하지요. 다음은 16일자 로이터의 기사입니다.

-웅-


Norway police charge Microsoft's Fast with fraud

Thu Oct 16, 2008 6:05am EDT



OSLO, Oct 16 (Reuters) - The Norwegian police economic crimes unit said it had charged Microsoft-owned search technology firm Fast Search & Transfer with accounting fraud on Thursday.

"We are raiding Fast's offices now to secure evidence," police attorney Baard Thorsen said. "The charge is for accounting fraud."

Fast was acquired by Microsoft (MSFT.O: Quote, Profile, Research, Stock Buzz) for $1.2 billion in February.

"The charge regards accounts from before Microsoft came in," Thorsen said. "We think Fast recognised revenues that there is no basis for."

Fast was not immediately available for comment.

Norway's financial watchdog said in May it had reported possible violation of accounting rules by Fast to the economic crimes unit.

In June the watchdog said it would also probe the auditor of Fast, Deloitte & Touche DLTE.UL, for suspected irregularities in the computer group's accounts.

Fast is the world's second largest provider of enterprise search software that allows companies to comb internal corporate documents, data and other information, a market also targeted by Google (GOOG.O: Quote, Profile, Research, Stock Buzz).

Before Microsoft's buyout, Fast stock had tumbled after the company said in mid 2007 it would no longer recognise revenues from memorandums of understanding, and instead book revenue only from final deals.

The police and Norwegian Ministry of Justice are among Fast's customers in Norway.


http://www.reuters.com/article/technology-media-telco-SP/idUKLG591420081016

Tag // fast search
주식 폭락 만큼이나 미국 대선 역시 핫 이슈입니다.
요즘 현재 가장 주목 받는 사람은 아무래도 공화당의 사라 페일린 주지사라 생각이 됩니다.

구글에서 인터넷 사용자들의 검색 패턴을 조사했는데 재미있는 결과들이 보이는군요.

내용을 간략하게 설명 드리자면, 바이든 상원의원과 페일린 토론에서 페일린이 에너지 정책을 이야기 하면서 자주 "maverick"이라는 단어를 많이 이야기 했다는 것이지요. 그 시점에 구글에도 검색 hit이 "
definition of maverick, what is a maverick, define:maverick." 등에 집중되었다는 것입니다.

미디어에 나오는 사항들이 구글의 실시간 검색으로 뜨는 것이나, 사용자들이 최진실 뉴스를 듣자 마자 해당 이슈가 급등 검색어가 되는 것이나 모두 다 검색에서 시사하는 바는 매우 크다는 생각입니다.

관심 있으신 분은 구글 핫 트렌드를 보시는 것도 좋을 것 같습니다.

-웅-

-------------------------------------------------------------------------------------------------------------------------

maverick은 무소속 정치가, 독불장군 등을 뜻합니다.
출처:
http://googleblog.blogspot.com/2008/10/vp-debate-candidates-questions-and.html


If information is the currency of democracy, as Thomas Jefferson allegedly said, then during last Thursday's vice-presidential debate between Senator Biden and Governor Palin a lot of people used Google Search to get a bit wealthier, metaphorically speaking. Using Google Hot Trends, we can see some of the more interesting things that people were researching, and you can do the same to follow along yourself during tomorrow night's second presidential debate (9 PM ET). But first, here's what people were curious about during the VP match.

Many people were simply interested in understanding the meaning of particular terms. Governor Palin called Senator McCain a "maverick" several times, sending many viewers to Google to query
definition of maverick, what is a maverick, and define:maverick.


As the debaters spoke, voters queried for more information.


When Biden mentioned that the "theocracy controls the security apparatus" in Iran, users searched for the meaning of theocracy — as they did when he spoke of the windfall profits tax.

Getting these definitions got a bit tougher when the candidates couldn't even agree on pronunciation. Discussion about a certain type of energy caused a flurry of queries:
nucular vs nuclear, nuclear pronunciation, palin nucular, and even nukular. And when Senator Biden talked about the "7,000 madrasses built along [the Pakistani-Afghan] border", the queries ranged from madrass, madrases, madrasa, and even madras, a major city in India that's most definitely not on the Pakistani-Afghan border.

Governor Palin's claim that "Israel is in jeopardy of course when we're dealing with Ahmadinejad as a leader of Iran" led viewers to try to learn more about this leader even if they could not spell his name. They searched for [Achmadinijad], [Akmadinijad], [Akmadinajad], and the correct
Ahmadinejad. Some did not even try, instead looking for [president Iran] and [Iran leader]. The Governor also referred to General McKiernan, the U.S. military leader in Afghanistan, as "McClellan", sending viewers in search of McClellan, general in Afghanistan, General McClellan Afghanistan, and general Afghanistan surge. Some searchers eventually did find the correct general, but not that many.

Historical references abounded. When Senator Biden claimed "This is the most important election you will ever, ever have voted in, any of you, since 1932", some people wanted to know what it was about the
1932 presidential campaign between Herbert Hoover and Franklin Roosevelt that was so special. And twice as many them wanted to know about that "shining city on a hill", a phrase from Ronald Reagan's farewell address that was originally coined in 1630 by John Winthrop.

When Senator Biden offered a civics lesson ("Article I of the Constitution defines the role of the vice president of the United States, that's the Executive Branch") many people checked, and learned that
Article I of the Constitution describes the legislative branch of the U.S. government. The executive branch is described in Article II. Others just searched directly for the role of vice president and vice president duties.

People searched on
clean coal and took a look at Senator Biden's position (as the candidate asked them to) with queries like Biden clean coal.

These are some of the more interesting queries, but which were the most popular ones? Among the candidates, Senator Biden was a big winner. Searches on him soared more than 70-fold, compared to a week earlier. Governor Palin, much more of a search favorite in the weeks leading up to the debate, only saw a 6x jump, but her volume outpaced Senator Biden's.


Searches for the VP candidates peaked near the debate's end.

Beyond names, two search terms which triggered the most searches were [nuclear] (a 130x spike compared to a week earlier) and [maverick] (70x). [Register to vote] was also quite popular; we even have a special site for that.

The
Commission on Presidential Debates, which hosts the debates, has stated its objective as providing "the best possible information to viewers and listeners". From Google's perspective — the little search box on viewers' and listeners' computers and mobile phones — the vice presidential debate did a pretty darn good job.

We'll give you an update on tomorrow night's debate later this week. In the meantime, keep an eye on the most recent queries yourself on
Google Hot Trends; they change frequently and will start to reflect the debate's talking points soon after it finishes.