Diquest.com -

[다이퀘스트 2008 추계워크샵] 지리산 산행기 :: 2008/10/27 16:30

서해 근교 섬들만 급습하는 워크샵 패턴에 질린 직원들을 위해
사장님께서 색다른 아이디어를 내셨습니다.

실제 거리보다 마음속으로 더욱 까마득하게 느껴지는 지리산
2008년 전체워크샵은 바로 지리산이었습니다.
고등학교 2학년때 방문했던 것이 마지막으로 10년의 시간을 훌쩍 넘긴 지리산의 모습은 어떨지, 가물가물한 옛 기억을 되살리며 고되고 힘들었던 산행을 생각했던 저는
시간의 흐름에 따라 변한 지리산의 모습에 입을 다물지 못했습니다.

노고단까지 차 타고 올라갈 수 있을 정도로 잘 닦여진 도로하며
계단과 갖가지 시설물들..시간은 사람뿐만 아니라 자연을 변화시키기도 하네요 

가을문턱을 넘긴 지리산은 울긋불긋한 가을단풍과 청명한 하늘로 경치가 일품이었습니다

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지


"다이퀘스트"하면 몇가지 단어들어 떠오르지만
그 중에서 빠지지 않는 것이 바로 "술"입니다.
후발대 직원들까지 함께 한 워크샵 저녁시간
다이퀘스트 이미지를 생각해 공개사진의 수위를 조금 조절합니다

신입사원 강하나씨의 건배로 저녁식사가 조심히 시작되고
사용자 삽입 이미지


뒤이어 행해진 사주먹기
사주의 힘은 여전히 강했습니다.
이러고보니 회식자리가 강하나씨와 전기왕씨의 피로연같기도 하네요
사용자 삽입 이미지


줄줄이 이어지는 사주먹기
거꾸로 입사순이지만 워낙 오랜만에 하는 사주행사라 이날 많은사람들이 사주의 힘을 보았답니다
사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지


이날 신입사원만큼 많은 술을 드신 사장님
전직원 모두에게 술을 따라 주시며 평소 갖고 있었지만 내색하지 못했던 애정을 전했습니다.
사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지


더불어 함께한 직원들
사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

사용자 삽입 이미지

결국 이날 사장님은 직원들의 도움이 필요했습니다 ^^
사용자 삽입 이미지


기업용 검색시장에서 연중 가장 많이 바쁘고 힘든 시기이지만
이럴때일수록 직원들끼리 화합할 수 있는 시간과 마음을 갖는다는 것이 중요한 것 같습니다.

[해외 동향] 노르웨이 경찰, Fast에 대해 압수수색 :: 2008/10/20 10:45

노르웨이 경찰, Fast에 대해 압수수색

올초 MS가 인수한 Fast에 대해서 부정회계 혐의로 압수수색을 실시했다고 합니다. 이에 대해서는 얼마전 웅차장이 보고하기도 했습니다만, 퇴사한 직원이 재입사한 회계법인에  회계감사를 맏기거나, 데모로 설치해주고 정식계약되지 않아서 계약 파기된 제품에 대해서도 매출 자료로 잡는 등 여러 수법을 통해서 매출을 늘리고 부정을 저질렀다는 점입니다.

이로 인해 생긴 이익은 창업주의 저택이나 요트를 구매하는 자금으로 사용되는 등 좀 방만하게 운영되었다고 하지요. 다음은 16일자 로이터의 기사입니다.

-웅-


Norway police charge Microsoft's Fast with fraud

Thu Oct 16, 2008 6:05am EDT



OSLO, Oct 16 (Reuters) - The Norwegian police economic crimes unit said it had charged Microsoft-owned search technology firm Fast Search & Transfer with accounting fraud on Thursday.

"We are raiding Fast's offices now to secure evidence," police attorney Baard Thorsen said. "The charge is for accounting fraud."

Fast was acquired by Microsoft (MSFT.O: Quote, Profile, Research, Stock Buzz) for $1.2 billion in February.

"The charge regards accounts from before Microsoft came in," Thorsen said. "We think Fast recognised revenues that there is no basis for."

Fast was not immediately available for comment.

Norway's financial watchdog said in May it had reported possible violation of accounting rules by Fast to the economic crimes unit.

In June the watchdog said it would also probe the auditor of Fast, Deloitte & Touche DLTE.UL, for suspected irregularities in the computer group's accounts.

Fast is the world's second largest provider of enterprise search software that allows companies to comb internal corporate documents, data and other information, a market also targeted by Google (GOOG.O: Quote, Profile, Research, Stock Buzz).

Before Microsoft's buyout, Fast stock had tumbled after the company said in mid 2007 it would no longer recognise revenues from memorandums of understanding, and instead book revenue only from final deals.

The police and Norwegian Ministry of Justice are among Fast's customers in Norway.


http://www.reuters.com/article/technology-media-telco-SP/idUKLG591420081016

[해외 동향] 구글 핫 트렌드와 사용자 검색 행태 :: 2008/10/08 13:20

주식 폭락 만큼이나 미국 대선 역시 핫 이슈입니다.
요즘 현재 가장 주목 받는 사람은 아무래도 공화당의 사라 페일린 주지사라 생각이 됩니다.

구글에서 인터넷 사용자들의 검색 패턴을 조사했는데 재미있는 결과들이 보이는군요.

내용을 간략하게 설명 드리자면, 바이든 상원의원과 페일린 토론에서 페일린이 에너지 정책을 이야기 하면서 자주 "maverick"이라는 단어를 많이 이야기 했다는 것이지요. 그 시점에 구글에도 검색 hit이 "
definition of maverick, what is a maverick, define:maverick." 등에 집중되었다는 것입니다.

미디어에 나오는 사항들이 구글의 실시간 검색으로 뜨는 것이나, 사용자들이 최진실 뉴스를 듣자 마자 해당 이슈가 급등 검색어가 되는 것이나 모두 다 검색에서 시사하는 바는 매우 크다는 생각입니다.

관심 있으신 분은 구글 핫 트렌드를 보시는 것도 좋을 것 같습니다.

-웅-

-------------------------------------------------------------------------------------------------------------------------

maverick은 무소속 정치가, 독불장군 등을 뜻합니다.
출처:
http://googleblog.blogspot.com/2008/10/vp-debate-candidates-questions-and.html


If information is the currency of democracy, as Thomas Jefferson allegedly said, then during last Thursday's vice-presidential debate between Senator Biden and Governor Palin a lot of people used Google Search to get a bit wealthier, metaphorically speaking. Using Google Hot Trends, we can see some of the more interesting things that people were researching, and you can do the same to follow along yourself during tomorrow night's second presidential debate (9 PM ET). But first, here's what people were curious about during the VP match.

Many people were simply interested in understanding the meaning of particular terms. Governor Palin called Senator McCain a "maverick" several times, sending many viewers to Google to query
definition of maverick, what is a maverick, and define:maverick.


As the debaters spoke, voters queried for more information.


When Biden mentioned that the "theocracy controls the security apparatus" in Iran, users searched for the meaning of theocracy — as they did when he spoke of the windfall profits tax.

Getting these definitions got a bit tougher when the candidates couldn't even agree on pronunciation. Discussion about a certain type of energy caused a flurry of queries:
nucular vs nuclear, nuclear pronunciation, palin nucular, and even nukular. And when Senator Biden talked about the "7,000 madrasses built along [the Pakistani-Afghan] border", the queries ranged from madrass, madrases, madrasa, and even madras, a major city in India that's most definitely not on the Pakistani-Afghan border.

Governor Palin's claim that "Israel is in jeopardy of course when we're dealing with Ahmadinejad as a leader of Iran" led viewers to try to learn more about this leader even if they could not spell his name. They searched for [Achmadinijad], [Akmadinijad], [Akmadinajad], and the correct
Ahmadinejad. Some did not even try, instead looking for [president Iran] and [Iran leader]. The Governor also referred to General McKiernan, the U.S. military leader in Afghanistan, as "McClellan", sending viewers in search of McClellan, general in Afghanistan, General McClellan Afghanistan, and general Afghanistan surge. Some searchers eventually did find the correct general, but not that many.

Historical references abounded. When Senator Biden claimed "This is the most important election you will ever, ever have voted in, any of you, since 1932", some people wanted to know what it was about the
1932 presidential campaign between Herbert Hoover and Franklin Roosevelt that was so special. And twice as many them wanted to know about that "shining city on a hill", a phrase from Ronald Reagan's farewell address that was originally coined in 1630 by John Winthrop.

When Senator Biden offered a civics lesson ("Article I of the Constitution defines the role of the vice president of the United States, that's the Executive Branch") many people checked, and learned that
Article I of the Constitution describes the legislative branch of the U.S. government. The executive branch is described in Article II. Others just searched directly for the role of vice president and vice president duties.

People searched on
clean coal and took a look at Senator Biden's position (as the candidate asked them to) with queries like Biden clean coal.

These are some of the more interesting queries, but which were the most popular ones? Among the candidates, Senator Biden was a big winner. Searches on him soared more than 70-fold, compared to a week earlier. Governor Palin, much more of a search favorite in the weeks leading up to the debate, only saw a 6x jump, but her volume outpaced Senator Biden's.


Searches for the VP candidates peaked near the debate's end.

Beyond names, two search terms which triggered the most searches were [nuclear] (a 130x spike compared to a week earlier) and [maverick] (70x). [Register to vote] was also quite popular; we even have a special site for that.

The
Commission on Presidential Debates, which hosts the debates, has stated its objective as providing "the best possible information to viewers and listeners". From Google's perspective — the little search box on viewers' and listeners' computers and mobile phones — the vice presidential debate did a pretty darn good job.

We'll give you an update on tomorrow night's debate later this week. In the meantime, keep an eye on the most recent queries yourself on
Google Hot Trends; they change frequently and will start to reflect the debate's talking points soon after it finishes.

[해외 동향] 오토노미, 보안센터를 혁신적으로 바꿀 새로운 상황 인지 웹 포털 발표 :: 2008/10/07 16:48

오토노미에서 새로운 상황 인지 웹 포털을 발표했습니다.
여기서 상황 인지라는 점은 아래 굵음체로 쓴 부분을 참조하시면 되는데,
일종의 에셜런 시스템에서 할 수 있는 역할을 할 수 있다는 것을 의미합니다.
회사 기밀을 바깥으로 빼내거나, 혹은 테러에 관련된 정보를 이야기 해도
이를 즉각적으로 감지할 수 있다는 것이지요.

의미 분석 기술에 대해서 이들도 강조하고 있다는 점은 주목할만 합니다.

참고로 금번 오토노미 3분기 실적은 전년 대비 견실한 성장세를 이어나가고
있다는 보고입니다.(http://www.autonomy.com/content/News/Releases/2008/1003f.en.html)

-웅차장-



-------------------------------------------------------------

(내용 요약)

오토노미, 보안센터를 혁신적으로 바꿀 새로운 상황 인지 웹 포털 발표

보안/감시 솔루션은 인터넷 환경에서 다양한 지식 정보에 쉽게 접근할 수 있도록 도와줌

본 솔루션의 특징은 다양한 지식 정보를 함께 검색하여 제공하는데 있다. 이는 보안에 관련된 사람들이 언제 어디서든지 이동형 기기 혹은 포털을 통해서 보안 정보를 확인해야 하는 어디에서든지 정보에 접근할 수 있도록 만듦을 의미한다.

오토노미의 의미 기반 기술에 바탕한 IDOL을 이용하여, 포털은 Virage의 커맨드 앤 컨트롤 플랫폼과 연동하여 다양한 범위의 정보를 모니터링하고 분석하여 보안 정보를 실시간으로 제공한다. 새 시스템은 이벤트의 중요성을 즉각적으로 감지하며 자동적으로 이를 연관된 정보에 연결한다. 예를 들어 감지된 무선 대화는 자동적으로 화자를 인식하며, 무엇에 대해서 논의되었고, 어떤 주제에 대해서 어떤 지식을 이야기했는지에 대해서 찾아낸다. 이는 전통적인 조사 방법론과 함께 어떤 트렌드나 숨어있는 패턴을 찾아내는 데에도 응용할 수 있다.

오토노미의 개념 기반 접근법은 보안 담당자로 하여금 상황을 정확하게 인지할 수 있도록 하며, 어떤 위협적이거나 위기에 대한 신속한 대응을 위한 최상의 기술을 제공한다. 특히 데이터는 접근 통제 정보, 비디오 감시 정보, 보안카드 인식, 안면 인식, 그리고 화상 분석 등에서 발생되는 정보들을 단일 사용자 인터페이스에 제공하고 실시간으로 제공되었다.

사이트: http://www.virage.com/content/securityandsurveillance/index.en.html
보도자료 원문: http://www.autonomy.com/content/News/Releases/2008/1006.en.html



AUTONOMY UNVEILS NEW SITUATIONAL AWARENESS WEB PORTAL TO REVOLUTIONIZE THE SECURITY CENTER

Security and Surveillance Solution to Allow Organizations Secure Access to Intelligence Information over a Standard Internet Connection

Cambridge, UK and San Francisco, Calif. - Oct. 6, 2008 - Autonomy Corporation plc (LSE: AU. or AU.L), a global leader in infrastructure software for the enterprise today unveiled its new unique Situational Awareness Web Portal that offers global companies the ability to control and monitor their security and surveillance activities through a rich user interface accessible over a standard Internet connection. This Portal not only provides security officers with a secure, comprehensive view and analysis of security scenarios, but it also allows them access to all relevant intelligence information without being restricted to the Security and Control Centre. This frees security officers to engage in hands-on investigation and monitoring throughout the premise, allowing them to keep abreast of the situation on the rest of the premises via a mobile device, or through portals installed in strategic locations.

Built on Autonomy's Meaning Based Computing technology, IDOL, the Portal is an extension to Autonomy Virage's Command and Control platform that brings together information from a wide range of applications and allows holistic monitoring and analysis of security data in real-time. The new system is able to understand the significance of an event and automatically connect it to relevant intelligence. For example, an intercepted radio conversation can be used to automatically identify the speakers, understand what is being discussed, and retrieve any existing intelligence regarding the subject. This helps to streamline traditional investigative methods and facilitate investigative work by performing conceptual analysis to reveal trends and patterns hidden in the data set.
Autonomy's unique conceptual approach to security and surveillance enables security officers to gain an acute sense of situational awareness and delivers the best technology that provides security officers with a critical asset for risk assessment and incident response planning. In addition, the Portal can be integrated with a wide variety of data sources, such as access control, video surveillance, license plate recognition, facial recognition and scene analysis and feed this information through a single user interface, allowing analysis to be conducted effectively and in real-time.

"Autonomy has long been the leader in security and surveillance technologies. The new Situational Awareness Web Portal is yet another powerful tool to enable security professionals to connect to intelligence in real-time, offering the unrivalled ability to automate security operations and uncover threats which would otherwise be missed," said David Humphrey, Managing Director of Autonomy Virage. "The Portal gives us a new leading edge in the market and offers great advantages to companies by allowing security officers to securely monitor and analyze intelligence through a standard Internet Connection."

The Situational Awareness Portal is part of Autonomy Virage's Command and Control suite which automates the capture, analysis, reporting and retrieval of security information. It is a security infrastructure platform that seamlessly integrates with the full range of security and surveillance equipment creating a completely scalable security platform. For more information on Autonomy Virage's Security and Surveillance solutions, please visit: www.virage.com/securityandsurveillance.

다이퀘스트 검색자료: 전자상거래(e-commerce) 검색기술 동향_KISIT :: 2008/09/26 17:48

 




"전자상거래 검색기술 동향"은 주간기술동향에서 국내 쇼핑몰들의 검색서비스에 적용된 검색기술에 대해 조사한 보고서입니다.
 

해외와 국내로 나누어 사용자 중심적인 상품검색기술동향과 오픈마켓의 급성장으로 인해 상품검색기술 트렌드가 대용상, 실시간, 개인화, 세분화의 방향으로 나아가는 추세라고 보고서는 말하고 있습니다. 또한 향후에는 사용자 편의를 위한 인터페이스와의 결합으로 의미기반의 인공지능 검색기술로 발전해 나갈 것이라고 예측하고 있습니다.

저희회사인 다이퀘스트의 상품검색 솔루션 '다이버4'를 비롯하여 코리아와이즈넛의‘Search Formula-1 Shopping Edition – Mercury’, 코난테크놀로지의 ‘Docruzer e-Biz’가 국내 상품검색솔루션으로 소개되어 상품검색기술뿐만 아니라 상품검색 솔루션 정보까지 함께 획득할 수 있어 쇼핑몰 검색엔진에 관해서는 유용한 자료이니 관련분야, 혹은 산업종사자들에게 많은 도움이 될 것 같습니다.


참고로 주간기술동향은 IITA(정보통신연구진흥원)에서 발간하는 정기간행물로서 정보통신부야 국내 종사자들에게 매주 기술산업동향정보를 제공하고 있습니다.

-만월-

다이퀘스트 검색자료: 모바일 검색_한국소프트웨어진흥원 :: 2008/09/25 17:35





얼마 전 한국소프트웨어진흥원에서 모바일검색 SW동향에 관한 보고서를 내놓았습니다. 
모바일 검색은 그 유용성과 타 산업으로의 파급효과, 거대 시장으로의 높은 성장 가능성으로 관련 업체들이 미래성장동력으로 삼으려는 사업분야입니다.

국내 모바일 검색은 아직 시장형성을 위한 초기단계로, 보고서에 따르면 해외뿐만 아니라 국내 이동통신사들과 대형포털, 그리고 기업용 검색솔루션 기업들까지 모바일 검색시장의 대중화를 위해 가시적인 성과들을 조금씩 내놓고 있다고 말하고 있습니다.

자세한 사항은 첨부된 보고서와 관련기사를 링크하니 참고하세요~

관련 기사
http://www.donga.com/fbin/output?n=200809230016
http://itnews.inews24.com/php/news_view.php?g_serial=358910&g_menu=020600
http://www.etnews.co.kr/news/detail.html?id=200809160079

-만월-


 

다이퀘스트 검색 백서: 비즈니스 로직을 반영한 검색 랭킹 모델링 :: 2008/09/08 15:32




비즈니스 로직을 반영한 검색 랭킹 모델링

비즈니스 목적에 맞는 검색결과를 제공하는 방안

 

2008.09.02
 


모든 IT 시스템은 비즈니스의 목적과 요구사항에 맞게 구축되어야 한다. 검색시스템도 예외가 아니다. 기업의 검색 담당자는검색 결과 좀 좋게 할 수 없나?”라는 상사의 요구사항에서부터검색 결과를 부서에 따라 다르게 보여주세요”, “이번에 이벤트 상품을 검색결과 상위에 나타나게 해주세요등과 같은 실무자들의 요구사항들을 접하게 되는데, 이와 같이 기업의 다양한 비즈니스 요구사항을 논리화 시킨 것이 비즈니스 로직이다.

 

기업이 처한 비즈니스 환경이 급변함에 따라 요구사항, 즉 비즈니스 로직은 빈번히 발생하며 변경되고 다양해지는데, 검색 담당자는 그때 마다 이를 반영하기 위해 많은 어려움을 겪는다. 이러한 어려움과 함께 검색시스템 구축 경험과 지식, 전문 인력의 부족으로 인해, 사실상 대부분의 기업에서는 비즈니스 로직에 대한 충분한 고려 없이 검색시스템을 구축함으로써 효과적인 검색서비스를 제공하지 못하고 있다. 본 백서는 검색시스템에서 가장 중요한 요소 중의 하나인 랭킹 모델을 구현할 때, 비즈니스 로직을 빠르고 쉽게 반영하기 위한 방안을 제시한다.

 

랭킹 모델링 개념

기업 검색에 있어서 검색에 관한 이슈를 보면 검색시스템의 안정성과 검색 속도, 검색 정확도, 여러 정보원으로부터 데이터를 수집하고 다양한 시스템과 연동하기 위한 시스템 유연성, 그리고 이것들을 쉽고 편리하게 관리하기 위한 관리도구, 사용자의 여러 요구사항을 처리하기 위한 다양한 검색기능, 그리고 중요하지만 문제가 터지기 전까지는 수면 아래 묻혀 있는 보안 등이 있다. 이중에 검색 담당자 입장에서 보면 시스템 안정성과 검색 정확도가 가장 중요한 요소라 할 수 있다. 현재 검색솔루션 업체의 솔루션 완성도 측면에서 시스템적인 안정성은 어느 정도 확보 되었다고 보기 때문에 가장 중요한 이슈 중에 하나는 검색 정확도를 높이기 위한 랭킹 모델이다.

 

랭킹 모델은 검색 대상 콘텐츠를 검색질의(이하 검색어)에 나타난 사용자 의도에 맞게 순위화 시켜 주는 방법이다. 2004년 코넬(Cornell) 대학교 Joachims 교수의 구글(Google)을 이용한 사용자의 검색 패턴에 대한 연구를 보면 약 79%의 사용자가 상위 3개까지, 88%의 사용자가 상위 5개까지, 99%는 상위 10개 이전까지의 검색결과 만을 본다고 한다[1]. 연구에 따르면 상위 10개 이후의 검색결과는 거의 소용이 없고, 상위 3개 혹은 5개 이내에 사용자가 원하는 검색결과가 있어야 만족스러운 검색서비스라 할 것이다. 그러므로, 검색결과의 순위를 정하는 랭킹 모델이 검색 정확도와 검색서비스 만족도에 미치는 영향은 절대적이라 할 수 있다.


랭킹 모델 트렌드

랭킹 모델의 트렌드는 연관성(relevance)만을 고려한 모델에서 점차 연관성뿐만 아니라 콘텐츠 자체의 질(quality)까지 고려하는 모델로 진화하고 있다. 연관성은 검색어와 콘텐츠간에 얼마나 밀접한 관련이 있는가를 나타내고 질은 콘텐츠 자체의 품질이 얼마나 좋은가를 말한다.

 

연관성을 고려한 랭킹 모델로 현재 가장 많이 쓰이는 것은 TF*IDF 모델이다. TF는 단어 빈도(Term Frequency), IDF는 문서 빈도의 역(Inverse Document Frequency)을 말한다. TF*IDF 모델에서 검색어와 문서의 연관성은 TF가 높고, IDF가 높을수록(DF가 낮을수록) 커진다. , 사용자가 입력한 단어가 여러 개 포함된 콘텐츠일수록 연관성이 높으며 여러 콘텐츠에 두루 쓰이는 공통적인 단어는 연관성이 적어 덜 중요하다라는 것이다. 그러나, TF*IDF, 불리언(boolean) 모델 등 연관성을 기반으로 한 랭킹 모델의 근본적인 문제점은 검색어와 연관성이 높은 콘텐츠라도 품질이 좋지 않으면 정보로써의 가치가 떨어지므로 결과적으로 검색서비스의 만족도가 떨어진다는 것이다.

 

따라서, 최근에는 검색어와의 연관성도 높으면서도 품질도 우수한 콘텐츠를 검색결과 상위로 올려주는 랭킹 모델이 다양하게 연구되고 있다. 최근의 모델 중에서 가장 인지도가 높은 것은 구글의 페이지랭크(PageRank). 페이지랭크는 웹문서 콘텐츠의 품질을 측정하기 위해 해당 웹문서에 얼마나 많은 링크가 걸려있는지를 측정한다(in-link의 개수 측정). 이는 많이 인용되는 논문은 품질이 높을 것이라는 기본 생각에서 고안되었다. 이 외에도 펌질을 통해 중복된 콘텐츠와 최신 콘텐츠가 질이 좋다라는 첫눈(www.1noon.co.kr)의 스노우랭크(SnowRank), 사용자의 관심도(attention)를 반영한 나루 검색(www.naaroo.co.kr) 등이 있다. 이러한 모델은 TF*IDF 모델을 이용해 검색어와 연관성 있는 콘텐츠를 추출하고 연결된 링크의 개수, 콘텐츠의 중복도와  최신성, 댓글수, 조회수, 스크랩 수 등의 콘텐츠의 질을 측정하는 기준을 사용해서 연관성이 높을 뿐만 아니라 질도 높은 콘텐츠를 순위화해서 제공하고자 한다.

 

웹검색 뿐만 아니라 기업 검색의 경우도 위와 같은 트렌드가 반영되고 있다. 인터넷 쇼핑몰의 상품검색에서는 검색어와 상품명 혹은 카테고리명과의 연관성을 고려하는 것뿐만 아니라 상품의 품질을 나타내는 판매지수, 상품평수, 상품평점 등과 함께, 고객은 좋은 서비스와 저렴한 가격의 상품을 선호한다는 의도를 반영하여 가격이 저렴하며 배송일이 짧고, 판매자의 만족도가 높은 상품을 상위로 올려주는 랭킹 모델을 적용하고 있다. KMS, EDMS 등 인트라넷 정보검색의 경우도 검색어와 게시물 제목, 내용의 연관성뿐만 아니라 조회수, 댓글수 등의 사용자의 관심도(attention)를 랭킹 모델에 반영함으로써 사용자에게 양질의 검색결과를 제공하고자 한다.


랭킹 모델링 방법론

랭킹 모델링의 방법을 자세히 설명하기 위해 와인 포털을 예로 들어 설명한다.

 

와인 판매 회사가 인터넷 판매를 위해 와인상품과 블로그와 와인 커뮤니티 등의 콘텐츠를 제공하는 와인 포털을 만들어서 서비스하고 있다고 하자. 사장님이 와인 포털을 이용하다가 검색결과가 마음에 들지 않아서 고객에 관심을 가질 만하면서도 회사 이익에 도움이 될 와인이 검색결과에 잘 나오도록 하게라고 검색 담당자에 지시를 했다고 하자. 여러분이 검색 담당자라면 이 뜬구름 잡는 듯한 사장님 지시를 어떻게 처리할 것인가?

 

먼저 비즈니스 로직을 반영하는 프로세스를 구체화해야 한다. 현재 비즈니스 로직을 검색시스템에 반영하기 위한 프로세스 모델링 방법론이 나와 있지 않은 관계로 가장 일반적인 모델링 방법론인 식스시그마(Six Sigma) DMAIC 방법론을 검색 시스템 프로세스 모델링에 응용해 보자. 이 방법론은 문제를 해결하기 위해 지속적으로 정의(Define), 측정(Measure), 분석(Analysis), 개선(Improve), 조작(Control)을 반복하는 방법으로 이를 응용하면 그림 1과 같이 검색시스템에 비즈니스 로직을 반영하는 프로세스를 모델링 할 수 있다.

사용자 삽입 이미지


그림 1 비즈니스 로직을 검색 시스템에 반영하기 위한 프로세스 모델링

 

정의 (Define)

검색시스템에 관한 정의는 서비스와 콘텐츠, 비즈니스 로직 정의로 이루어진다.

 

l  서비스 정의

ø  일반인을 대상으로 한 와인 판매 포털

ø  와인상품과 와인에 관련된 블로그, 커뮤니티 정보 제공

 

l  서비스 콘텐츠 정의

ø  와인상품 : 와인명, 국가, 지역, 연도, 타입(레드/화이트), 가격, 판매량, 세일여부 등

ø  블로그 : 제목, 본문, 태그, 날짜 등

ø  커뮤니티 : 제목, 본문, 작성자, 작성일, 조회수 등

 

l  비즈니스 로직 정의

ø  고객이 관심을 가질 만한 와인 상품을 상위에 배치

ø  회사에 이익에 도움될 만한 와인 상품을 상위에 배치

 

측정 (Measure)

검색시스템의 검색 품질이 고객에게 만족스러운지 아닌지를 어떻게 파악할 것인가? 검색 품질은 검색 랭킹 모델에 의해 결정 되므로 검색 랭킹 모델을 평가하기 위한 방법으로도 사용할 수 있다. 검색의 품질을 측정하는 고전적인 방법은 테스트 세트를 통해 검색의 정확률(precision)과 재현율(recall)을 측정하는 것이다. 이 방법은 테스트할 검색어 세트를 만들고 검색 대상 콘텐츠를 일일이 살펴서 테스트 검색어마다 정답 콘텐츠를 찾아서 정답 세트를 만든 후에 검색시스템이 테스트 검색어에 대해 얼마나 정확하게 정답을 찾는지 측정하는 것이다. 이 방법을 적용하기엔 시간과 비용이 너무 많이 드는 문제점이 있다. 따라서, 사용자가 많이 검색하는 정해진 수의 인기검색어에 대해 상위 5, 10개처럼 정해진 등수까지 검색결과 정확률을 측정하는 방법을 사용한다. 또한, 사용자가 검색한 후, 특정 검색결과를 클릭하거나, 마음에 드는 검색결과가 없을 때, 다음 검색페이지(next page)를 클릭하는 등의 클릭 정보를 활용하는 방법이 사용되고 있다.

 

분석 (Analysis)

분석은 기업의 비즈니스 로직을 랭킹모델에 반영할 때, 필요한 속성(feature)을 정하는 단계로써 현재의 문제점 분석을 통해 개선사항을 도출하고 기업내의 요구 사항을 반영할 수 있는 방법을 찾는 과정이다. 측정 단계에서 실시한 검색 시스템 평가 결과가 아래와 같을 때를 예로 들어 분석 과정을 설명해 보자.

 

l  인기 검색어에 대한 정확률 측정 결과

ø  결과 1 : 상위 5개의 인기검색어에 대해 검색결과가 아예 없음

ø  결과 2 : 상위 40개의 인기검색어에 대해서는 원하는 검색 결과가 나오지 않음

 

l  사용자 클릭 정보

ø  결과 3 : 20%의 사용자가 첫 페이지에서 검색결과를 클릭하지 않음

ø  결과 4 : 상위 8~10위 사이의 검색결과에 대한 클릭이 많음

 

우선 결과 1을 분석해 보면 검색 결과 자체가 없다는 것은 대부분 형태소 분석이 잘못되거나 유사어 확장 검색이 잘못 되는  경우에 발생하므로 검색 시물레이션 도구를 이용해 검색어가 어떻게 분석되고 확장되는지를 검사해서 문제를 해결해야 한다. 결과2, 결과 3는 검색 랭킹 모델이 잘못되어 원하는 검색 결과를 찾을 수 없을 때 나타나는 것으로 검색 정확도를 높이기 위한 방법을 찾아야 한다. 이 때 도움을 줄 수 있는 것이 결과 4와 같은 사용자의 로그 분석 정보나 컨텐츠 분석 정보이다. 우선 결과 4의 상위의 8~10위의 와인 상품을 살펴 보니 현재 커뮤니티에서 이슈가 되어 고객들이 관심이 높아진 상품들로 대부분 커뮤니티에서 관련 콘텐츠의 조회수가 상위를 차지하는 상품이었다고 한다면 여러분은 이 정보를 검색시스템에 반영하여 검색의 정확률을 올릴 수 있을 것이다. , 구매이력정보를 이용한 데이터 마이닝 결과나 직원을 대상으로 한 설문도 도움이 될 수 있다. 예를 들어 회사 내에 회사에 이익에 도움이 되는 상품은 어떤 것일까?”라는 설문에 대해 임직원 들이 대부분이 판매량이 많으면서 가격이 높아 마진이 좋은 상품이라고 응답했다면 회사에 도움이 되는 상품을 찾기 위한 검색결과에 판매량과 가격을 반영하는 것이 좋은 방법일 것이다.

 

이와 같이 분석 단계에서는 비즈니스 로직을 랭킹 모델에 반영하기 위한 콘텐츠나