하둡(Hadoop)을 활용한 빅 데이터 협업필터링 분산처리 모듈 개발

하둡(Hadoop)을 통한 지식경제부 "자기주도 학습을 위한 소셜러닝용 교육콘텐츠 기술개발"전략 과제 사업의 핵심엔진 "협업필터링 분산 처리 모듈" 개발 추진

 

빅 데이터(big data)에 대한 관심이 나날이 증가함에 따라 여러 유수 기업이 빅 데이터와 관련된 숙련된 전문가를 찾으며 솔루션 개발에 힘쓰고 있다.

 

과거에는 비정형화된 데이터를 정형화된 일정한 형식과 규칙들로 사람 손을 통해 수동으로 변환했다. 그러나 현재, 비정형화된 방대한 데이터들 사이에서 규칙이나 패턴을 발견하기 어려워지면서 그 안에서 의미 있는 정보만을 뽑아내고 활용하고자 하는 생각들이 모여 하둡(Hadoop)’이 탄생했다.

 

(하둡은 2005년 더그 커팅과 마이크 카파렐라가 개발하였으며, 오픈소스 프레임 워크로 손쉽게 이용할 수 있는 프로그램이다.)

 

이는 기존 관계형 데이터베이스 방식으로는 처리가 힘든 방대한 데이터를 위해 여러 개의 컴퓨터에서 분산하여 분석된 결과를 제공하는 방식으로 분산처리 시스템을 지원하는 자유 자바 소프트웨어 프레임워크이다. 2004년 구글에서 함수형 프로그래밍에 쓰이는 맵과 리듀스라는 함수를 토대로 페타 바이트(peta byte, PB)이상의 분산 시스템을 처리하기 위해 고안되었던 맵 리듀스(Map Reduce)로 구현한 것. , 빅 데이터를 처리할 수 있는 '컴퓨터 클러스터(Computer Cluster)'를 통해 데이터를 분산 처리하여 원하는 결과(Result)를 빠르게 제공한다.

 

 

하둡은 크게 HDFS(Hadoop Distributed File System)와 분산처리 시스템인 맵 리듀스(Map Reduce)로 구성된 오픈 소스로 구현되며, 최대 멀티 페타 바이트(peta byte)수준으로 매우 큰 데이터 세트를 처리하고 분석하기 위한 간단하면서 매우 강력한 도구로 꼽힌다. 기본적으로 맵 리듀스는 수집된 다양한 형태의 데이터들을 의미있는 데이터들로 결합하고 추출하여 원하는 결과를 제공하는데 사용의 복잡성을 상당히 줄였다는 것에 큰 의미가 있다고 할 수 있다.

 

 

한편, 다이퀘스트는 하둡(Hadoop)을 활용한 "자기 주도 학습을 위한 소셜러닝용 교육콘텐츠 사업"을 진행한다. 학습자 개인의 경험과 인식을 바탕으로한 개개인의 맞춤화된 콘텐츠를 통해 문제해결 능력을 향상시키며 의미와 가치를 부여한 자가학습을 목표로 한다. 더불어, 자사의 소셜러닝 콘텐츠와 다양한 학습자료를 연계해 멘토 및 전문가의 지적 협업을 이루어 전문화된 지식을 공유할 수 있는 협업 필터링 분산처리 모듈개발을 추진해 나가고 있다.