빅데이터란?

빅데이터 플랫폼의 개요

빅데이터란 “전통적인 데이터베이스(DBMS) 기술로는 의미 있는 시간 안에 처리가 불가능할 만큼 많거나, 복잡하거나, 비용이 많이 드는 데이터”를 의미합니다.
클루닉스는 저가격 고성능 분산 병렬 처리 기술(클러스터 슈퍼컴퓨팅) 기술로 전통적 데이터베이스나 서버 컴퓨터로 상상하기 어려운 저렴한 비용과 달성할 수 없는 짧은 시간 내에 막대한 양의 데이터를 처리하는 시스템과 분석 서비스를 제공합니다.

어떤 기술이 필요한가?

빅데이터라는 단일한 이름의 기술은 존재하지 않습니다. 빅데이터 분석을 위해 필요한 기술은 문제마다 다르기 때문입니다. 그럼에도 불구하고, 다양한 분석기술을 적용하기 위해서는 최소한 빅데이터를 저장하고, 정제해서 분석 전문가들이 분석에 집중할 수 있도록 하는 기반 기술이 필요합니다.
클루닉스는 클러스터 슈퍼컴퓨팅 기술로 저가격 범용 서버를 연결하여 저비용 고성능의 저장 정제 시스템을 공급합니다. 아울러 클루닉스는 15년간의 대규모 데이터 처리 경험에 기반하여 고객의 대규모 데이터에 대한 분석 서비스를 제공합니다.
이를 위해서는 자연언어 처리, 통계적 모델링, 데이터 마이닝 등의 난이도 높은 기술이 필요하며, 클루닉스는 국내 전문기업 및 관련 대학과 협력하여 문제별로 필요한 기술 및 컨설팅을 원스톱으로 제공합니다.

구성 요소

빅데이터 기술은 크게 획득, 저장, 정제, 분석, 예측, 활용의 6 단계로 이루어집니다. 각 단계별로 데이터의 양과 종류, 문제의 특성에 따라 다양한 컴퓨터 소프트웨어가 활용됩니다.
일반적으로 이러한 6단계 작업을 수행하기 위한 기반 시스템으로 클러스터 병렬 컴퓨터가 활용되는데, 이 컴퓨터 시스템은 대당 1000만원 안팎의 컴퓨터 수십 대에서 수천 대를 네트워크로 연결하여 구성합니다.
2005년 이전에는 클루닉스와 같은 슈퍼컴퓨팅 전문기업의 전용 소프트웨어를 사용하여 구축했는데, 2006년 이후에는 구글과 야후 등에서 맵리듀스와 하둡이라는 기술을 공개, 발표함으로써 공개 소프트웨어로 빅데이터 저장 및 분석 시스템이 구축되고 있습니다.
클루닉스는 2007년 SKT의 요구로 국내 최초의 하둡 기반 통신 빅데이터 분석 시스템을 구축, 공급한 이래 G-PAS라는 빅데이터 저장 및 분석 시스템을 개발 공급하고 있습니다.

어떤 사업에 쓰일 수 있는가?

하루 수십억 건, 수 테라바이트의 데이터가 발생해서, 분석은커녕 저장조차 힘들 경우(예 : 통신사 통화 로그, 인터넷 기업의 회원 접속 로그 등) 클루닉스는 SKT 등의 사업 경험을 바탕으로 완성도 높은 저장 및 분석 솔루션을 제공합니다.
어떤 상품이 언제, 얼마나 팔릴지 과거 수십억 건의 매출 데이터와 수백만 건의 세일즈맨 업무 기록을 분석해서 예측하고 싶을 경우, 클루닉스는 상공회의소 회원사 유통기업의 POS 데이터 분석 경험과 벤처기업 세일즈 예측 모델 구축 경험을 바탕으로 혁신적인 영업 예측 능력을 제공합니다.
어떤 신문기사가 나면 그 영향이 며칠이나 갈까? 과거의 학업 성적으로 미래의 직장 성취를 알 수 있을까? 내무반에서 수류탄을 터뜨릴 장병은 누구일까? 입시 없이 대학생을 선발할 수 있을까?… 이 모든 문제에 대해 클루닉스는 빅데이터를 분석하여 해법을 찾으려 노력하고 있습니다.
PLUS