Data Science/BigData2013.07.01 21:17

   빅데이터 프로젝트 (여기서 빅데이터 프로젝트란 데이터 품질, MDM, 데이터 거버넌스, 분석기반 가치 창출을 포함하는 광의의 프로젝트 개념으로 본다)를 효과적으로 진행하려면, 각종 데이터를 처리할 수 있는 수준의 품질로 유지해야 한다. 분석가능한 수준의 품질로 데이터를 처리(manipulation)하는 것을 데이터 전처리라 한다. 일반적으로, 데이터 분석시 가장 많은 시간을 차지하는 부문이 데이터 전처리 단계이다. 실제 분석하는데 걸리는 총 시간을 100으로 본다면, 데이터 전처리에 약 80의 시간이 걸린다고 본다.

 

   빅데이터를 통해 가치를 창출하는 방법은 크게 2가지 접근 방법으로 볼 수 있다. 하나는 데이터로부터 의미있는 것을 찾는 Bottom-up 방식이고, 다른 하나는 비즈니스적 가치에서 의미를 찾아가는 Top-Down 방식이다.

 

   망망대해의 여러 데이터를 통합/분석해서 어떤 패턴을 찾아내는 것도 의미가 있겠지만, 최근에는 Top-Down 방식으로 빅데이터를 접근하는 방법론이 더 의미가 있다고 본다. 실제로 빅데이터가 IT 수단으로만 여겨지는게 아닌 것은, 빅데이터 분석을 통해 비즈니스적 가치를 창출할 수 있다고 보기 때문이다. 우리나라 검색 포탈로 부동의 1위를 지키고 있는 네이버 검색 엔진 관계자에 따르면, 빅데이터 인프라가 준비된 기업들에게 가장 우선시 될 것은 어떤 문제(Problem)를 빅데이터로 다룰 것인가란 것이다.

 

   현업들이 업무를 수행함에 있어서 또는 새로운 무엇인가 발견하고자 할 때 목적을 알고 이를 데이터 분석으로 대답가능한 질문 형태로 표현하면, 빅데이터는 이를 해결하기 위한 중요한 열쇠 역할을 한다. 한 가지 예를 들자면, 발전설비를 관리함에 있어서 언제 이 장비가 고장나거나 멈출 것인가?’로 어느 현업이 고민하고 있다고 하자. 이 현업은 이 문제를 효과적으로 해결하기 위해 정기적인 점검과 수시 모니터링을 통해 장비의 이상유무를 판단할 것이다. 만약 그 현업이 이를 보다 해결할 방법이 없는지 물어본다면, 빅데이터 활용을 통해 가능하다고 말해줄 수 있다.

 

   보다 효과적인 해결방법은, 우선 관리 대상인 기기에 센서 장비를 장치해 장비의 동작상태 정보를 높은 빈도로 주기적으로 수집하여 저장하는 것이다. 머신데이터는 시간이 지나면 어느 정도 쌓이는데, 고장나는 시점과 관련 데이터의 패턴을 비교해서 의미있는 패턴을 찾아낸다. 가령, 어떤 장비가 평소 A의 시그널을 내다가, 어느날 B 시그널을 낸다면, 이는 기기에 어떤 이상동작이 발생했음을 알리는 신호이고, 이 신호가 발생시에 기기가 이상할 수 있다는 사실을 판단할 수 있다. , 여기서의 빅데이터는 센서데이터로 수집한 주기적인 머신데이터를 말한다.

 

   간략히 현업의 니즈에 따라 빅데이터를 활용하는 방법에 대해 알아보았다. 요약하면, 빅데이터 인프라가 준비된 기업은 비즈니스가 해결하고자 하는 질문 중심으로 데이터를 수집/분석하여 의미있는 것을 찾아내는 것이다.

 

   이러한 절차로 빅데이터 프로젝트를 하기 위해서 선행되어야 하는 프로젝트가 바로 MDM이다. MDMmaster data management의 약자로, 데이터를 여러 공통된 주제로 데이터의 연계성을 파악해, 관련 데이터를 활용 가능한 형태로 만드는 것을 말한다. 예를 들어, 보험사의 경우는 고객, 계약, 상품, 협력사 등의 주제로 데이터를 관리하고, 처리할 수 있는 구조로 만들 수 있다. 고객의 데이터를 보기 위해서는 어떤 데이터가 회사내에 위치해있는지 메타 정보를 통해, 관련 데이터를 쉽고 간편하게 활용할 수 있도록 구조화 하는 것이다. 사전에 데이터를 주제별로 정리하는 작업은 데이터를 보다 간편하게 사용할 수 있도록 꾸미는 데 큰 역할을 할 것이다.

 

   MDM을 통해, 기업내 데이터가 우선적으로 정리 및 관리가 되면, 향후 발생하는 추가 데이터를 보다 효율적으로 저장하고 분석할 수 있다. 다양한 출처의 데이터가 발생한다 할지라도 사전에 정의 해놓은 메타데이터 및 데이터의 규칙에 따라, 데이터를 필요에 따라 저장하고 분석할 수 있는 기반을 MDM이 제공한다. 특히, 질문 중심의 빅데이터 접근 방법에서 MDM 프로젝트는 관련 작업을 효율적이고 체계적으로 수행할 수 있는 기반을 제공하기 때문에, 기업 규모가 커서 다루는 데이터가 많고 다양할수록 MDM 프로젝트는 빅데이터 활용 프로젝트에 앞서 반드시 선행되어야 한다.

 

   아직 빅데이터 분석을 통해 효과를 본 기업은 많지 않다. 앞으로는 다양한 종류의 데이터 분석을 통해, 어떤 의미있는 것을 찾는 기업이 점점 나타날 것이다. 급히 빅데이터 관련 솔루션을 도입하기 보다는, 기업의 각 상황을 인지하고, 빅데이터 시대를 준비해나가야 할 것이며, 그중 MDM은 그 기반을 닦는 중요한 역할을 할 것이다.

Posted by Curator jsl416