Teradata Seoul Universe 2012 주요 내용

2012. 4. 3. 23:48Data Science/Seminar


컨퍼런스는 한국테라데이타 박진수 사장님의 환영사를 시작으로 시작되었습니다. 이번 컨퍼런스는 금년으로 11회를 맞는다고 하더군요. 주제는, "Do more with your data"였습니다


"테라데이타 비전 및 전략" 발표

이어지는 기조연설에서 테라데이타 아시아태평양 및 일본지역 총괄 사장인 피터 핸드가 "테라데이타 비전 및 전략"에 관해서 발표를 하셨습니다. 테라데이타는 1979년 설립된 기업으로 30년이상 된 기업이란 사실, 한국의 KT가 테라데이타의 고객이란 사실에 대해서 알게 되었습니다. 테라데이타가 제공하는 서비스에는 Data Warehousing, Big Data Analytics(Aster), Marketing & Analytical Applications(Aprimo)가 있다고 하였습니다. 테라데이타가 제공하는 비즈니스 모델은 매우 간단하다고 하면서, 고객을 획득하고 고객과 같이 일하는 것이라고 하셨습니다. (정말 간단하지요?) 그리고 테라데이타의 비전은 "To Be the Best IT Provider to our Customers"라고 하였습니다.


"비즈니스 인텔리전스에서 절대 간과할 수 없는 네 가지 트렌드" 발표

다음으로 테라데이타의 CTO인 스티븐 브롭스트가 "비즈니스 인텔리전스에서 절대 간과할 수 없는 네 가지 트렌드"에 대해 발표하셨습니다. 4가지 트렌드라면 Sensor Technology, Pervasive Business Intelligence, In-database Processing, Non-traditional Data Types 입니다.


첫 번째로 언급된 Sensor Technology는 무어의 법칙에 대해 소개하면서 시작합니다. 지금은 32nm 크기의 칩이 보통이며, 보다 작고 값싼 것이 나올 수 있다고 하였습니다. 무어의 법칙대로 지속적인 기하급수적 변동은 없겠지만, 이러한 속도는 영원히 늦출 수 있다고 하였습니다. (No exponential is forever, but you can delay forever - by Gordon Moore). 기술을 통해 얻을 있는 효과 2가지는 보다 좋은 성능을 같은 값에 얻거나, 같은 기술을 보다 싼 가격에 얻는 이점이 있다고 하였습니다. 앞으로 20년 후에는 같은 가격에 10,000배 성능의 기기를 살 수 있을 것이라고 하였습니다. 센서를 통해, 예를 들어, Air Conditioner를 자동적으로 조절할 수 있다고 하였습니다.


두 번째로 언급된 트렌드는 Pervasive BI 입니다. Pervasive의 뜻은 Everywhere라고 하였습니다. 장표중에 언급된 내용을 적어보자면, "There is a clear industry transition toward deployment of tactical and event-driven decision support in addition to traditional data warehousing"이라 하였고, strategy 보다는 실행이 더 중요하다고 하였습니다. Back-Office DW에서 이제는 Active DW 로 새로운 architecture로 변화 중이라 하였습니다. 경영자들이 많이 활동하던 BI 솔루션이 이제는 Front-line에서도 많이 활용한다고 하였습니다-Customer Intelligence라는 용어를 활용했습니다. Pervasive BI를 통해 가치의 변화가 온다고 하였습니다.


세 번째로 언급된 트렌드는 In-Database Processing 입니다. 여기서 소개된 3가지 기술에는 Data Mining, OLAP, ELT vs. ETL(Data Interaction)이 있습니다. 기존의 Data mart는 데이터 통합 시에 많은 비용이 겹치게 된다면서 매우 비효율적이라고 하였습니다. 데이터가 m가 있다고 치면, m x m으로 통합비용이 겹쳐서 소요된다고 하였습니다. 이를 효율적으로 바꾼 것이 In-memory 방식인데, 테라데이타의 In-Memory 방식에는 테라데이타 EDW안에 SAS 모듈과 SAS Scoring이 내제화되어 있습니다.


OLAP을 설명하기 전에 정보는 큐브(Cube)라고 하였습니다. User access, view, analytic data가 있는 정보를 큐브라고 지칭하였습니다. OLAP은 다차원으로 구성되어 큐브를 저장하고, 효율적인 방식이라고 하였지만, 문제가 있다고 하였습니다. OLAP Scalable한 기능이 없다는 것이었습니다. 차원이 늘어가게 되면 큐브가 매우 커지게 되는 것이지요. 이를 개선하기 위해 OLAP Relational Data의 개념을 통해 Semantic Model이라는 것이 생기고 이는 중복을 예방하는 효과를 준다고 하였습니다.


데이터 통합 기술인 ETL vs. ELT에 대한 얘기도 있었는데요. 현재는 Scalable한 기능을 제공하는 ELT 로 가는 추세라고 하였습니다. ETL이 추출(Extract)하고 변경(Transform)하여 DW에 로딩(Load)하는 절차를 거친다면, ELT는 추출하고 Staging이라는 추가적인 단계를 거쳐 Meta화 되고 RDBML(?)에 저장된다고 하였습니다. ELT는 큰 데이터에 적합한 것이라고 하였습니다. Hybrid ETLT 접근방법에서는 또 다른 단계가 추가적으로 있다고 하였는데요. 이 세가지 기술 중 어떤 것이 낫냐고 하면, Hybrid ETLT 접근방법이 최선이라고 결론적으로 말하였습니다. 왜냐하면 상황에 따라 활용이 다르기 때문이라고 하였습니다.


네 번째로 언급된 트렌드는 Non-traditional data type 입니다. 지금은 예전과는 다른 Non-traditional한 데이터가 생기고 있다고 하였습니다. Non-traditional data Unstructured data가 아니라면서, 이는 Non-traditional 데이터 또는 Multi-structure Data라고 표현하기를 원했습니다. Unstructured란 단어로 설명하기 싫다 란 말을 했는데, 이를 계기로 다시 한번 Unstructured가 무엇인지 생각해 보게 되었습니다. 웹 로그의 경우가 Non-traditional data라 하였고, ERP의 데이터는 관계성 데이터라고 하였습니다. 소셜에 대한 언급이 있었는데, 이제 소셜은 모두에게 오픈 돼있고, 젊은 층 부문이 시장성이 더 크다고 보았습니다. Facebook의 가입자수가 3번째로 큰 국가와 같다라고 하였습니다. 또한 현재의 고객은 큰 회사의 의견보다 주변 사람들의 말을 더 믿는다 라고 하였습니다. 웹은 하나의 데이터베이스와 같은데, 애플이 왜 강할 수 밖에 없으냐고 하면서, 애플 아이폰의 수백만 팬들의 온라인 정보를 통해 기존에는 마케팅, 설문, 포커스 그룹을 통해서만 가능했던 정보 습득을 보다 쉽게 할 수 있기 때문이라고 하였습니다. 고객의 의견을 무시할 수 없는 사례로 예전에 아이폰 안테나 수신 문제가 생겼을 때, 스티브 잡스는 고객들에게 안테나의 수신 부문을 왼쪽 손으로 잡지 말고 통화하면 된다고 하였습니다. 아이폰의 팬들이 이를 받아들이지 않고 고쳐달라고 의견을 개진했습니다. 팬들조차 그랬는데 팬이 아닌 자들은 어떤 기분이 들었을까 하였는데, 결국 아이폰 안테나 수신 문제가 고쳐졌고, 고객의 의견은 더 이상 무시될 수 없다고 하였습니다. 과연 기업들이 정말 고객에 귀를 귀 울이고 있냐고 질문도 던졌습니다 (Are you listening?)


결론 장표에서는 "Pervasive Bi for informed decisions, Growth in data volumes will accelerate, New analytic paradigms will emerge, slow death of the data marts"라고 하였습니다.


"Do More with your data: 기업 수익성 향상을 위한 빅데이터 분석의 간소화" 발표

이어지는 기조연설에서는 시저 로저스께서 "Do More with your data: 기업 수익성 향상을 위한 빅데이터 분석의 간소화"에 대해 발표하였습니다. 빅데이터에 대해 4가지 관점으로 설명해주셨습니다. o 큰 데이터(Large data) o Emerging new data types (unstructured 데이터가 아니고 multi-structure data 라고 하였습니다) o Gartner가 말한 Velocity, Volume, Variety, Complexity, o New(non-SQL) analytics 입니다.


이어지는 설명에서 MapReduce에 대한 설명이 있었습니다. 2004년 구글을 통해 세상에 알려졌다고 하였고, DataMapReduce를 통해 관리할 수 있다고 하였습니다. 절차는 Input -> Splitting -> Mapping --> Shuffling --> Reducing --> Final Result 의 단계를 거친다고 하였습니다. 간단한 개념이지만 많은 프로그래밍이 필요하다고 하였습니다. Hadoop 프레임워크에 대한 언급이 있었습니다. Asteradvanced 분석을 위한 프레임워크에 대한 언급이 있었습니다. Aster Development Express(ADE)를 통해 Visual Development , 빠른 테스트(rapid testing)가 가능하고, 쉬운 전개(Easy deployment)가 가능하다고 하였습니다. Aster SQL-MapReduce HadoopMapReduce와의 차이점에 대해 설명해셨는데, 장표 내용을 보면 Aster SQL-MapReduce Customized MapReduce, Deployed via SQL-MR and BI and Visualization tools, Easy to manage database, 50+ packaged SQL-MR Analytics, SQL "language of business", Integrated Development Environment(IDE) 입니다. HadoopMapReduce o customized MapReduce, o Deployed via application code and people, o File System 이라고 하였습니다. 두 공통요소(npath, market basket)에 대한 설명도 있었는데, 이 부문에서 기억에 남는 것은 새로운 고객을 얻는 것은 기존 고객을 유지하는 것보다 3배 가량 비용이 소요된다 란 사실입니다. 마케팅 관점으로 설명해주셨는데 명확히 이해를 못했습니다.


이렇게 오전 세션이 끝났습니다. 호텔이라 그런지, 점심은 도시락을 개인마다 주셨습니다.


"링크드인의 대규모 BI 및 분석" 발표

점심 후 이어지는 세션에서는 링크드인의 수닐 쉬르구피가 "링크드인의 대규모 BI 및 분석"이란 주제로 발표하였습니다. 다음의 순서로 발표를 하였는데요. - About LinkedIn, - Data Scientist - Technology stack - Innovation - Insight 입니다. 링크드인의 비전은 "To connect all of the world's professionals to make them more productive and successful"이라고 하였습니다. 그리고 본인 스스로 구글링을 해본 적 있냐고 묻기도 하였습니다. 링크드인은 직업을 찾는 사람뿐만이 아니라 모두에게 오픈된 공간이라고 하였습니다. 다양한 수익 채널(Premium Subscriptions, Self-serve ads, Hiring solutions, Marketing solutions)이 있다고 하였습니다.


데이터 사이언티스트에 관해서는 curiosity + intuition + data gathering + statistics + modeling + visualization + communication 의 스킬이 있어야 한다고 보았습니다. 빅데이터는 Volume, Variety, Velocity의 관점에서 보았습니다.


링크드인 데이터의 크기는 EDW로부터 멀티 TB급 데이터가 나오며, 제품 추천에 100TB가 매일 나오고 있으며, 매일 4시간마다 3~4번 정도 데이터를 돌릴 수 있고, 거의 실시간으로 (up to the minutes) 관리할 수 있다고 하였습니다. Visualization이 중요하다고 언급하였고, Buzzwords에서 키워드에 주목하고 있다고 하였습니다.


결론은 모두 사람에 관한 것이라 하였습니다.


"Do More With Your Data: 빅데이터를 활용을 통한 심층 분석" 발표

다음 세션에서는 다시 한번 CTO 스티븐 브롭스트께서 다시 발표를 해주셨는데요. 주제는 "Do More With Your Data: 빅데이터를 활용을 통한 심층 분석" 입니다.


현재 우리는 Zettabyte 시대에 살고 있다면서, 지금 말하는 빅데이터에서 ''은 단순히 크기를 말하는 것이 아니라 근본적으로는 상호작용이라는 것이 포함된 개념이라고 말하였습니다. , 지금의 데이터는 interaction이 있고 예전에는 단순한 거래성 (transactional) 데이터라고 하였습니다. 현재는 기술뿐만이 아니라 데이터 자체가 새로운 비즈니스의 근본이 된다고 하였습니다 (...... data are becoming the new material of business). 한 예로, 운전자의 운전 습관을 분석해 보험에 적용할 수 있는데, 이는 기존에 획득하기 어려웠던 데이터의 습득을 통해 가능해졌다고 말하였습니다. 또한, SPIMES (Space + Time)란 용어를 보여 주면서 시간과 공간을 지각하고 있는 Object에 대해 설명하였습니다 (GPS positioning, Memory, Communication Sensors) 빅데이터 분석이 얼마나 우리 생활에 밀접해졌는지 보여주기 위해 ''의 예제를 들었는데요. 소 한 마리당 약 200MB의 데이터가 연간 나온다고 하였습니다. 전세계적으로 약 13억 소가 있다고 하면, 연간 분석해야 되는 데이터의 양은 260 PB 라면서 이에 맞는 서버도 필요하다라고 하였습니다. 2013년에는 33% BI Intelligence가 핸드헬드 기기에서 나온다는 예측을 보여주면서, 이 트렌드 예측은 맞지만 숫자는 틀렸다고 하면서, 2/3이 핸드기기에서 발생할 것이라고 말하였습니다. Price Elastic Analysis BI를 통해 가능할 것이라고 하였습니다. 현재 미국에서는 20% 가구가 핸드헬드 기기를 통해 헬스정보를 활용한다고 하였고, 이는 미국에서 중요 이슈 중 하나라고 하기도 하였습니다. 기억나는 그래프가 하나 있는데 7일동안 데이터의 활용도를 온도에 빗대어 보여준 그래프 입니다. 25% 데이터는 활용도가 매우 높지만, 그에 반해 75% 데이터는 활용도가 낮은 데이터 입니다. 빅데이터 시대에서는 데이터의 활용도가 정해진 것이 아니라, 데이터의 온도가 뜨거운 것에서 차가운 것 사이를 동적으로 움직일 수 있다고 하였습니다. 결론적으로는, 데이터의 대규모 병렬 데이터 관리를 통해 가치를 뽑아내고, 빠른 분석도구를 필요로 하며, SQL에 정통한 분석가 또는 BI 도구의 민첩성과 분석 생산성을 향상시켜야 된다고 하였습니다.


이 후에는 3가지 세션으로 구분 지어 발표가 있었습니다. 저는 트랙 1 SAS발표, 트랙 3DHL의 테라데이타 적용사례, 트랙 2Cisco 테라데이타 DW 적용사례에 대해 들었습니다. (계속)


이어지는 세션을 듣기 위해 트랙 1로 이동하였습니다.


High Performance Computing을 활용한 빅데이터 분석 아키텍처 전략 및 사례 소개발표

High Performance Computing을 활용한 빅데이터 분석 아키텍처 전략 및 사례 소개를 주제로 SAS코리아 고준형 팀장님께서 발표해주셨습니다.


SAS사 역시 테라데이타처럼 빅데이터 분석에 많은 관심을 가지고 분석 솔루션을 제공하고 있다고 하였습니다. ADW (Analytics Dataware house) 활용에 대한 언급이 있었습니다.


데이터의 크기는 테라급, 페타급, 제타급 바이트로 커져가고 있다고 하면서, 개인적으로 보면은 2010년에는 128GB 저장용량이 표준이었다면, 2020년에는 130TB를 개인마다 가질 것이라고 예측하였습니다. Analytic Platform의 고도화를 통해 속도 개선, 분산처리 지원, 전 프로세스 지원, 통합된 분석 프레임워크가 가능할 거라 하셨습니다.


SAS코리아가 제시한 빅데이터 정의는 기존의 3V (Variety, Volume, Velocity)에서 Value를 더하여 가치제공을 강조하였습니다. SAS가 제시한 빅데이터 분석맵은 아래와 같습니다.

O SAS Advanced Analytics: SAS statistics, SAS data mining, SAS forecasting, SAS text analytics

O SAS Information Analytics: Diversity data, SAS DI, DQ, qMDM, Data governance, Strategy plan

O SAS Big Data Definition: velocity, variety, volume, value

O SAS High-Performance Analytics: SAS Grid Computing (관리(management), 활용가능성 (availability), 스케줄링(scheduling)), SAS In-database, SAS In-Memory analytics

O SAS Unified Architecture: Analytic DW, Unified DW

입니다. 이중 고준형 팀장님이 강조한 부문은 ‘In-Memory Analytics’가치제공이었습니다.


SAS Biz analytic 프레임워크는 Business Process, People, Technology로 구성된다고 하였습니다.


다른 것 기억 못해도 이번 발표에서 기억해야 할 점은 SAS 빅데이터 분석에서 In-Memory Analytics가 중요하다고 하셨습니다.

 

익스프레스의 주요 의사 결정 및 분석 작업 지원 프로세서 소개발표

SAS코리아 발표 후에는, DHL 사례를 듣기 위해 트랙 3으로 이동하였습니다. DHL 익스프레스의 글로벌 코스팅(Costing) 책임자 크리스 반 험빅이 익스프레스의 주요 의사 결정 및 분석 작업 지원 프로세서 소개주제로 발표하였습니다.


DHL은 본사가 독일에 있는 운송회사라고 하였습니다.

Activity Based Management (ABM) 으로 관리를 하고 있다고 하였고 관리 항목에는,

1. 일관성

2. 가격정책 및 수익성 관리

3. 비용 관리(Price differentiation)

4. Operational Rule Base 알고리즘

5. 비용 절감

6. Enabler(완벽한 조력자) 입니다. (Enabler번역이 완벽한 조력자라고 표현한 것이 흥미로웠습니다.)


코스팅 부문에서 규모가 작은 나라들의 경우는 Plug & Play방식으로 5명이 모두 관리하고 있다고 하였습니다. 상위 20개 국가의 경우는, 유연성을 반영한 Local 데이터베이스를 통하여 각 나라별로 관리하고 있다고 하였습니다.


DHL에서는 매출, 원가, 수익성 등을 관리하는 솔루션 Insight v1.5를 개발 중이며, 데이터 품질 극대화에 초점을 맞추고 있다고 하였습니다.


솔루션을 통해 다음을 수행할 수 있다고 합니다.

O 수익성 보고(정확성)

O 마진 관리(강화)

O 고객순응도(세분화)

O 원가관리(개선)

O 운영벤치마킹(대응성)

O 교역선(track lane) 통제(세부사항)

이는 효율성 제고에 도움이 된다고 하였습니다.


그리고 DHL에서 사용중인 테라데이타 Value Analyzer(TVA) 를 활용한 이유로 10가지를 말하였습니다. 10가지는 1. 기존 데이터 웨어하우징(테라데이타)를 이용한 시스템 유지보수 비용 절감 2. TVA는 기존 데이터 소스와 연결된 중앙시스템에서 실행 3. 동일 플랫폼 상에 Calculation 엔진 및 데이터 웨어하우스 4. TVA“Rule Base” 5. 넓은 영토의 국가를 위한 세부 정보와 작은 영토와 국가를 위한 표준 할당 등 시스템 유연성을 통해 동일 기능에 다양한 규정 가능 6. 새로운 스캔 코드 등 규정 업데이트 및 개선이 간편 7. 수억 건 이상의 거래도 효율적으로 처리 가능 8. 고품질의 테라데이타 컨설팅 및 프로그래밍 기술 제공 9. 강력한 지원 체계 10. 훌륭한 프로젝트 팀 입니다.


DHL이 얻은 Insight는 다음과 같다고 하였습니다. 크게 2가지로 구분하여 설명하였는데, 개발을 할 때는 인내하고, 경영진의 지원이 필요하며, 프로젝트와 비즈니스 연계가 중요하고, 현실성을 유지(전문가의 감독)해야 한다고 하였습니다. 사용(deployment) 시에는 변화관리(costing data에 다른 접근방안 고려 등)가 필요하고, 빠른 성과는 함께 공유하며, 서두를 필요가 없다 등을 말하였습니다.


DHL의 경우 25억개 레코드, 각 화물당 250개 레코드를 관리하고 있다고 합니다. 데이터 분석 솔루션을 통한 실질 효과에는 인프라 측면에서 50만 유로 절감, 작업 프로세스 & 효율성 부문에서 비효율적 업무활동 감소 효과를 얻었다고 하였습니다. 대응적 비즈니스 부문에서 정확성 향상, 보다 빠른 의사결정이 가능했으며, 보고 절차 부문에서는 의사결정 및 수익 증대를 위한 능동적인 데이터 이용이 가능하고, 최적의 비전, 성능 분석 등이 가능하다고 하였습니다.


비즈니스 가치 창출을 향한 혁신의 길: 새로운 데이터 웨어하우스, 마스터 데이터 및 데이터 거버넌스 도입을 통한 수백만 달러의 기업 가치 창출발표

그 다음 발표는 트랙 2에서 비즈니스 가치 창출을 향한 혁신의 길: 새로운 데이터 웨어하우스, 마스터 데이터 및 데이터 거버넌스 도입을 통한 수백만 달러의 기업 가치 창출의 주제로 바바라 호플이 발표하였습니다.


프레젠테이션을 할 때 누가 청중인지가 중요하다고 했는데, 마이그레이션 할 때 IT와 비즈니스적인 이유가 무엇인지 관련 부서 사람들을 설득하는 것이 관건이었다고 하였습니다.


마이그레이션을 통해 의사결정에 도움이 된다는 것이 마이그레이션을 하는 하나의 이유였는데요. 의사결정시 VSE (Vision, Strategy, Execution)를 활용한다 라고 언급했었습니다.


데이터부터 정보(Knowledge), Insight로 변해가는 다이어그램을 보여줬었습니다. 여기에 적용되는 분야는 커뮤니티, 데이터 웨어하우스, 엔터프라이즈 솔루션, 마스터 데이터 관리, 엔터프라이즈 보안, BI 등이 있습니다.


웨어하우스의 진화라는 장표에서는 과거, 현재, 미래로 구분하여 과거 웨어하우스에서는 CBP(?)별 전략을 활용했고, 현재는 중앙 집중된 기업전반 데이터를 활용하고 있으며, 미래에는 협업을 통한 비정형 데이터(unstructured data 라고 적혀있었는데, 앞선 발표에서 말한 것을 의식해서 스티브 브롭스트를 언급하였네요.) 처리를 할 것이다 라고 언급하였습니다. BI진화는 CBP(?)별 보고/운영에서 BI기능이 멀티화되고 이제는 예측기반 및 전략적(Analytic Predictive Modeling)으로 변화하고 있다고 하였습니다.


비용/혜택 분석을 통하여 투자효과를 입증하고자 했고, DW BI 측면에서 줄 수 있는 가치는 무엇일까에 대해 고민하였다고 하였습니다. (더 싸던가? 아니면 더 빠르던가의 측면)

테라데이타로 마이그레이션을 하면서 데이터 품질 측면에서는 99.9% 이슈가 없었다고 합니다. 수익원들 PDA 프로그램 통해 수수료를 파악하여 재무적 효과도 측정하였다고 하였습니다.


테라데이타로의 마이그레이션은 FY08에 시작하여 FY12년에 완료되었고 발표 1주전에 완료하였다고 하였습니다. 새로운 데이터를 통해 속도(생산성), 파워(경험), 성능(성장) 측면에서 발전을 기대하고 있다고 합니다.


결론적으로 마이그레이션의 과정은 처음에 사람들을 설득하기 위해서 비전을 설정하고 전략을 구성하여 전략을 어떻게 실행할지 관련 사람들에게 재각인 시켜주고, 성공을 축하하는 과정을 통해 테라데이타로의 마이그레이션이 완성되었다고 하였습니다.


이렇게 각 섹션 별 발표가 끝나고, 경품추첨 시간이 있었습니다.