2011년 "빅 데이터 시대의 데이터마이닝 역할" 학술대회 자료 내용

2012. 3. 23. 10:29Data Science/Seminar


2011년 12월 2일(금) 오전에 참석했던 "빅 데이터 시대의 데이터마이닝 역할" 학술대회 자료 내용 입니다. 3가지 분야에 관한 내용이였습니다.



1) Recommender System with Big Data 세션은 미국 현지 Yahoo Research에서 근무하다 삼성전자 DMC 연수소 재직중인 박승택 박사가 발표해주셨습니다. 추천 시스템은 현재 삼성전자 쪽에서 많은 연구를 하고 있다고 합니다. 1992년 부터 시작된 추천 시스템이라는 것이 현재까지 약 10년동안 정확성은 발전한 것이 보이지 않는다라고 하셨습니다. 소셜화되는 관점이 이젠 부각되어야 한다는 것을 말씀하셨고요. Hadoop이란 Open Source에 대한 언급이 있었고, Map/Reduce라는 것에 대한 언급이 있었습니다. Map --> Shuffle --> Combine --> Reduce라는 순으로 데이터 마이닝이 발생한다고 하였고, 활용 할 수 있는 타스크는 명확히 정해져 있어 구현 가능/불가능 한 것들이 정해져 있다고 했습니다. 그리고 야후에서 쓰는 Mad6라는 영화 추천 메뉴에 대한 얘기를 했습니다. 웹페이지 위치에 따라 클릭율이 다르다라는 것, 사용자 그룹별로 페이지 뷰를 그래프화 한 장표에 의하면 사용자 그룹별로 페이지 뷰에 관한 일정 패턴이 존재한다는 것 등을 알려주셨습니다. Youtube의 60%의 클릭이 추천에 의해 된다는 통계적 사실도 흥미로웠습니다.

2) 두번째 세션은 Data Science란 제목으로 서울대 이영조 교수님이 발표해 주셨는데요. 데이터 양이 2년마다 2배 증가하고 있으며, 2007년 기준으로 모든 데이터를 수용할 수 있는 물리적 크기를 벗어낫다고 언급하였습니다. 통계학 용어 중에 우도라는 것이 있다는 것이 기억에 남았습니다. 또한, Data Science 학회 설립을 추진중이라고 하셨고요.

3) 세번째는 헬스 아바타란 제목으로 서울대 의대 김주한 교수님이 발표해주셨습니다. 예전에는 메티컬 관련 처리가 수동으로 되던 것이 컴퓨터로 넘어와, 현재의 단계까지 왔다고 말씀하셨습니다. 유전자 데이터 자료가 언젠가는 $30로 얻을 수 있다는 얘기가 있다고 하셨는데, 이게 미래에는 불가능하지 않을 수 있다고 하셨습니다. 의료는 Data Intensive보다는 Information Intensive라고 언급하였습니다. 그리고 유전자 분야는 가설없이, 데이터가 먼저 나와 활용이 된다고 하셨는데요. 스마트폰에 대한 언급도 하시면서, 스마트폰을 활용하여 개인의 라이프로그, 진료기록, 유전자 정보를 토대로 각자의 건강을 검진할 수 있는 '헬스 아바타' 모델에 대해 설명해주셨습니다.