빅데이터, 이젠 Consumption이 핵심

0
4297

“구슬이 서말이라도 꿰어야 보배”라는 우리나라 속담이 있다. 빅데이터에 관련된 기사를 읽거나 세미나를 참가할 때 마다 이 속담이 생각이 난다. 보통 빅데이터의 표현할 때 Volume, Velocity, Variety로 말한다. 빅데이터를 가지고 있으면 무엇이던지 할 수 있을 것 같은 생각이 든다. 하지만 이러한 빅데이터를 수집해 잘 모셔두고 있다면 무슨 소용인가? 오히려 모셔두는데 큰 비용이 들뿐이다. 이는 빅데이터 뿐만이 아닐 것이다.

[ 빅데이터의 특성 ]

Big Data 특징

Source: ROA Consulting

 

  • 빅데이터 가치사슬

일반적으로 빅데이터는 수집→저장→분석→보고 라는 일련의 과정을 거치게 된다. 수집은웹, 소셜미디어, 로그파일, 센서 등의 다양한 데이터 소스에서 로그수집기, 크롤링, 센싱 등을 통해 수집되고 데이터는 분산 저장 및 DB 기술을 통해 비정형/정형 데이터로 저장된다. 저장된 데이터는 통계 및 수리 모델링과 알고리즘을 통해 분석되어 목적에 최적화된 다양한 형식으로 보고가 된다.

[ 빅데이터의 가치사슬 ]

가치사슬

Source: ROA Consulting

 

빅데이터의 가치사슬은 수집과 저장 단계인 전방 가치사슬과 분석과 보고의 단계로 구성된 후방가치사슬로 구분할 수 있다. 전방가치사슬은 빅데이터를 생산하고 관리하고 후방가치 사슬은 이러한 데이터를 소비하는 것으로 설명할 수 있다.

“구슬이 서말이라도 꿰어야 보배”라는 관점에서 빅데이터 가치사슬을 살펴보면 아무리 빅데이터를 막대한 비용을 들여 수집하고 저장한다고 해도 효율적이고 효과적으로 Consumption 하지 못하면 수집하고 저장된 빅데이터는 무용지물이 된다.

물론 전방 가치사슬 또한 중요하다. 모바일 기기와 소셜네트워크의 확산 그리고 디지털 채널 확대로 인한 대규모 고객 데이터 등이 쉽게 생성될 수 있는 환경은 데이터를 폭발적으로 증가시키고 있다. 따라서 폭발적으로 증가하는 데이터를 어떻게 수집하고 저장할 것인지도 중요하다.

 

  • Kaggle, 빅데이터 분석 플랫폼

빅데이터 가치사슬의 분석 단계에서 재미있는 플랫폼이 있어 칼럼을 통해 소개해 보고자 한다.

[ Kaggle의 CEO(우) 및 President and Chief Scientist(좌) ]

CEO

Source: 雷锋网

Kaggle은 Anthony Goldbloom에 의해 2010년 4월에 서비스를 런칭되었다. 창업자는 계량경제학을 전공했으며, 호주준비은행에서 거시경제 모델링 업무 및 호주 재무성에서 근무를 했었다.

[ How Anthony Goldbloom Spends His Time(17~28) ]

How Anthony

Source: Kaggle

창업자가 17세 때부터 28세까지 자신이 어떻게 시간을 보냈는지 계량경제학을 전공한 사람으로서 Kaggle 홈페이지에 재미있게 정리해놨다. Anthony Goldbloom 17~28살 까지의 시간 중 Kaggle을 위해 보낸 시간과 여자를 쫓아다닌 시간이 제일 많다.

[ Kaggle 서비스 Process 및 Web 페이지에 등록된 Competition List ]

Process

Competition List

 Source: Kaggle

Kaggle 플랫폼의 Process를 설명하면 매우 쉽다. 플랫폼의 한편에는 데이터를 가지고 있지만 이를 가지고 문제를 해결하지 못하는 기업이나 사람이 있고 다른 한편에는 계량경제학, 통계학, 수학 등의 배경을 가지고 있는 5만 5천명의 Data Scientists가 있다. 데이터를 통해 문제를 해결하지 못하는 기업이나 사람이 상금을 걸고 플랫폼에 데이터와 문제를 등록해 놓으면 Data Scientists는 상금이나 연구 등의 목적을 가지고 최적의 알고리즘 및 모델링을 개발하기 위해 경쟁에 참여한다.

[ Kaggle을 이용하는 User들의 국가 및 Data Scientists의 Skillbase별 비중 ]

User Segment

Source: Kaggle

정해진 기간 동안 경쟁을 계속되고 Leader Board를 통해 참가자들이 개발한 알고리즘 및 모델에 대한 정확도를 실시간으로 피드백 해준다. 최종적으로 가장 정확한 알고리즘 및 모델을 개발한 사람이 우승을 하게 되고 상금을 거머쥐게 된다. Kaggle에 Healthcare와 관련된 경쟁에 3백만 달러의 상금이 걸려 크게 이슈가 되기도 했다.

 [ Competition의 시간에 따른 정확도 변화 ]

Accuracy

Source: Kaggle

 

필자 또한 계량경제를 전공했지만 대학원을 다니는 동안 실전 데이터를 가지고 분석 및 연구에 참여할 기회는 많지 않아 이러한 플랫폼이 있으면 좋겠다는 생각은 여러 번 한적이 있다. 물론 사회에 나와서는 실전 데이터를 활용해 분석을 할 기회는 많았다.

 

  • 빅데이터 가치사슬에서 Consumption이 차별화 및 경쟁력 확보의 핵심

앞에서 소개한 Kaggle 플랫폼의 재미있는 점은 구슬을 가지고 있지만 꿰지 못하는 사람들에게 구슬을 꿰어줄 수 있는 사람을 연결해 준다는 점이다. 특히, 전문가들이 자발적으로 경쟁에 참여해 최선의 알고리즘 및 모델을 개발할 수 있도록 상금과 데이터를 제공하는 점이 흥미롭다.

빅데이터가 앞으로 많이 생성되어 수집 및 저장 될수록 Consumption의 니즈는 빠르게 증가할 것으로 예상된다. 따라서 빅데이터 영역에서 고급 분석 경쟁력 확보를 위한 움직임이 있을 것으로 예상되며, 특히 빅데이터 Consumption를 분석 Start up들이 등장할 것으로 기대된다.

 

  < Kaggle 참고 동영상 >