Top Banner
빅데이터 플랫폼, 새로운 미래 Pla&orm Camp 2012 12.06.23 김우승
14

빅데이터 플랫폼 새로운 미래

Jun 27, 2015

Download

Technology

Wooseung Kim
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 빅데이터 플랫폼 새로운 미래

빅데이터 플랫폼, 새로운 미래  

Pla&orm  Camp  2012  12.06.23  김우승  

   

Page 2: 빅데이터 플랫폼 새로운 미래

소개  •  줌인터넷(주) 연구소장  •  이력  

–  줌인터넷  –  SK  플래닛  –  SK  텔레콤    –  삼성전자  

•  h7p://kimws.wordpress.com  •  @kimws  

Page 3: 빅데이터 플랫폼 새로운 미래

Why  Now?  

     Connected  Everything  –  Smartphone  –  LTE  –  Sensor  Networks    –  …  …  

¨  Google  ¨  Facebook  ¨  Yahoo  ¨  LinkedIn  ¨  Twi7er  

웹 서비스 비즈의 성장 기술 공개 ,  빠른 기술 진화  

데이터 처리 비용 상대적으로 낮아짐  

데이터의 폭발적인 증가  멀티미디어  실시간 데이터  

 

Cost  <  Value  

NoSQL  

Page 4: 빅데이터 플랫폼 새로운 미래

Legacy  Technologies  .vs.    Big  Data  Technologies  

•  Single  Machine  –  MulY-­‐core  (>  16  cores)  –  Scale-­‐up  –  High  Price  H/W,  S/W  –  SAN  Storage  

•  MS  Windows,  AIX,  HP-­‐UX  •  Commercial  SoluYons  •  IBM,  Oracle,  Microsoa  

 •  RDBMS  •  TeraData,  Exadata,NeYzza  •  SAS,  SPSS  

•  MulYple  Machines  –  Commodity  H/W,  N/W  –  Scale-­‐out  –  Low  Cost  H/W  –  Distributed  FS  

•  Linux  •  Open  Source  •  Google,  Yahoo!,  Facebook,  

Twi7er,  LinkedIn  •  NoSQL  •  Hadoop  •  R  

Page 5: 빅데이터 플랫폼 새로운 미래

Legacy  Data  Pla&orm  

고가의 하이엔드 싱글서버 서버, 네트워크장비 SAN 스토리지 상용 데이터베이스, 마이닝 솔루션 매우 고가

비용은 몇배로 발생 시스템 아키텍쳐 & 데이터 구조 변경이 불가피 처리할 수 있는 데이터 처리에 한계가 발생

데이터 수집   데이터 처리   데이터 분석   데이터 제공  

SAN Storage

FTP SFTP Rsync

OLAP Tools

ETL Process (IBM DataStage) SQL, PL/SQL

RDBMS (Oracle, DB2, MSSQL …)

데이터 마이닝 (SAS)

Local FS Local FS

Data Warehouse (TeraData)

Service Server

시스템 확장  

Page 6: 빅데이터 플랫폼 새로운 미래

No  MigraYon  ,  Hybrid!!!  

Page 7: 빅데이터 플랫폼 새로운 미래

Big  Data  Pla&orm  

Real-time Stream & Event Processor

데이터 수집   데이터 처리   데이터 분석   데이터 제공  

Distributed File System

FTP SFTP Rsync

OLAP Tools (R)

ETL Process Pig & Script Lanugage

RDBMS (Oracle, MySQL)

데이터 마이닝 Mahout, R

Local FS Local FS

Data Warehouse Hive, R

Service Server

MapReduce Framework

NoSQL (Hbase, Cassandra)

SAN Storage

Log Aggregator (Flume)

Data Warehouse

NoSQL (MongoDB)

•  대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용 •  최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용 •  Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성

Page 8: 빅데이터 플랫폼 새로운 미래

재빠른 벤더들의 움직임  

Page 9: 빅데이터 플랫폼 새로운 미래

‘12년 국내 빅데이터 시장은?  

•  DB,  DW  벤더중심의 마케팅으로 왜곡  – 기존 DW,  데이터 마이닝과 무슨 차이?  

•  빅데이터가 있기는 한건가?  – 주로 소셜미디어 (주로 트위터) 분석 시장  

•  SmartInsight,  Seenal,  TrueStory,PulseK,  tweetTrend  …  – 게임회사,  포털서비스, 서비스회사,  Telco  

•  2-­‐3년 전부터 기술을 도입하여 활용중  

‘12년 하반기되면 거품이 빠질 듯 …  

Page 10: 빅데이터 플랫폼 새로운 미래

그러다보니 …  •  ‘11년부터 분산 컴퓨팅 환경에서의 데이터 프로세싱 영역에는 빅데이터 기술들을 적극 도입하고 활용  –  퍼스널 클라우드의 확대로 저가의 분산 스토리지에 대한 개발과적용은 활발  

–  대용량 데이터 저장과 프로세싱을 위한 NoSQL에 대한 활용이 크게 늘고 있음  

 •  데이터 분석 분야에서 특히 분산 컴퓨팅 환경에서의 대용량 마이닝 알고리즘이나 분석 기법은 제한적으로 활용되고 있음  –  이 영역이 외국계 업체들의 컨설팅, 솔루션 비지니스시에 강점으로 내세울 것임  

–  데이터가 없으니 당연히 국내에서는 이 영역에서 두각을 나타내는 업체 없음. 소셜분석이 뜨는 이유는 트위터데이터만이 활용할 수 있는 공개된 빅데이터(?) 라 할 수 있기 때문에

Page 11: 빅데이터 플랫폼 새로운 미래

Big  data  is  not  bubble!!!  2-­‐3년 이내에 각 산업계, 학계의 다양한 도메인별로 해외의 성공사례들이 나오게되면 비싼 컨설팅 비용과 솔루션 비용이 발생하고 기술 및 역량을 내재화하는 시기마저 놓칠수도  

전 산업분야에 걸쳐서 빅데이터 기술을 이용한 응용들이 크게 늘어나게 될 것이며 이를 뒷받침하는 하드웨어, 네트워크, 분산 알고리즘 연구, 분석도구 시장 역시 함께 성장하게 될 것이다.    

 클라우드 컴퓨팅이 거품이 아니었듯이  

Financial  Services  

Natural  Resources  

Manufacturing  

TransportaYons  

Government  

Healthcare  

Retail  

Media  and  Entertainment  

UYliYes  

Cloud  

Science  

Page 12: 빅데이터 플랫폼 새로운 미래

빅데이터는 있다. 하지만 …  어떤 가치를 찾을 수 있지?  

 •  당장 분석할 충분한 데이터를 갖추고(저장하고) 있지않다.  •  그래도 일단 데이터를 수집하고 바로 시작해야 한다.  •  다양한 분석과 데이터로부터 가치를 찾는 일을 시작해야 한다.  

 닭과 달걀의 문제  즉 ROI  의 문제!!!  내재화가 필요하다  

Page 13: 빅데이터 플랫폼 새로운 미래

빅데이터를 위한 기술 역량  

도메인 전문가  

데이터 분석가  

소프트웨어 개발자  

시스템 엔지니어  

•  추천 로직 기획,  광고 플랫폼  •  Financial  &  Stock  Market  •  Health  Care  •  BioInfomaYcs  •  Power  Management  

•  통계 & 데이터 탐색  •  데이터 마이닝 & 기계학습  •  데이터 분석  •  리포팅  •  데이터 시각화  

•  데이터 수집  •  마이닝 알고리즘 &  ML 구현  •  데이터 처리 엔진 구현  •  데이터 저장소 최적화  •  분산 알고리즘 구현  

•  운영 체계 최적화  •  컴퓨팅  H/W,  N/W  최적화  

•  OLAP  Tools  •  SAS,  SPSS,R,Weka  •  SQL  •  RDBMS  •  ETL  •  Script  Language  •  Pig,  Hive  •  MapReduce  

•  Log  Aggregator  •  NoSQL  •  Hadoop  •  Linux  •  X86  •  Network  

•  VisualizaYon  •  Infograph  •  IR  &  RecSys    

Data  Scien

Yst  

DevO

ps  

Page 14: 빅데이터 플랫폼 새로운 미래

감사합니다.