Top Banner
Big Data, Service Science, and Computational Science Ho Tu Bao Japan Advanced Institute of Science and Technology (JAIST) John von Neumann Institute, VNU-HCM Outline 2 Computational Science and Engineering Service Science Dliu nhiu quanh ta hơn bao gihết 3 Thư viện Alexandra (thế kỷ 3 trước CN) chứa toàn bộ kiến thức của loài người. Ngày nay, lượng thông tin trên toàn thế giới (khoảng 120 exabyte) đủ để chia cho mỗi đầu người một lượng nhiều gấp 320 lần lượng thông tin của thư viện Alexandria. Nếu ghi 120 exabyte vào đĩa CD và xếp chúng lên nhau, sẽ có 5 chồng CD và mỗi chồng đều chạm tới mặt trăng. Big data nói về các tập dữ liệu rất lớn và/hoặc rất phức, vượt quá khả năng xử lý của các kỹ thuật IT truyền thống. Volume: Lớn từ mức Terabytes đến Petabytes (10 15 bytes) cả Zetabytes (10 18 bytes) Variety: Sự phức tạp của dữ liệu, từ có cấu trúc, nửa cấu trúc đến không có cấu trúc (logs, văn bản thô, video, audio…) Velocity: Dòng chuyển động của các lượng dữ liệu rất lớn (tính động) Veracity: Tính tin cậy , độ chính xác, tính đúng đắn của dữ liệu. Big data là gì?
10

Xem Slide tại đây.

Jan 28, 2017

Download

Documents

LeThien
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Xem Slide tại đây.

Big Data, Service Science, and Computational Science

Ho Tu Bao

Japan Advanced Institute of Science

and Technology (JAIST)

John von Neumann Institute, VNU-HCM

Outline

2

Computational Science and Engineering

Service Science

Dữ liệu nhiều quanh ta hơn bao giờ hết

3

Thư  viện  Alexandra  (thế  kỷ  3  trước  CN)  chứa  toàn  bộ  kiến  thức  của  loài  người.  Ngày  nay,  lượng  thông  tin  trên  toàn  thế  giới  (khoảng  120  exabyte)  đủ  để  chia  cho  mỗi  đầu  người  một  lượng  nhiều  gấp  320  lần  lượng  thông  tin  của  thư  viện  Alexandria.  Nếu  ghi  120  exabyte  vào  đĩa  CD  và  xếp  chúng  lên  nhau,  sẽ  có  5  chồng  CD  và  mỗi  chồng  đều  chạm  tới  mặt  trăng.

Big data nói về các tập  dữ  liệu  rất  lớn  và/hoặc rất  phức, vượt  quá  khả  năng  xử  lý  của  các  kỹ  thuật  IT  truyền  thống.

Volume: Lớn  từ  mức  Terabytes  đến  Petabytes  (1015 bytes)  cả  Zetabytes  (1018 bytes)

Variety: Sự  phức  tạp  của  dữ  liệu,  từ  có  cấu  trúc,  nửa  cấu  trúc  đến  không  có  cấu  trúc (logs,  văn  bản  thô, video, audio…)

Velocity: Dòng chuyển  động  của  các  lượng  dữ  liệu  rất  lớn  (tính động)

Veracity: Tính tin cậy, độ chính xác, tính đúng đắn của dữ liệu.

Big data là gì?

Page 2: Xem Slide tại đây.

Dữ liệu lớn đến từ đâu?

Từ các phương tiện xã hội: Nhìn thấu (insights) được hành vi và ý kiến của khách hàng của công ty.

Từ máy móc: Thiết bị công nghiệp, các sensors và dụng cụ giám �sát, �web �logs…

Từ giao dịch kinh doanh: ID và giá cả sản phẩm, thanh toán, dữ liệu chế tạo và phân bố, … �, �

Nhiều loại khác

5

Each day: 230M tweets, 2.7B comments to FB, 86400 hours of video to YouTube

Large Hadron Collider generates 40 terabytes/sec

Amazon.com: $10B in sales in Q3 2011, US pizza chain Domino's: 1 million customers per day

Dữ liệu lớn có thể rất nhỏ. Không phải mọi tập dữ liệu to đều lớn Big data can be very small. Not all large datasets are big

Big liên quan tới độ phức tạp lớn nhiều hơn là kích thước lớn.

Dữ liệu lớn nhưng lại nhỏ Lò hạt �nhân, �máy �bay… �có �hàng �trăm

nghìn sensors sự phức tạp của việc tổ hợp dữ liệu các sensors này tạo ra?

Dòng dữ liệu của tất cả các sensors là lớn mặc dù kích thước của tập dữ liệu là không lớn (một giờ bay: 100,000 sensors x 60 minutes x 60 seconds x 8 bytes nhỏ hơn 3GB).

Tập dữ liệu to nhưng không lớn Số hệ thống dù tăng lên và tạo ra

những lượng rất nhiều dữ liệu đơn giản.

6 MIKE2.0

Dữ liệu lớn trong bầu cử ở Mỹ 2012

7

More than 150 techies are quietly peeling back the layers of your life.

Họ biết bạn đọc gì, mua sắm ở đâu, làm việc gì, bạn bè là ai. Thậm chí biết cả mẹ bạn lần trước bầu cho ai…

From data mining to online organizing. Qua Facebook, Twitter và nhiều nguồn online khác, một chiến dịch không mệt mỏi nhằm tạo ra một cơ sở dữ liệu chứa tiểu sử riÊng của các cử tri tiềm năng.

Obama có 16 triệu Twitter followers so với 500,000 cuae Romney. Với Facebook, Obama có gần 27 triệu followers so với 1.8 triệu của Romney.

Big data across the federal government 29 March 2012, Retrieved 26 Sep 2012

84 different big data programs, 6 departments

Defense: Autonomous systems (250M$/year)

Homeland security: COE on visualization and data analytics (from natural disaster to terrorist incidents), Rutgers & Perdue Univ.

Energy: High performance storage system to manage petabytes of data, mathematics for analysis of petascale data (machine �learning, �statistics,…)

Health and Human Services: Disease Control & Prevention

Food and Drug Administration (FDA)

National Aeronautics & Space Administration (NASA)

National Institutes of Health (NIH)

National Science Foundation (NSF): Core techniques and technologies for advancing big data S&E.

8 www.WhiteHouse.gov/OSTP

Page 3: Xem Slide tại đây.

Dữ liệu lớn cơ hội lớn

Một số công ty rất lớn nổi tiếng về chế tạo chủ yếu phần cứng trong quá khứ về hiện đang dần thay đổi thành các công ty cung cấp dịch vụ, chẳng hạn như khoa học phân tích kinh doanh (business analytics).

IBM’s �past: Chế tạo servers, desktop computers, laptops, và thiết bị cho hạ tầng cơ sở.

IBM’s �today: �Loại bỏ một số thiết bị phần cứng như laptops, và thay vào đó đầu tư hàng tỷ đôla để xây dựng và nhằm đạt được uy tín (credentials), cố gắng tạo dựng vị trí dẫn đầu trong phân tích kinh doanh.

IBM đầu tư hàng tỷ đôla dùng SPSS trong thị trường phân tích kinh doanh để giành được (capture) thị phần bán lẻ. Đối với các kinh doanh thương mại lớn (large commercial ventures), IBM dùng Cognos để cung cấp toàn bộ phân tích dịch vụ.

9 http://dawn.com/2012/07/25/big-data-big-analytics-big-opportunity/ 25July 2012

Công nghệ Dữ liệu lớn của Google Cloud Storage và BigQuery

Google hiểu rất rõ quản lý và xử lý thế nào các lượng dữ liệu khổng lồ ở mức lớn hơn hầu hết các công ty khác có thể làm.

Google xây dựng công nghệ riêng của mình cho việc phân tích nhanh và tương tác những lượng dữ liệu khổng lồ: BigQuery (nối với Tableau), Cloud Storage.

http://www.wired.com/insights/2012/11/visual-analytics-brings-big-data-in-googles-cloud-to-life/

10 Google Data Center

Biến dữ liệu thành giá trị lớn Turning big data into value

Phân tích dữ liệu lớn cho phép các tổ chức giải quyết các bài toán phức tạp trước kia không thể làm được ra các quyết định và hành động tốt hơn.

Các ưu thế cạnh tranh (Competitiveness advantages).

Cung cấp những hiểu biết sâu (insights) về các hành vi phức tạp của xã hội con người.

Đột phá (breakthrough) trong khoa học.

etc.

11

Data analysis vs. data analytics

Dự báo về Dữ liệu lớn của Gartner

12

IT to spend $232B on Big Data over 5 years

Page 4: Xem Slide tại đây.

Khoa học phân tích là gì? What are Analytics?

Tối  ưu

Optimization

Mô  hình  dự  báo

Predictive Modeling

Kiểm  định  ngẫu  nhiên

Randomized Testing

Mô  hình  thống  kê

Statistical models

Cảnh  báo  (Alerts)

Câu  hỏi/đào  sâu

(Query/drill down)

Báo  cáo  không  thể  thức  (ad  hoc  reports)

Báo  cáo  thông  thường  (standard reports)

“Đâu  là  khả  năng  tốt  nhất  có  thể  xảy  ra?” “What’s  the  best  that  can  happen?”

“Điều  gì  sẽ  xảy  ra  tiếp?” “What  will  happen  next?” “Điều  gì  xảy  ra  nếu  ta  thử  việc  đó”? “What  happens   if  we  try  this?”

“Tại  sao  điều  này  đang  xảy  ra?” “Why  is  this  happening?” “Hành  động  nào  là  cần  thiết? “What  actions  are  needed?” “Chính  xác  thì  vấn  đề  là  gì?”  “What  exactly  is  the  problem?” “Bao  nhiêu,  thường  xuyên  thế  nào,  ở  đâu?”  “How  many,  how  often,  where?”

“Điều  gì  đã  xảy  ra?” What happened?

Phân tích mô tả Descriptive Analytics

Phân tích dự báo và cảnh báo Predictive and Prescriptive Analytics Degree

of Intelligence

13 14

Kinh doanh có phân tích và trí tuệ Business Intelligence & Analytics (BI&A)

1990s

Late 2000s

Recently emerging

Kinh doanh có phân tích và trí tuệ Business Intelligence & Analytics (BI&A)

15

Cốt lõi của phân tích Dữ liệu lớn

16 Source: WAMDM, Web group

Visual Analytics

Data Analytics

Data Management

Page 5: Xem Slide tại đây.

Dữ liệu cấu trúc

Thương mại

Mã nguồn mở

Dữ liệu không cấu trúc

(RDBMS)

(NoSQL DB)

Source: Cisco

Quản lý Dữ liệu lớn Big data management

Mô hình hóa thưa Sparse modeling

18

Chọn  và  tạo  ra  một  tập  nhỏ  các  biến  có    khả  năng  dự  đoán  cao  từ  dữ  liệu  nhiều  chiều. Lasso regresion (Tibshirani, 1996) nơi

sparsity và convexity gặp nhau. Nhiều mô hình đã dựa trên các biến thể của Lasso.

Sparvexity (the marriage of sparsity and convexity) là một trong những phát triển ý nghĩa nhất của thống kê và máy học.

19

Nghiên cứu thiết kế vật liệu US Materials Genome Program

“…  to  shorten  the  materials  development cycle from its current 10-20  years  to  2  or  3  years.”

Một  mô  hình  cấu  trúc  tối  ưu  của  vật  liệu  và  các  tính  chất  cần  đạt  là  kết  quả  của  một  loạt  các  quá  trình  tối  ưu  liên  quan  các  quan  hệ  nhiều  biến  phức  tạp  (rất  khó  xác  định).

Dùng  hồi  quy  tuyến  tính  bội  với  bình  phương  tối  thiểu  và  góc  tối  thiểu  có  điều  chỉnh  LASSO  để  xấp  xỉ  thưa  trong  không  gian  các  cấu  trúc  và  tính  chất  vật  lý  của  vật  liệu.    

20

Rút gọn số chiều Dimensionality reduction

Là quá trình rút gọn số biến ngẫu nhiên, bởi (i) Chọn biến (variable selection), hoặc (ii) Tạo biến mới (variable extraction/construction).

PCA, �ICA, �kernel �PCA, �kernel �methods �… Manifold learning

Page 6: Xem Slide tại đây.

Mô hình đồ thị xác suất Probabilistic graphical models

21

Hai nhiệm vụ chính

Học (Learning): Cấu trúc và tham số của mô hình

Suy diễn (Inference): Dùng các biến quan sát được để tính phân bố hậu nghiệm của các biến khác, v.v.

Probability Theory + Graph Theory

PCWP CO

HRBP

HREKG HRSAT

ERRCAUTER HR HISTORY

CATECHOL

SAO2 EXPCO2

ARTCO2

VENTALV

VENTLUNG VENITUBE

DISCONNECT

MINVOLSET

VENTMACH KINKEDTUBE INTUBATION PULMEMBOLUS

PAP SHUNT

ANAPHYLAXIS

MINOVL

PVSAT

FIO2 PRESS

INSUFFANESTH TPR

LVFAILURE

ERRBLOWOUTPUT STROEVOLUME LVEDVOLUME

HYPOVOLEMIA

CVP

BP

Monitoring Intensive-Care Patients

Mô  tả  và  biểu  diễn  các  hệ  thống  phức  tạp  bằng  các  quan  hệ  xác  suất  giữa  các  biến  ngẫu  nhiên  (biến hiện và biến ẩn). Cốt lõi: Tính mô-đun (modularity): hệ phức tạp = tổ hợp các phần đơn giản hơn.

22

Graphical models Các trường hợp riêng của mô hình đồ thị xác suất

Probabilistic models Graphical models

Directed Undirected

Bayes nets MRFs

DBNs

Hidden Markov Model (HMM)

Naïve Bayes classifier

Mixture models

Kalman filter model

Conditional random fields

MaxEnt

LDA

Murphy, ML for life sciences

Outline

23

Computational Science and Engineering

Service Science

Dịch vụ ở 10 nước có dân số lớn nhất Service sector in top 10 countries by workforce size

24 http://www.nationmaster.com

Page 7: Xem Slide tại đây.

Nền tảng của Khoa học Dịch vụ Background of Service Science

GDP of developed countries (US, Japan, Europe) exceed more than 70%

Global trend of emphasizing service business in information/manufacturing industry (IBM, HP, GE)

IBM announced the concept of SSME (Service Science, Management and Engineering)

Importance of education and research on service science in university(US, Europe, China, Japan)

Utilization of strong points in Japanese industries such as high productivity in manufacturing and Japanese hospitality in traditional service industries

25

Cách tân trong công nghệ mới và dịch vụ New technologies and services in innovation

26

Innovation New technologies

New services

Social and business environment

Human needs in daily life and business

Driving force

Driving force

Tầm quan trọng của Khoa học Dịch vụ Importance of Service Science

27

Value creation by product & technology Commoditization of technology, product

Value creation required in business & society Globalization Information society Servitization Aging society

20th century 21th century

Value Creation

Value creation by Service Science Innovation, System science, Big data, Human science

Dữ liệu lớn trong các hệ dịch vụ Big Data in a service system: key idea

28

Customers Service providers Collaboration

Analysis of customers

Optimization of service

Co-creation of service value

Big Data

Offering the access, transparency to information,

dialogs and risk analysis

Analysis of customer profile data, behavior, opinion,

satisfaction, etc.

Integrating heterogeneous sources, simulation-based data

mining, data assimilation

Page 8: Xem Slide tại đây.

Quản trị quan hệ khách hàng Customer Relationship Management (CRM)

Khoa học về sự sống (life science) và CRM là hai lĩnh vực tiêu biểu nhất của khai phá dữ liệu (data mining).

Lịch sử của CRM

29 Data mining: the next generation. Dagstuhl Seminar Proc. (2005)

B&S CIMS CRM RM

Time line

e-CRM

Late �80’s Mid �90’s 2002 - Future Early �90’s

B&S – Buying & Selling RM – Relationship Marketing CIMS – Customer Information Management Systems CRM – Customer Relationship Management e-CRM- A subset of CRM that focuses on enabling customer interactions via e-channels (the web,

email, wireless, facebook, twitter, etc.)

Công nghệ hỗ trợ CRM thế nào? How can technology support CRM ?

30 Reference: CustomerKING, Big Data Bring Big Value to the Social CRM, SocialBusiness Forum, 2012

User reviews? Fans?

Opinions?

User groups? Reviews?

Oh, over 1000 comments on the product demo….

Does their blog enlighten me In any way?

Does anyone listen to what they have to say?

Outline

31

Computational Science and Engineering

Service Science

Khoa học có mấy chân?

32

Theory

Science

Comput- ational Science

Data- Intensive Science

Experim- entation

Computational science (using math and computation to do work in other sciences) vs. Computer science (making hardware and software for computation)

CACM, Dec. 2010 CACM, Sep. 2010

Jim Gray (1944-2007)

Page 9: Xem Slide tại đây.

Computational science (CS) Computational science and engineering (CSE)

33

CSE

Mathematics Computer Science

Science & Engineering

CSE: việc  phát  triển  và  ứng  dụng  các  mô  hình  tính  toán  và  mô  phỏng,  thường  gắn  với  các  siêu  máy  tính  để  giải  quyết  các  bài  toán  phức  tạp  trong  phân  tích  và  thiết  kế  kỹ  thuật  cũng  như  với  các  hiện  tượng  tự  nhiên.

Ba thành phần của khoa học tính toán:

Mô hình và mô phỏng

Khoa học máy tính: mạng, phân tích dữ liệu

Hạ tầng cơ sở (siêu máy tính)

Source: PITAC report and SIAM

Model and Modeling

Model:  Mô  tả  khái  quát  của một  thực  thể

(simplified presentation or abstraction of a reality).

Modeling:  Quá  trình  tạo  ra  một  mô  hình.

Mô  phỏng: Là  việc  tạo  ra  như  thật  trên  máy  tính  các  thực  thể  sao  cho  có  thể  thấy  chúng  xảy  ra  thế  nào.

DNA model figured out in 1953 by Watson and Crick

Modeling Simulation

Data Analysis

Competition on supercomputers

35

June 2013: China Tianhe-2 33.86 petaflops, 3,120,000 Intel cores

Nov. 2012: Cray’s  Titan  computer, 17.59 petaflops, 560640 processors.

June 2012: Japan’s K computer, 10.51 petaflops, 88128 processors

June 2012: SuperMUC, Europe

fastest, 2.9 peteflops, 18432

processors.

Science paradigms

Hàng  nghìn  năm  trước:                                                                                      khoa  học  là  thực  nghiệm   Mô  tả  các  hiện  tượng  thiên  nhiên

Vài  trăm  năm  vừa  qua:                                                                              thêm nhánh lý  thuyết Dùng các mô hình, các khái quát hóa

Vài  thập  kỷ  vừa  qua:                                                                                          thêm nhánh tính toán Mô  phỏng  các  hiện  tượng  phức  tạp

Ngày nay: Khai  thác  dữ  liệu  (eScience) Hợp  nhất  lý  thuyết,  thực  nghiệm  và  mô  phỏng   Dữ  liệu  từ  đo  đạc  bằng  máy  hoặc  mô  phỏng Được  xử  lý  bởi  các  phần  mềm   Thông  tin  và  tri  thức được  chứa  trong  máy  tính Nhà  khoa  học  phân  tích  cơ  sở/tệp  dữ  liệu  với  

công  cụ  quản  trị  dữ  liệu  và  thống  kê.  

The Four Paradigm: Data-Intensive Scientific Discovery, 2009

Page 10: Xem Slide tại đây.

Một số vấn đề quốc gia Some national-level problems

37

Phòng chống thảm hoạ thiên nhiên, ảnh hưởng của biến đổi khí hậu (river flow, flood forecasting, ocean simulation, soil erosion...)

Đánh giá sự cố rủi ro của các hệ thống lớn như các lò hạt nhân, nhà máy thuỷ điện, hệ thống �ngân �hàng… �

CSE trong quốc phòng, xã hội...

38

Đột phá trong khoa học Scientific breakthroughs

Khoa học về sự sống, y-sinh: mô hình và dự đoán sự phát tán bệnh, chống bệnh sốt �rét…

Khoa học và công nghệ vật liệu: Phát triển các mô hình vật liệu nhiều tỷ lệ (multi-scale) để từ hiểu các cấu trúc nano đến các ứng dụng kỹ thuật chế các vật liệu nano.

Tài chính tính toán: quản lý rủi ro trong đầu tư và thị trường, dự đoán và mô phỏng các kịch bản và phương án kinh tế.

Future work

SHIFT IN MEDICINE RESEARCH

Future work

Molecular medicine is essentially based on learning from omics data

SHIFT IN MEDICINE RESEARCH

Black–Scholes European Call Option Pricing Surface

Quan hệ giữa ba lĩnh vực Relationship between three domains

39

• Big data cần cách nhìn, phương pháp và máy tính

mạnh của KH&KHTT và khai phá dữ liệu.

• Lời giải có thể rất khác nhau: mô hình tốt, chương trình thông minh, siêu máy

tính, hoặc tất cả chúng.

• Việc cùng tạo ra giá trị của dịch vụ đòi hỏi phân tích những quan hệ phức tạp và khai thác mọi nguồn dữ liệu và năng lực tính toán.

• Big data và service science đòi hỏi những mô hình toán học tốt, công cụ phân tích và siêu máy tính.

• KH&KTTT làm giàu thêm giá trị của big data và service science.

One size does not fit all

Dữ liệu lớn, Khoa học dịch vụ, Khoa học và Kỹ thuật tính toán là các lĩnh vực đang nổi lên và ảnh hưởng tới tương lai, và chúng có nhiều quan hệ với nhau.

Không có giải pháp vạn năng. Với mỗi bài toán, mỗi tình huống của big data, Khoa học dịch vụ hay KH&KTTT, cần tìm ra lời giải thích hợp nhất có thể.

Tại sao và làm thế nào ở Việt Nam? Phải chăng cần quan tâm hơn tới Data Analytics trong khi chuẩn bị cho Big Data Analytics?

40 Thanks