Top Banner
Big Data: Hadoop i njegov ekosistem Darko Marjanović CEO & Co-Founder @ Things Solver [email protected]
21

Data Science Conference Belgrade

Apr 16, 2017

Download

Internet

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Data Science Conference Belgrade

Big Data: Hadoop i njegov ekosistem

Darko MarjanovićCEO & Co-Founder @ Things [email protected]

Page 2: Data Science Conference Belgrade

Agenda• Big Data• Hadoop• HDFS• Map Reduce• YARN• SPARK• Ekosistem

Page 3: Data Science Conference Belgrade

Big Data• Big Data predstavlja podatke koji pristižu velikom brzinom i one su

količine koja prevazilazi mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.

• Big Data je sve ono što ne može da stane u Excel.

Page 4: Data Science Conference Belgrade

Big Data - Dimenzije

Kompleksnost podataka

Količina (Volume)

Raznovrsnost (Variety) Brzina (Velocity)

Kvalitet (Veracity)

Page 5: Data Science Conference Belgrade

Big Data – Izvori podataka• Društvene mreže (Twitter, Facebook…)

• Email, HTML, Click Stream

• slike, video, logovi, senzorski podaci

• Relacione baze podataka

Page 6: Data Science Conference Belgrade
Page 7: Data Science Conference Belgrade

Big Data - Korisnici

Page 8: Data Science Conference Belgrade

Hadoop• Hadoop je open-source softver Apache fondacije.

• Služi za skladištenje i procesiranje velikih količina podataka.

• Napisan je u Java programskom jeziku.

Page 9: Data Science Conference Belgrade

Hadoop• Hadoop Common

• HDFS

• Map Reduce

• YARN

Page 10: Data Science Conference Belgrade

Hadoop HDFS

Page 11: Data Science Conference Belgrade

Hadoop HDFS

Page 12: Data Science Conference Belgrade

Hadoop Map Reduce

HDFS

Data

MAP

MAP

MAP

REDUCE

REDUCE

Results

Page 13: Data Science Conference Belgrade

Hadoop YARN• ResourceManager• Scheduler – Alokacija resursa• ApplicationsManager – Prihvatanje poslova …

• Nove aplikacije na Hadoop-u (Real Time, Interactive…)• Veća iskorišćenost resursa

Page 14: Data Science Conference Belgrade

Spark• Apache Spark je platforma za Big Data obradu, sa ugrađenim

modulima za mašinsko učenje, SQL, streaming i graf obradu.• Obrada u memoriji.• 10x brži od Map Reduce-a.

Page 15: Data Science Conference Belgrade

Hadoop• Hadoop nije zamena za RDBMS.• Hadoop nije baza podataka.• Offline analitika.• Jedan data centar.

Page 16: Data Science Conference Belgrade

Hadoop Mane• Brzina• Kompleksnost• Podrška• Obrada u memoriji• Streaming

Page 17: Data Science Conference Belgrade

Ekosistem• Hadoop je moguće nadogaraditi brojnim alatima kojima se

poboljšavaju mogućnosti i efikasnost obrade podataka.

• Dele se na alate za prenošenje podataka, analizu podataka, upravljanje klasterom…

Page 18: Data Science Conference Belgrade

Ekosistem – Neki od alata• Unos podatak

• Flume• Kafka• Sqoop• …

• Obrada• Hive• Pig• Storm• …

• Upravljanje klasterom• Ambari• ..

Page 19: Data Science Conference Belgrade
Page 21: Data Science Conference Belgrade

Big Data: Hadoop i njegov ekosistem

Darko MarjanovićCEO & Co-Founder @ Things [email protected]