Jak „Big Data” rewolucjonizuje naukę oraz wspólpracę centrów badawczych z biznesem? dr Lukasz Bolikowski ICM, Uniwersytet Warszawski Big Data Summit, 26 listopada 2014
Jak „Big Data” rewolucjonizuje naukęoraz współpracę centrów badawczychz biznesem?
dr Łukasz BolikowskiICM, Uniwersytet Warszawski
Big Data Summit, 26 listopada 2014
Czwarty paradygmat
Cztery paradygmaty w nauce (Jim Gray, 2007):
1 Empiryczny – opis zjawisk naturalnych(ostatnie tysiąclecia)
2 Teoretyczny – budowa modeli i uogólnień(ostatnie stulecia)
3 Obliczeniowy – symulacje złożonych zjawisk(ostatnie dekady)
4 Eksploracja danych – badania „data-intensive”(ostatnie lata)
Duże dane w nauce
Duży rozmiar1000 Genomes Project – 200 TB danych genomicznychNASA Earth Exchange – 20 TB danych o Ziemi
Duże tempo zmianWielki Zderzacz Hadronów (CERN) – 1 PB/s (w szczycie)Sekwenatory DNA – setki GB tygodniowo
Duża różnorodnośćArchiwum prognozy pogody ICM – 1000+ rodzajów pól
Przyczyny zmiany paradygmatu
Przejście od „analogowego” do „cyfrowego”dramatycznie zwiększyło podaż danych:
książki, komunikacja naukowadane medyczne
Pojawiły się technologie generujące duże dane:urządzenia mobilnesieci społecznościowesieci czujników (inteligentne miasta)
Naukowcy uświadomili sobie, że eksploracja dużychzbiorów danych może prowadzić do odkryć:
dane → informacja → wiedza
Skutki zmiany paradygmatu
Potrzebujemy. . .
. . . nowych infrastruktur obliczeniowychduże klastry do badań opartych o danesystemy do publikacji i dzielenia się danymi
. . . nowych metod i algorytmów przetwarzaniaalgorytmy w modelu MapReduceszybkie rozwiązania in-memory
. . . nowych umiejętności i kompetencjiprzetwarzanie dużych danych, programowanieuczenie maszynowe, statystyka, matematykawizualizacja informacji, prezentacja wynikówciekawość, pasja, żyłka eksploratora
ICM, Uniwersytet WarszawskiPoczątki – trzeci paradygmat
Założone 20 lat temu jako centrum superkomputeroweprowadzące symulacje złożonych zjawisk przy użyciumodeli matematycznych i superkomputerów.Prawdziwie interdyscyplinarny zespół 150+ naukowcówi programistów tworzących rozwiązania w obszarach takróżnych jak:transport lotniczy, bioinformatyka, modelowanie klimatu,medycyna wspomagana komputerowo, kosmologia, bib-lioteki cyfrowe, projektowanie leków, epidemiologia, rol-nictwo, fizyka wysokich energii, uczenie maszynowe,projektowanie materiałów, neurobiologia, analiza siecispołecznych, prognozowanie pogody, . . . i wiele innych.
ICM, Uniwersytet WarszawskiPrzyszłość – czwarty paradygmat
ICM staje się centrum danych badawczych. W ramach pro-jektu OCEAN o początkowym budżecie 80 mln zł do końca2015 roku powstanie infrastruktura zdolna przetwarzaćdziesiątki PB danych oraz centrum kompetencji skupia-jące doświadczone zespoły „data scientists”.(text mining, analiza sieci społecznych, analiza obrazów, uczenie maszynowe)
Wybrane projekty ICM UW oparte o analizę danych
1 Alzheimer’s Disease Big Data DREAM ChallengeCel: identyfikacja biomarkerów pozwalającychdiagnozować i leczyć chorobę AlzheimeraDane: obrazowe (m.in. MRI mózgu), genetyczne(m.in. SNP), oceny funkcji poznawczych
2 Szacowanie krzywych laktacji i obserwacji odstającychCel: przewidywanie użytkowości mlecznej krówDane: 80M+ rekordów opisujących krowy (np. geny,stado) i historię ich udojów (np. ilość i skład mleka)
3 SciVis Contest 2015Cel: wizualizacja ewolucji wszechświataDane: bilion (1012) obiektów (położenia i prędkości)× 100 klatek (oś czasu) = 3 PB danych(3 PB oznacza 9 m-cy kopiowania po Ethernecie, 1 tonę dysków HDD)
Nauka a biznes
Biznes ma dane i pytania, cierpi na brak data scientists.Nauka ma kompetencje i infrastrukturę, szuka ciekawych wyzwań.Podobne zagadnienia, metody, metodologie:
rozumienie wartości (dużych) danych, potencjału w nich tkwiącegometody statystyczne, uczenie maszynowe, wizualizacja informacjiprzetwarzanie dużych danych przy użyciu Apache Hadoop/Sparkmetodologie prowadzenia projektów data-miningowych, np. CRISP-DM
Wniosek – pasujemy do siebie jak nigdy dotąd! Zapraszam do współpracy.
Dziękuję za uwagę i zapraszam do kontaktu!
linkedin.com/in/bolikowski
twitter.com/bolikowski
+48 22 8749419
Licencja
c© 2014 ICM, Uniwersytet Warszawski. Pewne prawa zastrzeżone. Prezentacja udostępniona na licencji CC BY-ND 3.0 PL. Wykorzystane zostałymateriały graficzne z następujących źródeł:
http://research.microsoft.com/en-us/collaboration/fourthparadigm/ (str. 2, cała książka na CC BY-SA 3.0, tu dozwolony użytek okładki)https://www.flickr.com/photos/petrifiedforestnps/13808113813 (str. 3, CC BY 2.0)https://www.flickr.com/photos/11304375@N07/2046228644 (str. 3, CC BY 2.0)https://www.flickr.com/photos/mollyali/2518828977 (str. 4, CC BY 2.0)https://www.flickr.com/photos/kewl/8475764430 (str. 6, CC BY 2.0)https://www.flickr.com/photos/iwannt/8596885627 (str. 6, CC BY 2.0)https://www.flickr.com/photos/canyonjam/111754387 (str. 8, CC BY 2.0)https://www.flickr.com/photos/usdagov/9042954477 (str. 8, CC BY 2.0)