Think BIG Büyük Düşün!... 10 Nisan 2012 – İstanbul 11 Nisan 2012 – Ankara Cüneyt Göksu, VBT IBM Gold Consultant IBM Champion for Data Management [email protected] @CuneytG http://www.linkedin.com/in/cuneytgoksu
Jan 27, 2015
Think BIGBüyük Düşün!...
10 Nisan 2012 – İstanbul11 Nisan 2012 – Ankara
Cüneyt Göksu, VBTIBM Gold ConsultantIBM Champion for Data [email protected]
@CuneytG
http://www.linkedin.com/in/cuneytgoksu
Ajanda
1) Neden BIG Data? Buralara Nasıl Geldik?2) BIG Data Bileşenleri nedir?3) Mevcut Sistemler ile entegrasyonu nasıl olacak ?4) BIG Data Uygulamaları var mı?
Instrumented, Interconnected, Intelligent World
2+ billion
people on the
Web by end
2011
30 billion RFID tags today
(1.3B in 2005)
4.6 billion
camera phones
world wide
100s of millions of GPS
enableddevices
sold annually
76 million smart meters in 2009…
200M by 2014
%80 vs % 20
Yapısalve
Yapısal Olmayan
• Ağustos 2012’de 1 Milyar kullanıcıya ulaşması bekleniyor. 12TB/gün «log data» üretiliyor.
• 2012 sonunda 400+ Milyon kullanıcıya ulaşması bekleniyor.
• 130 Milyon kullanıcı var.
• 100 million aktif kullanıcı. 12+ TB of tweet data/gün!..
Sosyal Ağlar ve Sosyal İş Yaşamı
Sosyal Ağlar ve Sosyal İş Yaşamı
Google günde 24 Petabytes veri işliyor
4.6 Milyar cep telefonu var
2 Milyar Internet kullanıcısının 2013’deki yıllık trafiği 667 Exabytes
Kullanıcılar sadece insanlar değil!..
Source: http://www.mediabistro.com/alltwitter/how-to-get-fido-to-tweet-infographic_b17521
Sensor güdümlü ve enstrüman temelli iş dünyası. BÜYÜK miktarda veriyi, MAKİNA HIZINDA üretiyor.
Her motor 10TB/30 Dk veri üretiyor.
“Data generated by machines and sensors will exceed that generated by social media by at least a factor of 10.” *Leon KatsnelsonProgram Director, Big Data & Cloud ComputingIBM
* Makina ve duyargalar, sosyal medyadan 10 kat daha fazla veri üretiyorlar.
35 ZB(1 ZB = 1B TB)
4Trillion 8GB
iPods
1.8 ZB
1 ZB1 ZB=1B TB
Gbyte : 109
Tbyte : 1012
Pbyte : 1015
Ebyte : 1018
Zbyte : 1021
Bütün bu bilgiyi saklayacak yer yok!
Ağustos 2010'da Adam Savage, arabasının fotoğrafını akıllı telefon ile çekip, üzerine de "işe gidiyorum" yazarak, Twitter adresine yükledi.
Fotoğraf akıllı telefon ile çekildiğinden, çekildiği yerin coğrafi bilgisi otomatik olarak metadata içinde yer alıyordu.
Böylece Bay Savage, evinin, arabasının yerini herkese belirtmiş oldu, üstelik evde yokken!
Bir sosyal medya insanı kaç para eder?
Mevcut sistemlerin veri işleme ve analiz kapasitelerinin çok üstünde kapasitelere ihtiyaç duyan, büyük miktarda, çeşitlilikte ve hızda türeyen verilerin işlenerek değerlendirilmesi ve değer yaratılması
BIG Data Bileşenleri : 3V
Farklı yapılarda, çeşitlilikte ve karmaşıklıktaki verilerin yönetilmesi. Yapısal, log, ham ve yapısal olmayan gibi...
Büyük miktarda sürekli akışkan veri.
TB'tan PetaByte'a (1K TBs), Exabyte'a (1M TB), Zetabytes'a (1B TBs) giden ölçekler
Variety(Çeşit)
Velocity(Hız)
Volume(Hacim)
BIG Data Bileşenleri + 2VVeri güvenli olarak transfer edilmeli, doğru kullanıcılar tarafından erişilebilmeli.
Son kullanıcı ve kurum için bir değer yaratabilmeli
Verification(Doğrulama)
Value (Değer)
Geleneksel BT: 30 Yıllık Transaction Yönetimi.
BT uzun yıllar "iş transaction"larının ürettiği verileri toplayıp buradan anlam çıkardı.
Veriler büyük oranda, kurum içinde üretildi.
Yapılan analizler, «geleceği tahmin etmek» yerine, genellikle operasyonların iyileştirilmesine yönelikti.
Dat
a
Operational Systems CRM
Analytics
Censors
Geçmişin performanslı sistemleri, geleceğin tahmin edilmesi için yeterli olmayabilir!
Sürekli geçmişi iyileştirmek ve onu gözlemek yerine nasıl ileriye odaklanacağız?
Data AVAILABLE to an organization
Data an organization can PROCESS
Houston... We have a problem!... Bir kurumun çözümleyebileceği verinin yüzdesi, o kuruma
gelen verinin artış hızı ile orantılı olarak azalıyor.
Başka bir deyişle, zaman geçtikçe, işimiz hakkında daha az bilgi sahibi oluyoruz.
IDUG (International DB2 Users Group) 2007 Konferansı - Keynote
Enterprise Intelligence”Data finds the data … Relevance finds the user”
Jeff Jonas, Chief Scientist, IBM Entity AnalyticsIBM Distinguished [email protected]
Big Data Analitik Uygulamaları
Homeland Security
Finance Smarter Healthcare Multi-channel sales
Telecom
Manufacturing
Traffic Control
Trading Analytics Fraud and Risk
Log Analysis
Search Quality
Retail: Churn, NBO
Bazı Big Data uygulamaları
Log Analytics (IT for IT) Smart Grid / Smarter Utilities RFID Tracking & Analytics Fraud / Risk Management & Modeling 360° View of the Customer Warehouse Extension Email / Call Center Transcript Analysis Call Detail Record Analysis IBM Watson
• Retailers collect click-stream data from Web site interactions and loyalty card-drive transaction data – This traditional POS information is used by retailer for shopping basket
analysis, inventory replenishment– But data is being provided to suppliers for customer buying analysis
• Healthcare has traditionally been dominated by paper-based systems, but this information is getting digitized
• Science is increasingly dominated by big science initiatives– Large-scale experiments generate over 15 PB of data a year and can’t be
stored within the data center; then sent to laboratories
• Financial services are seeing larger volumes through smaller trading sizes, increased market volatility, and technological improvements in automated and algorithmic trading
Gittikçe daha da fazla artan veri üretimi.
Hareket halindeki veriVerinin hiç saklanmadığını, dolayısı ile saklama maaliyetlerinin hiç
olmadığını hayal edin!
Data In Motion Bir önceki çözüm, yeni talep edilen 3G ihtiyaçlarına ve
artan iş ve veri hacmine cevap vermekten uzaktı.
Streams ve Netezza ortaklığındaki çözüm ile
- Yeni ürünlerin hazırlanıp, piyasaya sunulma süresi saatlerden dakikalara indi.
- Verinin birleştirme ve yükleme zamanı %90 azaldı.
Veri = Ürün
Biz aslında bir oyun şirketiymiş gibi gözüken bir veri analizi şirketiyiz
Ken Rudin, Zynga VP of Analytics
• Tamamen ücretsiz oyun olanakları sunuyor. • Sanal ürünler satarak gelir elde ediyor.• Aylık ortalama 232M aktif kullanıcı bulunuyor.• Oyuncuların %95’i hiç alışveriş yapmıyor!• Big Data analizi kullanarak oyun dünyasını altüst etti.
Supply Chain Recommendation for Natural Disasters
Real-time projections of hurricane path
Dynamically updated risk assessment for assets in
projected path
Correlate combined risk and impending weather threats to
optimize inventory and determine supply chain
recommendations
The IBM Big Data Platform
IBM Big Data Platformu
InfoSphere BigInsights Hadoop temelli, az gecikmeli, çeşitli ve yüksek hacimli veri
analizi
IBM Netezza High Capacity Appliance
Sorgulanabilir Arşivlenmiş yapısal veri
IBM Netezza 1000BI+Ad Hoc
Yapısal Veri Analizi
IBM Smart Analytics System
Yapısal veri üzerinde operasyonel analiz
IBM Informix TimeseriesTime-structured analytics
IBM InfoSphere Warehouse
Yüksek hacimli, yapısal veri analizi
InfoSphere StreamsAkışkan Veri için az gecikmeli
analiz
MPP Data Warehouse
Stream ComputingInformation Integration
Hadoop
InfoSphere Information ServerYüksek hacimli veri entegrasyon
ve dönüşüm
Nisan 5 duyurusu: IBM Big Data & Netezza Product Group
Big Data Platformu ne yapar?
Hareketli Bilgi AnaliziYüksek hacimli akan verinin, ad-hoc analizi
Farklı Çeşitlilikte Veri Analizi Karışık özellikte veriler üzerinde daha önce yapılamayan analizlerin yapılması.
Keşfet ve DeneyleVeri üzerinde Ad-hoc analiz, veri keşfi ve deneyleme
Çok Yüksek Hacimli Veri AnaliziPB ölçeğinde verinin uygun fiat/performans kriterlerinde, analizi
Yönet ve PlanlaVeri kurallarını, bütünlüğünü denetleme ve
uygulama
Tamamlayıcı AnalitikGeleneksel Yaklaşım
Yapısal, Analitik, MantıksalYeni Yaklaşım
Yaratıcı, bütünlükçü düşünce, sezgisel
StructuredRepeatable
LinearMonthly sales reports
Profitability analysisCustomer surveys
Iç Uygulamalar
Veri Ambarı
Geleneksel Kaynaklar
Yapısal
Tekrar edilebilir
Lineer
Transaction Data
ERP
Mainframe Verisi
OLTP Sistemleri
UnstructuredExploratoryIterativeBrand sentimentProduct strategyMaximum asset utilization
HadoopStreams
Yeni Kaynaklar
Yapısal Değil
Keşfedilebilir
Döngüsel
Web Kütükleri
Sosyal Veri
Text Veri: eposta
Duyarga Verisi: imaj
RFID
Kurumsal Entegrasyon
Açık Kaynak Yazılımla iç içe!• Açık Kaynak Topluluğa yıllardır yapılan katkılar- Apache Hadoop ve Jaql, Apache Derby, Apache
Geronimo, Apache Jakarta- Eclipse: IBM tarafından kuruldu.- Lucene katıları, IBM Lucene Extension Library
(ILEL) kanalı ile...- DRDA, XQuery, SQL, XML4J, XERCES, HTTP,
Java, Linux...
• Açık kaynak kodlu IBM Yazılımları– WebSphere: Apache– Rational: Eclipse ve Apache– InfoSphere: Eclipse ve Apache
• IBM’s BigInsights (Hadoop) is %100 açık kaynak kodlu bir yazılımdır
Forrester Wave™: Enterprise Hadoop Solutions, Q1 ’2012February 2012 “The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012”
Amazon
Oracle
IBM
BIG Data teknolojilerini öğrenmenin eğlenceli ve kolay yolu:
Satıcı bağımsız, topluluk temelli, IBM ve diğer liderler tarafından destekleniyor;
Esnek, çevrim içi eğitimler;
Ücretsiz kurslar ve çalışma materyalleri;
Video destekli, kolay öğrenim olanakları;
Bulut temelli alıştırma imkanları;
14000+ kayıtlı öğrenci.
37
Cüneyt Göksu, VBTIBM Gold ConsultantIBM Champion for Data [email protected]