Top Banner
BÜYÜK VERİ Bilge NARİN Yeni Medya Sosyolojisi
64

Big data 24 mart 2015

Jul 18, 2015

Download

Technology

Bilge Narin
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Big data 24 mart 2015

BÜYÜK VERİ

Bilge NARİN

Yeni Medya Sosyolojisi 

Page 2: Big data 24 mart 2015

SUNUM PLANI

Tanım ve Tarihçe Sayılarla Büyük Veri Kavramın Yapısökümü Çağın Özellikleri Yeni Analiz Teknikleri Büyük Veri ile Neler Yapılabilir?(İletişim ve Medya Sektörü / Diğer Sektörler)

Page 3: Big data 24 mart 2015

BYTES

Page 4: Big data 24 mart 2015

PETABYTE ÇAĞI

Chris Anderson (Wired dergisi başeditörü):

«Petabyte çağı farklıdır. Kilobytelar floopy disklerle, megabytelar hard disklerle, terabytelar disk dizilerinde ve petabytelar bulutlarda saklandı. Teknoloji ilerledikçe dosya benzetmesinden dosya kabini benzetmesine kadar ilerlendi. Petabytelarda artık elimizdeki benzetmeler tükendi.»

Page 5: Big data 24 mart 2015

TANIM VE TARİHÇE

“Bana öyle geliyor ki iç verinin bütün suyunu çıkardık. Belki de artık dış veri dünyasına odaklanmanın vakti gelmiştir.” Christopher Ahlberg, Recorded Future CEO’su.

“ Veri yeni petrol.”Clive Humby

Page 6: Big data 24 mart 2015

TANIM VE TARİHÇE

Kavram ilk kez ekonomi profesörü Francis X. Diabold tarafından ortaya atılmış. 

“Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting” adlı bildiri, Ağustos 2000’de 8. Dünya Ekonometri Kongresi’nde Seattle’da sunulmuş. 

Page 7: Big data 24 mart 2015

TANIM VE TARİHÇE

Büyük veri:

Büyük miktar, büyük hız ve/veya büyük çeşitlilik özelliklerine sahip; karar verme yeteneklerimizi arttıracak, içgörü ve süreç optimizasyonu geliştirecek yeni bilgi işleme biçimlerini gerektiren enformasyon varlıklarıdır.Büyük veri analiz amacıyla yeni yöntemler, yeni programlar, yeni bakış açıları gerektiriyor. 

Page 8: Big data 24 mart 2015

TANIM VE TARİHÇE

- Büyük veri alışılmış kapsayıcılara sığmayan veriler için kullanılan geniş kapsamlı bir tanım. Bu terim tek bir sunucuya sığmayacak ölçüde büyük, statik bir veri ambarına sığmayacak şekilde sürekli akan veriler için kullanılır.

- Hacmi büyük, çeşidi bol, düzensiz, sorunlu ve hızla gelen veri.

Page 9: Big data 24 mart 2015

TANIM VE TARİHÇE

Büyük veri özünde kestirimlerle ilgilidir. 

Büyük veri, bir bilgisayara insanlar gibi düşünmesini öğretmek değildir. Yapay zekadan farklıdır. Onun yerine, olasılıklar çıkarmak amacıyla çok fazla miktarda veriye matematik/istatistik uygulamakla ilgilidir: 

Bir e-posta mesajının istenmeyen elektronik posta olma olasılığı, “teh” olarak girilen yazının “the” olduğunun varsayılması gibi. Burada kilit konu, bu sistemlerin kestirimlerini dayandırdıkları çok miktarda veriyle beslendikleri için iyi performans göstermeleridir.

Page 10: Big data 24 mart 2015

TANIM VE TARİHÇE

Sınıf Büyüklük Neyle Yönetilir?

Nerede Saklanır?

Örnekler

Küçük <10 GB Excel, R Bir makinenin belleği

Binlerce satış sayısı

Orta 10 GB-1TB Endesklenmiş dosyalar, monolitik veri tabanları

Bir makinenin diski

Milyonlarca Web Sayfası

Büyük >1TB Hadoop, Dağıtık Veri Tabanları

Çok sayıda makinede saklanır

Milyarlarca Web tıklaması

Page 11: Big data 24 mart 2015

TANIM VE TARİHÇE

Büyük veri büyük resmi görmemizi sağladığı için önemlidir. Veri dağınık, karmaşık ve kaotik bir yapıdadır. Bütün sorun ona bir düzen vererek ondan anlam çıkarmaktır. 

`Küçük veri insanlar, büyük veri makineler için`

Page 12: Big data 24 mart 2015

TANIM VE TARİHÇE

Bazıları büyük veriyi üç V ile tanımlamdı: Volume: Hacim, Variety: Çeşitlilik ve Velocity: HızDiğerleri bu tanıma daha fazla V ekledi (veracity: doğruluk, value: değer- belki sırada venality: çıkarcılık vardır)

Page 13: Big data 24 mart 2015

TANIM VE TARİHÇE

IBM Massive Data (Dev Veri) araştırma merkezi açtı. 

Büyük veri, bir havuzdan çok, aralıksız ve hızla akan bir nehre benziyor 

İnternette bir Büyük Veri Üniversitesi IBM desteği ile kurslar veriyor. 

Konuyla ilgili Akademik makaleler tarandığında en çok Amerika, Çin, Almanya, Japonya’da önemsendiği saptanmış.  

Page 14: Big data 24 mart 2015

SAYILARLA BÜYÜK VERİ

Ortalama bir şirket ABD Kongre Kütüphanesi’ne şimdiye kadar kaydedilmiş tüm verilerin 427 katı kadar veriye sahip.Facebook’un Kodak tarafından şimdiye kadar işlenen tüm piksellerden daha fazla fotoğraf serisi var. Bizler artık günlük olarak televizyonun ilk elli yılında kaydedilen video miktarından daha fazlasını çekiyoruz. Tüm bunlar günümüzde kullanılan verinin baş döndürücü hacmi ve türleriyle ilgili gerçek bilgiler değil. Ama muhtemelen gerçekten çok uzak da değiller 

Page 15: Big data 24 mart 2015

SAYILARLA BÜYÜK VERİ

Bir jet uçağı her 30 dakikada 10 terabyte'lık algılayıcı verisi topluyor. New York Borsası, her gün yapılan hisse senedi alışverişlerine ilişkin 1 terabyte'lık veri topluyor. 

Üretilen toplam verinin yüzde 90'ı son iki yılda üretildi  2012 yılında her gün 2,5 exabyte veri üretildi ve bu miktar 40 

ayda ikiye katlanıyor. Google her gün tek başına, 24 petabyte (24000 terabyte) 

veri işliyor. Bu oran, ABD Kongre Kütüphanesi’ndeki bütün basılı belge miktarının yaklaşık binlerce katı.

Whatsapp günde 27 milyar mesaj işliyor. 

Page 16: Big data 24 mart 2015

SAYILARLA BÜYÜK VERİ

 NYSE (New York Stock Exchange) günde 1 terabyte, Twitter 8 terabyte veri üretiyor. 

2012 yılında dünya 2,8 zettabayt’tan daha fazla (bu 2,8 trilyon gigabayt ediyor, ki akıl almaz yüksek bir rakam) veri kullanılmış.

Bir tahmine göre dünyada günlük 2.5 kentilyon (2,5’ten sonra 18 tane sıfır anlamına geliyor) bayt veri üretiliyor. 

Page 17: Big data 24 mart 2015

SAYILARLA BÜYÜK VERİ

Analistler 2025 yılında elli milyar algılayıcının internete bağlı olacağını (“Nesnelerin interneti”) ve her birinin büyük veri yığınları oluşturabileceklerini tahmin ediyor.

Wolfram 1989’dan beri gönderdiği çeyrek milyon e-postadan her birinin tam ne zaman yollandığını biliyor.

Sadece günde 2,7 milyar kez Facebook'ta 'like' tıklanıyor.

IBM'in bir tweetine göre küresel verinin %90'ı son iki yılda oluştu.

Page 18: Big data 24 mart 2015

SAYILARLA BÜYÜK VERİ

On yıl önce var olmayan Facebook’a, her saat 10 milyondan fazla yeni fotoğraf yükleniyor.

İnsanlar günde yaklaşık 3 milyar kere “beğen” tuşuna basarak ya da bir yorum yaparak, bir şirketin kullanıcılarının tercihlerini öğrenmek için araştırabileceği dijital izler bırakıyorlar.

Twitter’daki mesajlar yılda yaklaşık 200 büyüyor ve 2012 yılına kadar günde 400 milyon tweet’i aştı.

Page 19: Big data 24 mart 2015

SAYILARLA BÜYÜK VERİ

Bir yazar durumu şöyle anlatıyor: «Eşimin büyükbabası fotoğrafçı ve onun meslek hayatı boyunca çektiği fotoğraflar, filmler, yüksek çözünürlükte ve 10 gigabyte yer tutuyor. Buna karşılık benim ailemin yalnızca 2008 yılında çektiği fotoğraflar 5 gigabyte.

Kendi ürettiğimiz anlamsızlıkları şimdi nasıl anlamlandıracağımız sorusuyla karşı karşıyayız. Nedense veri sözcüğü hep «patlama», «sel», «yük» gibi sözcüklerle anılıyor.

Page 20: Big data 24 mart 2015

KAVRAMIN YAPISÖKÜMÜ

Büyük veri devrim niteliğinde bir kavram ve neredeyse tüm iş alanları için dönüştürücü olanaklar barındırıyor. Ancak kavramın kendisi çeşitli nedenlerden dolayı sorunlu. «Büyüklük» yeni veri biçimlerinin ayırt edici özelliklerinden sadece birisi ve birçok kuruluş için bu özelliklerden en önemlisi değil. Verinin yapılandırılmamış olması durumuna çözüm bulmak; büyüklüğüne çözüm bulmaktan daha elzem.

Page 21: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Disiplinler arası çalışma pratiği gerektiriyor. İstatistikten bilgisayara, İnternetten sosyal medyaya, pazarlamadan perakendeciliğe çok sayıda alanı ilgilendiriyor.

Veriyi silmek veri oluşturmaktan daha zor ve problemli. Bunun en önemli nedenlerinden biri hipermetinsellik. Bir linkle kopyalanıp çoğalıyor.

Page 22: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Verinin silinmesi saklanmasından daha pahalı. 1981 yılında 1 gigabyte'ı saklamakiçin 300 bin dolar harcanırken,bu para 2012 yılında 0,10 dolara düşmüş durumda. Verilerin günümüzde durmadan kopyalandığını düşünürsek, neden silinmesinin daha pahalı, hatta neredeyse imkansız olduğunu daha iyi bir şekilde anlarız.

Page 23: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Kullanım trafiğinin artması ile sistem kendini doğruluyor.

Google'da aradıklarımızın %15'i daha önce hiç aramadıklarımızdan oluşuyor. Bağlantıları çok olduğu için büyük veri zaman içinde bu şekilde daha da büyüyor.

Page 24: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Bilgisayarlarla ve bildiğimiz yöntemlerle analiz edebilmemiz güç.

Akan veri: Hesaplama ve iletişim yeteneklerimize meydan okuyacak kadar büyük hızla akan veri.

Hacim: Microsoft Excell'in 2007 limitleri 1048576 sıra ve 16384 sütundan oluşuyor. Ancak, excell'in tüm satır ve sütunlarını kullanan veriler bile büyük veri olmuyor.

Page 25: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Veri büyüdükçe onu hareket ettirmek zorlaşır. Büyük veriyi yönetmede bir diğer önemli yaklaşım, veriyi olduğu yerde bırakmaktır.

Var olan verinin kopyalarını oluşturmadan paylaşmanın yolları aranıyor. Örneğin Ebay şirketi, eskiden aynı veriyi 20-50 arasında kopyalamak zorunda kalırken, sanal veri çarşıları yoluyla bu sorunu önemli ölçüde çözmüş.

Page 26: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

2012 yılının Mayıs ayında Google, “Bilgi Ağı” (Knowledge Graph) adlı yeni bir arama teknolojisi tanıttı. Yeni teknolojide bir kişiyi aradığınızda, size bu kişinin doğum tarihi, yakınları, eğitimi vs. de veriliyor. Bilgi ağı aslında bir öğrenme süreci. İnsanlar Google’da sorguladıkça, Google nelerle ilgili oldukları ve nasıl hata yaptıklarını öğreniyor.

Page 27: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Kalabalığın Gücü (Crowdsourcing/Kitle kaynak): Çoğu zaman veri ürettiğimizin farkında bile olmadan veri üretiyoruz. "Başkaları veri üretsin sen kullan", "veriyi topla, ürüne dönüştür” gibi ilkeler dolaşıyor. Kavram ilk kez bir makalede Jeff Howe tarafından ortaya atıldı. Kalabalığı, kitleleri bir kaynak olarak kullanma ve araştırma-geliştirme maliyetlerini düşürme düşüncesi, makalede örneklerle anlatılıyordu.

Page 28: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Kalabalığın gücünün kullanan bir örnek National Geographic’in bir projesi.

Cengiz Han’ın mezarını arayan bilim insanları, National Geographics’teki videoda uzaydan çekilen görüntüleri yeryüzündeki çok sayıda kişiye dağıtıp, mezarın bulunma olasılığı yüksek yerlerin işaretlenmesini istiyor ve bu sayede çok sayıda kişinin aklından yararlanıyor.

Page 29: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Kalabalığın gücünden yararlanan bir diğer site Amazon’un Mechanical Turk sitesi.

Bu site ile online olarak size önerilen bazı işleri yaparak para kazanmak mümkün. Cümleleri yeniden yazmak, anketleri tamamlamak, taranan metinleri veya resim altlarını yazmak, ses dosyalarını metne dönüştürmek, orijinal makaleler yazmak gibi işleri yaparak bu site aracılığı ile para kazanabilirsiniz.

Film Önerisi: Outsourced (2006)

Page 30: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Kitlelerin öldüğünü söyleyen Seth Godin, «Dijital toplumun gerçekliği şu ki, bireyler yakından inceleniyor ve web bu kişilerin hepsine odaklanabilmemizi sağlıyor.»

Ortalama insanlar için ortalama ürünler üreten kitle pazarı öldü.

Page 31: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Oto analitik çağındayız, yani kişisel form, üretkenlik ve sağlık verilerinin kaydedilip analiz edildiği bir çağ. Bilinen ilk kişisel analitik uygulaması Nike+/Ipod çiftidir. Nike+ ayakkabıları iPod’a bağlayınca koşu süresi, mesafesi, hızı ve yakılan kalori miktarını kaydedip gösteriyordu

Page 32: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Demokratlara karşı datakratlar: Datakrasi, toplumun veriden anlayanlar tarafından yönetilmesi.

DATARACY

Page 33: Big data 24 mart 2015

ÇAĞIN ÖZELLİKLERİ

Dave Eggers'in romanı Circle (Daire), bize bütün bu olup bitenin cennet değil bir cehennem olabileceğini anlatan bir roman. Romanda Mae Holland, 20'li yaşlarında bir genç kız ve Daire'de işe giriyor. Önceleri her şey ona cennet gibi görünürken, sonra iş değişiyor. "Gizli olan her şey yalandır" ve "Kişisel bilgi hırsızlıktır" gibi sloganlarla çalışan Daire'nin üç süper yöneticisi her konuda şeffaflık istemektedir. Her şeyin kaydedildiği ve yayınlandığı bir ortamda Mae Holland, bir cenneten çok bir cehenneme düşmüş olduğunu anlamaya başlar.

Page 34: Big data 24 mart 2015

ANALİZ

“Daha iyi algoritmalarımız yok. Sadece daha fazla verimiz var.”

Google araştırma direktörü Peter Norving

Page 35: Big data 24 mart 2015

ANALİZ

- Veribilim (data science) ve veribilimci (datascientist) deyimleri büyük veri kavramından sonra sıkça kullanılıyor.

Önemli olan verinin hacmiyle büyülenmek değil, onu analiz edebilmek.

2012 yılında dünyada kullanılan 2,8 zettabayt veriden sadece %0,5’inin herhangi bir şekilde analiz edildiği saptanmış.

Page 36: Big data 24 mart 2015

ANALİZ

Klasik anlamda istatistiğin kullandığı veriler yapılandırılmış, satırlar ve sütunlar içinde yer alan veriler. Örneğin müşteriler satırlarda, satın aldıkları ürünler ise sütunlarda yer alır. Ancak örneğin günümüzde e-postalar yoluyla üretilen veriler genelde metin biçimindedir ve yapılandırılmış değildir. Bunun yanında fotoğraflar, sesler de yapılandırılmış veri değildir ancak bunların karar vermede kullanılabilecekleri gerçektir. Günümüzde verilerin %80 ile %90'ı arasında bir oranı yapılandırılmamış ve yarı yapılandırılmış verilerden oluşmaktadır. Yeni nesil istatistikçilerin bu tür veriler için veri analiz setleri oluşturmaları gerekmektedir.

Page 37: Big data 24 mart 2015

ANALİZ

Yapılandırılmış Veri: Bu kategorideki verileri “yapı” sözcüğü özetler. Bir kayıtta veya dosyada sabit alanda bulunur. Excel dosyaları bu grupta yer alır.

Yapılandırılmamış Veri: Bu kategorideki verileri “etiket”(#tag) sözcüğü özetler. Kestirilemezler ve serbest biçimlidirler. Metin, video, ses ve görüntü gibi. PDF ve HTML gibi dosyalar bu gruptadır.

Yarı Yapılandırılmış Veri: “Yapı” ve “etiket” sözcüğü arasında bir yerdedir. XML (eXtended Markup Language) buna örnektir.

Page 38: Big data 24 mart 2015

ANALİZ

Yapılandırılmamış veriler, standart bileşenlere bölünemezler. Bir işçiye ilişkin yapılandırılmış veri Ad, Kimlik Numarası ve Ücret gibi değişkenlerle yapılandırılabilir ve standart bileşenlere bölünebilir. Oysa bir dijital fotoğraf, çok sayıda 0 ve 1’lerden oluşur ve standart bileşenlere bölünemez.

Page 39: Big data 24 mart 2015

ANALİZ

Büyük veri vs. geleneksel analitik

Büyük Veri Geleneksel Analitik

Veri Tipi Yapılandırılmamış Format

Satır-Sütun Şeklinde

Veri Hacmi 100 terabayt’tan 1 petabayt’a kadar

100 terabayt’tan daha az

Veri Akışı Sürekli Veri Akışı Statik Veri Havuzu

Analiz Yöntemi Makine öğrenmesi Hipoteze dayalı

Birincil Amaç Veriye dayalı ürünler İç karar desteği ve hizmetleri

Page 40: Big data 24 mart 2015

ANALİZ

Görsel analitik yaygın olarak kullanılmakta (Visual Analytics). Tam olarak anlaşılamayan nedenlerle büyük verinin analiz sonuçları genel olarak görsel formatta açıklanıyor. Çünkü kolay ve ilgi çekici. Ayrıca büyük veriyi çekmek ve yapılandırmak o kadar fazla çaba gerektiriyor ki çok değişkenli karmaşık istatistik uygulamaları yapmaya enerji kalmıyor. Sadece basit frekans değerleri hesaplanıp bunlara dayalı resim ve dağılım grafikleri yaratılıyor.

Page 41: Big data 24 mart 2015

ANALİZ

Görselleştirme sosyal bilim araştırmacıları ve gazeteciler için elde bulunan büyük miktardaki verinin anlamlandırılması için çok önemli. «Birbiri ardına gelen kısa sözcük dizileri» n-gram adını almakta. Google’ın N-gram viewer programı ile son 400 yılda basılmış birkaç milyon İngilizce kitaptan oluşan veriye dayanarak ilginç eğilimler saptanıyor.

Page 42: Big data 24 mart 2015

ANALİZ

Page 43: Big data 24 mart 2015

ANALİZ

YouTube Trends Dashboard ile farklı yerlerde farklı yaşlarda izlenen videoları karşılaştırmak mümkün.

Page 44: Big data 24 mart 2015

ANALİZ

Kullanılabilecek Programlar: NodeXl, iScience Maps, Wikipedia Miner, VisIT, Pentaho, Thinglink

Veri hipotezden daha önemli hale geliyor.

Page 45: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

• Müşteri ilişkilerini iyi anlayabilmek için şube ve ATM’lerdeki video berileri analiz edilebilir.

• Hastalara kişiselleştirilmiş tedavi kürleri oluşturabilmek için elektronik hasta kayıtları genom verisiyle birleştirilebilir.

• Algılayıcılar inekler ve insanlar gibi canlı varlıklara da bağlanabiliyor. Dijital inek: Eğer inek hastalanırsa, tedavi için gereken süre dolmadan algılayıcı veterinere bir sorun olduğunu bildiriyor, Coli bakterisi saptanıyor.

• Uyku analitiği/uyku verimliliği ölçümü.

Page 46: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

ABD ordusunun pek sevdiği insansız hava uçakları sadece teröristlere misiller fırlatmakla kalmıyor aynı zamanda üzerinde uçtukları bölgelerin video verilerini de kaydediyor. Video verisi ordunun çok işine yarayabilirdi, eğer analiz edilseydi. Belli ki tüm video verisini analiz etmek için yeterli insan analist yok. 2012’de Hava Kuvvetleri Genel Sekreteri Michael Donley insansız hava araçlarının kaydettiği tüm video verisini analiz etmenin Hava Kuvvetleri analistlerinin yıllarını alacağını pişmanlık duyarak açıkladı. Görünen o ki Hava Kuvvetleri veriyi daha az insan müdahalesiyle analiz etme yaklaşımları üzerinde çalışıyor.

Page 47: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

Satın alma geçmişleri ve demografik özellikleri üzerinden müşterilerin ikinci en iyi tercihlerini öngören bir modeliniz varsa, bazı müşterilerin sosyal medya sitelerindeki yorum ve beğenilerini analiz ederek bu modeli daha iyi hale getirmeniz mümkün olabilir.

Page 48: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

Tanıyor olabileceğiniz kişiler özelliği LinkedIn üyelerine (müşterilerine) temas kurmak isteyebilecekleri diğer üyeleri öneriyor. Orta okul, iş, coğrafi konum ve bağlantıları da kapsayan çok faktörlü bir yaklaşım kullanıyor. Tanıyor olabileceğiniz kişiler mesajları, LinkedIn’in siteyi tekrar ziyaret etmeleri için müşterilerine gönderdiği diğer iletilere göre yüzde 30 daha fazla tıklanma oranı elde etti. Normalde yapmayacakları halde milyonlarca insan siteyi tekrar ziyaret etti. Bu özellik sayesinde LinkedIn’in büyüme eğrisi önemli ölçüde yükseldi.

Page 49: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

Amazon kitap satış öneri sistemleri ile satışlarını %30 arttırmış durumda.

Page 50: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

Zynega sürekli olarak oyun oynayan müşterilerini izliyor ve verileri toplayıp oyun deneyimini optimize ediyor. Zynga kullanıcılarının kimler olduklarını ve ne yaptıklarını izleyerek, inanılmaz bir veriye sahip olmuş durumda.

Page 51: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

«Bekleyin, size siz neyi istediğinizi bilmeden önce, istedikleriniz için reklamlar, kuponlar bile

yollayacağız.»

Andrew Pole

«Geçen ay (Ekim 2012) günün rassal olarak seçilmiş 8 zamanında telefonum çaldı. Google bana, yakın zamanda neyi bilmek istediğimi sordu. Dünyanın en büyük arama şirketi Google, online olarak aramayı hiç düşünmediğimiz bilgiyi bulmak için bu deneyi tasarlamıştı» (MIT Technology Review / Tom Simonite)

Page 52: Big data 24 mart 2015

BÜYÜK VERİ İLE NELER YAPILABİLİR?

Coğrafya, yer konum önem kazanıyor. CitySense adlı programı indirdikten sonra, cep telefonunuza ulaşan bir

harita üzerinde, gerçek zamanlı verilerle IPhone ya da Blackbery

kullanıcısı, kentteki hareketli eğlence yerlerini öğrenebiliyor. Her bir kredi

kartı bir GPS izleyicisi.

Page 53: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

N=Hepsi ile çarpıcı biçimde sallanan alanlardan biri de sosyal bilimler. Örnekleme çalışmaları ve amprik toplumsal verilerden anlam çıkarmak yerinden edilmiş durumda. Veri, insanlar zaten normalde yaptıkları şeyi yaparken pasif olarak toplandığından, örnekleme ve anketlerle ilgili eski önyargılar ortadan kalkacak.

Page 54: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

Değişmez bir şekilde büyük veri ile basit modeller, daha az veriye dayanan ayrıntılı modellerden daha iyi sonuç veriyor.

Medya ve eğlence şirketleri, sezgi ve içgüdülerine göre karar aldıkları ve insanların paylaştıkları içeriklere bakıp bakmadığını nasıl ölçeceklerini bilmedikleri için az başarılı olmuşlardır.

Page 55: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

Sektör sadece insanların ne tür film, program ve kısa videolardan hoşlanacağını anlamakla kalmayacak, çok daha fazla bilgi parçası elde edecek. Hangi yıldızlar izleyici çekiyor? Tüketicilerin izlemeye meyilli olduğu içerikler mutluluk verici olanlar mı yoksa üzücü içerikler mi? Kaba konuşmalar bazı izleyicilerin uzaklaşmasına neden oluyor mu, yoksa izlemeye devam etmelerini mi sağlıyor? Medya ve eğlence şirketlerinin mevcut “tahmin ortamları” oldukça düşük; çoğu film para kazandırmıyor ve çoğu diziyse yayından kaldırılıyor.

Page 56: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

Netflix ve Amazon gibi şirketler içerik yaratma işine girerek başarılı içerik tasarlayabilmek için büyük veriyi yeni bir şekilde kullanmanın yollarını gösteriyor. Netflix, House of Cards dizisini yayına sokmadan önce hem yönetmen ve yıldızların hem de dizinin İngiltere versiyonunun geçmişte izleyiciler üzerinde etkili olduğunu biliyordu. Bu yüzden bir Amerikan versiyonunun çekilmesi çok basit bir karardı. Amazon.com video yayın hizmeti için piyasaya on dört plot program sürdü ve nihai olarak üretilecek beş programı seçebilmek için tüketici geri bildirimlerinden yararlandı.

Page 57: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

Anand Rajaraman, Stanford Üniversitesi’nde öğrencileriyle bir çalışma yapıyor.Amaç Netflix’in algoristmasından daha iyi bir sonuç elde etmek. Netflix’in sağladığı büyük veri seti, yaklaşık yarım milyon insanın 18.000 filme ilişkin ratinglerini içeriyor. Öğrencilerin projelerinde amaçları: Bu ratinglere dayanarak, kullanıcıların ratinge sahip olmayan filmler için ratinglerini kestirmek.

Page 58: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

Duygu analizi (sentiment analyses/opinion mining)Verinin süreğen bir biçimde takip edilmesi gereken uygulamalar için geçerli. Duygu analizi bloglarda, tweetlerde ve facebook sayfalarında bir kuruluşun marka ve ürünleri hakkında yapılan yorumların nette olumlu ve olumsuz olduğunun belirlenmesine imkan tanır.

Page 59: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

Scott Golder ve Michael Macy, Twitter’daki mesajlardan yararlanarak insanların gün ve hafta içinde nasıl hissettiklerini inceledi ve şu sonuçlara vardı:Ortalama insanlar kendilerini iyi hissederek uyanıyor ama bu durum gün içinde olumsuza yöneliyor. Pozitif duygular sabahları ve gece yarısından önce tepe noktasına ulaşıyor. Negatif duygular ise sabah 09.00 ile öğleden sonra 15.00 arasında yer alıyor. Hafta ilerledikçe insanlar daha mutlu oluyorlar. En pozitif oldukları günler ise Cumartesi ve pazarlar.

Page 60: Big data 24 mart 2015

İLETİŞİM / MEDYA ALANINDA BÜYÜK VERİ

Aslında Japonlar Kansei Engineering (Duygu Mühendisliği) ile işe başlamışlar. İnsanları heyecanlandıran tasarımları belirliyor ve bu yaklaşımı otomobil üretiminde kullanıyorlardı. Mazda'nın Miyata modeli Kansei Engineering ile tasarlanmıştı. Şimdi sanal dünya da duygulara el atıyor. Sırada duygular ve "ne yaptığını, ne gördüğünü, ne hisettiğini, ne yolladığını” bilen Nesnelerin İnterneti var.

Page 61: Big data 24 mart 2015

TEMEL PROGRAMLAR / TERİMLER

Hadoop e-postalardan sensör okumaya, sunucu günlüklerinden Twitter feed’lerine ve GPS sinyallerine kadar aklımıza gelebilecek neredeyse her şeyle ilgili terabaytlarca veya daha büyük miktardaki yapılandırılmış ve yapılandırılmamış verileri depolamak ve analiz etmek için kullanılan açık kaynaklı bir yazılım.

Page 62: Big data 24 mart 2015

TEMEL PROGRAMLAR / TERİMLER

Hadoop’un gerekli olmasının nedenlerinden biri, sunucu ne kadar güçlü olursa olsun büyük veri hacminin tek bir sunucuda hızla işlenmemesi.MapReduce, büyük veri işlemesini birbirine bağlı bir grup bilgisayar arasında paylaştıran, Google tarafından üretilmiş altyapı. Hadoop bir bileşeni olarak bir MapReduce versiyonunu bünyesinde barındırır. Pipes: Yahoo Pipes, Web'deki içeriği toplamak, maniple etmek ve birleştirmek için güçlü bir araç. YouTube sitesinde yer alan King of Leon etiketi taşıyan videoları sıralamak gibi.

Page 63: Big data 24 mart 2015

TEMEL PROGRAMLAR / TERİMLER

Teknoloji Tanım

Hadoop Çoklu paralel sunucular üzerinden büyük veri işlemesi yapan açık kaynaklı yazılım

MapReduce Hadoop’un üzerinde çalıştığı mimari altyapı

Betik Diller Büyük veriyle uyumlu çalışan programlama dilleri (Python, Pig, Hive)

Makine Öğrenmesi

Bir veri kümesine en iyi uyan modeli hızla bulmak için kullanılan yazılım

Görsel Analitik Analitik sonuçların görsel veya grafik formatta gösterimi

Doğal Dil İşleme (NLP)

Metin analizi yazılımı-frekans, anlam vb.

Bellek içi analitik Daha hızlı sonuç almak için büyük verinin bilgisayar belleğinde işlenmesi

Page 64: Big data 24 mart 2015

KAYNAKÇA

Davenport, Thomas (2014). Big Data @ Work, Türk Hava Yolları

Yayınları, İstanbul

Gürsakal, Necmi (2014). Büyük Veri, Dora, II. Basım, Bursa.

Mayer-Schönberger, Viktor; Cukier, Kenneth (2013). Büyük Veri:

Yaşama, Çalışma ve Düşünme Şeklimizi Dönüştürecek Bir Devrim,

Paloma, İstanbul.