Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Post on 05-Dec-2014

1369 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

Ertek, G., Ozdol, F. and Degirmencioglu, B., “Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi”, YA/EM 2005, Istanbul, Turkey.

Transcript

Görsel Veri Madenciliği’nde bir Vaka Çalışması: 

ÖSS Verilerinin Analizi 

Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu Sabancı Üniversitesi 

Mühendislik ve Doğa Bilimleri Fakültesi Orhanlı, Tuzla, Istanbul, 34956

Sunum Planı 

•  Veri Madenciliği ve Bilgi Görselleştirmesi •  “Boyutlandırılabilir Simgeler” yaklaşımı •  Literatür •  Eniyileme Modeli •  Yazılım Uygulaması •  Vaka Çalışması: ÖSS Verilerinin Analizi •  Gelecekteki Çalışmalar

•  Günümüzde her sahada üretilen veri miktarı bilişim sistemlerinin gelişmesiyle birlikte katlanarak artmaktadır. 

•  Geçmişte – Veri toplamak önemli miktarda vakit gerektiren bir çalışma iken 

•  Günümüzde – Otomatik olarak toplanmakta olan verilerin incelenmesi daha çok önem kazanmaktadır.

Veri Madenciliği (Data Mining) 

•  Temel hedef: – Üretilmekte olan verilerin anlaşılmasını, yorumlanmasını ve ilgili kuruma (iş dünyası, eğitim, askeriye gibi) faydalı çıkarımlar yapılmasını sağlamaktır.

Veri Madenciliği •  Algoritma ağırlıklı matematiksel ve istatistiksel metodlar içeren çalışmalar oldukça geniş bir literatür oluşturmaktadırlar. 

•  Ne yazık ki bu çalışmalar –özellikle iş dünyasında­ istenen uygulanma seviyesine ulaşmamıştır. 

•  Bu metodların bir eksikliği sadece önceden belirlenebilecek tarzda öngörüler oluşturulmasıdır. 

•  Bir başka eksikliği ise son kullanıcıların anlamasının imkansız olduğu karmaşık algoritmalar kullanıyor olmalarıdır.

Görsel Veri Madenciliği (Visual Data Mining) 

(Bilgi Görselleştirmesi) (Information Visualization) 

•  Bilgisayar biliminin özellikle son 15 yılda önem kazanmış bir sahasıdır. 

•  1990 öncesinde verilerin grafiksel olarak incelenmesi dönük yapılan çalışmalar... 

•  1990 sonrasında –  Bilgisayarların hafıza, bilgi işleme ve 

grafiksel ara birim (GUI) boyutunda gelişmeleri 

–  Verilerin daha kolay toplanabilir hale gelmesi ile 

•  daha da olgunlaşmış ve bugünkü seviyesine ulaşmıştır.

Görsel Veri Madenciliği 

•  Amaç: – Özellikle çok­boyutlu­ verilerin görsel olarak grafiklerle sunulması yoluyla • Eldeki verilerden bilgiye ulaşmak • Bu bilgilerde saklı duran önemli noktaları açığa çıkarmaktır. 

•  Bu analiz sürecinde insan algılaması ve insan­bilgisayar etkileşimi önem kazanmaktadır.

Görsel Veri Madenciliği •  Verilerin görüntüsünü algılayan ve ilginç öngörüler bulmaya çalışan analist karmaşık algoritmaları anlamak zorunda değildir. 

•  Kendisine sunulan görsel etkileşim imkanları ile dilediği grafikleri dilediği parametrelerle dinamik olarak çizdirerek görsel sorgular yapabilir.

Bu Sunumda... •  Görsel Veri Madenciliği’nde sıkça rastlanan bir yaklaşımı, simge (ikon) bazlı görselleştirmeyi esas alarak geliştirilen bir görselleştirme yaklaşımı ve bunun gerçek bir veri üzerinde uygulaması sunulacaktır.

10 

“Boyutlandırılabilir Simgeler” (Sizeable Icons) 

•  Kategorik bir grup alan içeren ve sayısal bir ya da daha çok alan içeren veriler için uygulanabilmektir.

11 

•  Bu yaklaşımda kategorik değişkenin farklı değerlerinin her biri bir kutu (box) olarak gösterilmekte, 

•  Her bir kutunun içi o değeri taşıyan elemanları simgeleyen renkli kare simgelerle (icons) doldurulmaktadır. 

•  Kare simgelerin rengi sayısal bir değişkenin değerini göstermektedir.

12 

Literatür •  Keim (2002): Bilgi görselleştirmesi için sınıflandırma: – Görselleştirilecek veri tipi – Görselleştirme metodu – Etkileşim (interaction) ve çarpıtma (distortion) tekniği 

•  Web Kaynakları http://iv.homeunix.org/ http://otal.umd.edu/Olive/

13 

Literatür: Simge Bazlı Görselleştirme 

(Icon­based Visualization) 

•  Sun (2003): Üretim verilerinin görselleştirilmesi – Standart bir görsel tasarımın yan yana kutularda kullanılması 

•  Beddow (1990): Gezegenlerin manyetik etkinliklerinin 13 boyutlu verisi 

•  Hearst (1995): Arama terimlerinin dokümanlar içinde dağılımı 

•  Ward (2002): Simge bazlı görselleştirme literatürünün taraması

14 

Literatür: Boşluk Dolduran Görselleştirme 

(Space­filling Visualization) 

•  Mozaik gösterim (Mosaic display) (Spence, 2001, s20­23, s48­49) – Kutu boyutları her bir değere sahip kayıt sayısını gösterir. 

•  Ağaç­haritası (Treemap) (Johnson ve Shneiderman, 1991) – Hiyerarşik veriler tüm ekranı kaplayacak şekilde görüntülenebilir. 

•  Piksel bazlı görselleştirme (Pixel­based visualization) (Keim, 2002) – Ekrandaki herbir piksel veritabanındaki bir kaydı görüntüleyebilir. Böylece 1 milyona yakın kayıt görüntülenebilir.

15 

Literatür: İnsan Gruplarının Görselleştirilmesi •  Bir insan grubunun gösterimi (Spence, 2001, s20­23, s48­49) 

•  Sosyal bir ağ (social network) oluşturan bir insan grubunun gösterimi (Xiong ve Donath, 1999) 

•  Hiyerarşik bir yapı gösteren bir insan grubunun gösterimi (Robertson vd., 1991)

16 

•  Her bir küme bir kutu olarak gösterilmekte... •  Her bir eleman renkli bir simge olarak gösterilmektedir. 

•  Kutular gruplandıran değişkenin (partitioning attribute) farklı değerlerini taşır. 

•  Kare simgelerin rengi sayısal renklendiren değişkenin (coloring attribute) değerini gösterir. – Sarı: En büyük değer – Siyah: En küçük değer

17 

s = 50 piksel 

x (h) = 4

18 

Eniyileme Modeli (Optimization Model) 

En önemli değişkenler: s : her bir simgenin kenar uzunluğu x (h)  : her bir kutudaki yatay simge sayısı

19 

Yazılım Uygulaması •  Java programlama dili, •  Eclipse Bütünleşik Geliştirme Ortamı ( http://www.eclipse.org ) kullanılmıştır. 

•  Veriler bir MS Access dosyasında yer almakta, ODBC bağlantısı ile SQL sorguları yapılmaktadır. 

•  Kullanıcı Java, SQL ya da MS Access bilmeden grafikler çizdirebilmektedir.

20 

Vaka Çalışması 

• 2004 Öğrenci Seçme Sınavı’nda (ÖSS) EA ve SAY ilk 5000’e giren 5965 öğrencinin verileri: –Lise İsmi –Lise Tipi –Yerleştirildiği Üniversite –Yerleştirildiği Bölüm –Sayısal Puanı –Eşit Ağırlıklı Puanı

21 

Genel Öngörüler (General Insights)

22 

Lise Kıyaslaması (Benchmarking)

23 

İlişki Yönetimi (Relationship Management)

24 

Gelecekteki Çalışmalar 

•  Şu anda yapılamayan analizleri yapmaya olanak tanıyacak gösterimlerin geliştirilmesi ve uygulanması – Örn: ÖSS verilerinde yıldan yıla değişimlerin analizi 

•  Kullanıcının etkileşimli sorgular yapabilmesi

25 

Teşekkürler... Sorular?

top related