Veri Tabanı, Veri Ambarı, Veri Madenciliği Keşfi …abl.gtu.edu.tr/hebe/AblDrive/80782032/w/Storage/104_2010...•Veri tabanı ve verilerin depolanması 1970 •İlişkisel veri
Post on 18-Jan-2020
18 Views
Preview:
Transcript
1
Veri Tabanı, Veri Ambarı, Veri Madenciliği
Bilgi Keşfi Aşamaları
Apriori Algoritması
Veri Madenciliği Yöntemleri
Problemler
Veri Madenciliği Uygulama Alanları2
Bir bilgisayarda sistematik şekilde saklanmış, programlarca istenebilecek veri yığınıdır.
Veri Tabanı Yönetim Sistemi
Information Science
3
4
Veri tabanında asıl önemli kavram, kayıt yığını ya da bilgi parçalarının tanımlanmasıdır.
Buna ŞEMA adı verilir.
Şema veri tabanında kullanılacak bilgi tanımlarının nasıl modelleneceğini gösterir.
Buna DATA MODEL denir.
En yaygın olan data model İLİŞKİSEL MODEL’dir.
5
6
Veri tabanı yazılımları ise verileri sistematik bir biçimde depolayan yazılımlardır.
Birçok yazılım bilgi depolayabilir ancak aradaki fark ,veri tabanının bu bilgiyi verimli ve hızlı bir şekilde yönetip değiştirebilmesidir.
7
8
Veri ambarı ilişkili verilerin sorgulanabildiği ve analizlerin yapılabildiği bir depodur.
Başlangıçta farklı kaynaklardan gelen verinin üzerinde daha etkili ve daha kolay sorguların yapılmasını sağlamaktadır.
9
10
Off-Line çalışır. Veri değişiminden çok
sorgulama yapılır. Eski veriler saklandığı
için veri miktarı çok. Üst yönetim ve
analistler kullanır.(kullanıcı sayısı az)
Veri madenciliği gibi uzun süreçler sonucunda analizler yapılır.
On- Line çalışır. Veri değişimi işlemleri
yoğunluktadır. Güncel veriler saklandığı
için veri miktarı daha az. Veriye ulaşmak ve
değiştirmek isteyen her kullanıcıya hitap eder.(kullanıcı sayısı çok)
Sorgularla istenilen sonuçlara anında ulaşılabilir.
11
12
Veri madenciliği en basit şekilde büyük miktarda veri içerisinden gelecekle ilgili tahmin yapmamızı sağlayacak modellerin veya bağlantıların oluşturulmasıdır.
13
Riski az olan tüm kredi kartı başvurularını bul
Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul
DVD ile birlikte sıkça satılan ürünü bul
14
Veri madenciliği yazılımı, genellikle ilgisiz olarak görülen çok büyük hacimlerdeki verilerden anlamlı örnekleri çıkarır.
15
1950• İlk bilgisayarlar
1960• Veri tabanı ve verilerin depolanması
1970
• İlişkisel veri tabanı yönetim sistemleri
• Basit kurallara dayanan uzman sistemler ve makine öğrenimi
1980• Büyük miktarda veri içeren veri tabanları
1990
• Veri tabanlarında bilgi keşfi
• Veri madenciliği için ilk yazılım
2000• Tüm alanlar için veri madenciliği uygulamaları
16
17
Veri tabanlarında bilgi keşfi işlemleri, son yıllarda veri tabanına sahip çevrelerde büyük ilgi toplamaktadır.
Bilgi keşfinin birkaç aşaması vardır.
18
Veri madenciliği buradaki modelin kurulması ve modelin değerlendirilmesi aşamalarından meydana gelmektedir.
Şekil 1
Veri madenciliği
19
Problemin tanımlanması: Uygulamanın hangi
işletme amacı için kullanılacağı belirlenir.
Veri hazırlanması: Kendi içinde toplama ,değer biçme,birleştirme ve temizleme,seçme ve dönüştürme olarak ayrılır.
20
21
Model kurulması: Yapılacak uygulama için en
güvenilir ve güçlü modeli bulmak gerekir. Model çeşitleri ;
sınıflama,
kümeleme,
birliktelik kuralı.
Modelin kullanılması: Modeller birçok alanda kullanılıyor.
Modelin izlenmesi: Değişen şartlara göre güncelleme yapılmalıdır.
22
Veri madenciliğinde ,birliktelik kuralı çıkarım algoritmaları içerisinde en fazla kullanılan algoritmadır.
24
Bu algoritmada temel yaklaşım, “eğer k-öğe kümesi minimum destek kriterini sağlıyorsa, bu kümenin alt kümeleri de minimum destek kriterini sağlar. ” şeklindedir.
Bir veya daha çok öğeden oluşan küme – k-öğe kümesidir.
25
Destek kriteri, veride öğeler arasındaki bağıntının ne
kadar sık olduğunu belirtir.
X ve Y için destek her alışverişte birlikte bulunmalarıdır.
Güven kriteri ise Y ürününün hangi olasılıkla X ürünü ile beraber olacağını söyler.
26
Apriori algoritmasına örnek
27
Minimum destek ve güven değeri
belirlenir
Öğeler kümesi içerisindeki her öğenin destek
değeri bulunur
Minimum değerden küçük olanlar alınmaz
İkili birliktelikler oluşturulur
Minimum destek değerinden küçük
öğe kümeleri çıkarılır
Üçlü birliktelikler oluşturulur.
Üçlü birlikteliklerden destek değerini
geçenler çıkarılır.
28
*TAHMİNİ YÖNTEMLER
*TAMAMLAYICI YÖNTEMLER
En Yakın KomşuYapay Sinir Ağları
Karar Ağaçları
Tahmini yöntemler Tamamlayıcı yöntemler
Regresyon
Sınıflandırma
Kümeleme
Birliktelik Kuralı
1.
2.
3.
30
Bellek tabanlı bir tekniktir.
1. • Yeni gelen birey sınıfa eklenir.
2.• k komşusuna bakılır.
3.
• Çeşitli uzaklık fonksiyonları kullanılarakuzaklık hesaplanır.
4.• En yakın neresi ise birey oraya atanır.
31
*YSA ile basit biyolojik
sinir sisteminin çalışma
şekli taklit edilir.
*Nöron sisteminin çeşitli
şekilde bağlanarak
oluşturduğu ağlar öğrenme, hafızaya alma ve veriler arasındaki ilişkiyi ortaya çıkarma kapasitesine sahiptirler.
32
Karar ağaçları ile ağaç oluşturulduktan sonra, köktenyaprağa doğru inilerek kurallar yazılabilir.
33
• Karar düğümü: Veriye uygulanacak test tanımlanır.
• Dal:Testin sonucunu gösterir.
• Yaprak:Dalın sonucunda bir sınıflandırma elde edilebiliyorsa yaprak elde edilmiş olur.
34
Regresyon analizi, iki ya da daha çok değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur.
Örneğin;
Bir ziraatçi için buğday verimi ve gübre miktarıarasındaki ilişki
Bir mühendis için basınç ve sıcaklık ilişkisi
35
Amaç, küme üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olankümelerin bulunması ve veri tabanındaki kayıtlarınbu farklı kümelere bölünmesidir.
36
Veriler arasındaki ilginç birlikteliklerin, ilişkilerin ve bağıntıların kurallar halinde bulunması işlemidir.
Numara
Ürünler
1 Ekmek, kola, süt
2 Meyve suyu, ekmek
3 Meyve suyu, kola, çocuk bezi, süt
4 Meyve suyu, ekmek, çocuk bezi, süt
5 Kola, çocuk bezi, süt
Bulunan Kurallar;
Süt KolaÇocuk bezi, Süt Meyve suyu
37
1-)Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma)
2-)Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul
(kümeleme)
3-)DVD birlikte sıkça satın alınan ürünü bul (birliktelik kuralı)
38
PROBLEMLER
Artık Veri
Belirsizlik
Boş Veri
Dinamik Veri
Gürültü ve Kayıp Değerler
Veritabanı Boyutu
Artık veri:
Problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz niteliklerdir.
Belirsizlik:
Yanlışlıkların şiddeti ve verideki gürültünün
derecesi ile ilgilidir.
Gürültülü ve kayıp değerler:
Veri girişi veya veri toplanması esnasında
oluşan sistem dışı hatalara gürültü denir.
40
Boş veri:
Boş değer, kendisi de dâhil olmak üzere
hiçbir değere eşit olmayan değerdir.
Dinamik veri:
Kurumsal çevrim içi veri tabanları dinamiktir ve içeriği sürekli olarak değişir.
Veritabanı boyutu:
Büyük bir hızla artan veri tabanı boyutları küçük örneklemleri ele alabilecek boyuttaki veri tabanı algoritmalarını zorlar.
41
Büyük hacimde veri bulunan her yerde veri madenciliği kullanmak mümkündür.
Kaynaklar incelendiğinde veri madenciliğinin en çok kullanıldığı alan olarak tıp, biyoloji ve genetik görülmektedir.
43
Taşımacılık ve ulaşım
Turizm ve otelcilik
Belediyeler
Eğitim
Bilim ve mühendislik
İnternet
Pazarlama
Bankacılık
Sigortacılık
Elektronik Ticaret
Telekomünikasyon
Tıbbi Araştırmalar
Bunlar kullanım yerlerine göre aşağıdaki gibi sınıflandırılmıştır:
44
Bu alanda en çok başvurulan veri
madenciliği yaklaşımı sepet analizidir.
Müşterilerinin satın alma
alışkanlıklarının belirlenmesi
Mevcut müşterilerin elde tutulması,
yeni müşterilerin kazanılması
Müşteri ilişkileri yönetimi
Müşteri değerlendirme
Satış tahmini
45
Kredi kartı dolandırıcılıklarının tespiti
Kredi kartı harcamalarına göre müşteri guruplarının belirlenmesi
Kredi taleplerinin değerlendirilmesi
• Yeni poliçe talep edecek müşterilerin tahmin edilmesi
• Sigorta dolandırıcılıklarının tespit edilmesi
• Riskli müşteri guruplarının belirlenmesi
46
Saldırıların çözümlenmesi
e-CRM uygulamalarının yönetimi
WEB sayfalarına yapılan ziyaretlerinin çözümlenmesi
Kullanıcı davranışlarına göre web sitesinin yenilenmesi
47
İletişim ağlarında sorunlu bölgelerin tespiti
Kaçak hat kullanımlarının belirlenmesi
Kullanıcı davranışlarının belirlenmesi
Müşteri davranışlarına göre yeni hizmet-
lerin sunulması
• DNA içerisindeki genlerin sıralarının belirlenmesi
• Protein analizlerinin yapılması
• Hastalık haritalarının hazırlanması
• Hastalık tanıları
• Sağlık politikalarına yön verilmesi48
Verilerin anlamlandırılması
Üretim sistemlerinin benzetimi
Simülasyon ve sistem kullanımının
arttırılması
Kalite kontrol uygulamaları
Deprem verilerinin analizi ile deprem ve etkilerinin tahmini
İnternet ve web üzerindeki veriler hem hacim hem de karmaşıklık olarak hızla artmaktadır. Web madenciliği özetle internetten faydalı bilginin keşfi olarak tanımlanabilir.
Örneğin internet üzerinden kitap satan Amazon şirketi BookMatcher adlı programıyla müşterilerine okudukları ve sevdikleri kitaplara göre satın almaları için kitap tavsiye etmektedir.
49
Rms
Büyüklük
Derinlik
0
2
4
6
8
10
12
Bingöl Çanakkale Amasya Erzurum
04/12/2015 Tarihli Depremler
Rms Büyüklük Derinlik
DEPREM VERİLERİNİN ANALİZ ÖRNEĞİ
50
51
Ulaş Baran Baloğlu tarafından 2006 yılında
gerçekleştirilen uygulamada, DNA veri kümesinde bulunan biyolojik sıralar üzerinde veri madenciliği yapılarak tekrarlı örüntüler ve potansiyel motifler çıkartılmıştır. Önerilen yöntem yukarıdan-aşağı veri madenciliği ve genetik algoritma tabanlı hibrit bir çözümdür.
52
Feridun Cemal Özçakır ve A. Yılmaz Çamurcu
(2007) tarafından gerçekleştirilen bir çalışmada, bir firmanın pastane satış verileri üzerinde veri madenciliği uygulamak için birliktelik kuralları ile bir yazılım tasarlanmıştır. Genelde aynı ürün grubuna ait ürünlerin, en sık birlikte satın alınan ürünler olduğu görülmüştür.
53
• BAŞAK ÇOBAN• MERVE SARITAŞ• AZİME AKÇAÖZ• BÜŞRA AYDEMİR 54
top related