Materi - · PDF fileMacam-macam Sumber Data • Internal (dari dalam organisasi) ... – DBMS— tuned for OLTP: ... • Architecture of OLAM. Contoh Arsitektur OLAM

Post on 01-Feb-2018

250 Views

Category:

Documents

5 Downloads

Preview:

Click to see full reader

Transcript

Materi

1. Era Informasi2. Strategi dan Peluang Yang Kompetitif3. Database dan Database Warehouse4. Desain Database5. Sistem Pendukung Keputusan dan Sistem Cerdas6. E-Commerce

DATABASE DAN DATA WAREHOUSE

Pertemuan 06

2 SKS

Data dalam SPK• Data merupakan elemen penting

dalam menentukan kualitas suatu SPK.

• Data yang buruk atau tidak lengkap menyebabkan SPK tidak mencapai hasil yang optimal/bagus.

Preprocessing Data• Data Warehouse :

–Tempat kumpulan data yang digunakan untuk pengambilan keputusan, dikumpulkan dari berbagai sumber dan biasanya terpisah dari database organisasi/perusahaan.

• Data Mining : –Memilih data berdasarkan pola tertentu

sehingga diperoleh relasi antar variabel dan memiliki tingkat informasi yang lebih tinggi.

Tingkatan Data• Data:

– Kumpulan sesuatu, kejadian, aktivitas, transaksi yang direkam, diklasifikasikan dan disimpan namun tidak diorganisasikan untuk memberikan arti tertentu.

• Informasi: – Data yang telah diorganisasikan sedemikian sehingga

memberikan arti bagi penerimanya.• Knowledge:

– Data/informasi yang memberikan pemahaman, pengalaman, pelajaran, keahlian yang berguna untuk pemecahan masalah.

Macam-macam Sumber Data

• Internal (dari dalam organisasi)• Eksternal (dari luar organisasi)• Personal (dari tenaga ahli yang

berupa pendapat subjektif)

Data Warehouse• Definisi :

– “A data warehouse is a copy of transaction data specifically structured for querying and reporting” (Ralph Kimball)

• Suatu database untuk pendukung keputusan yang disimpan terpisah dari database operasional suatu organisasi

• Mendukung pemrosesan informasi dengan menyediakan platform data yang historical dan consolidated untuk analisis.

Data Warehousing• Data warehousing:

Proses konstruksi dan penggunaan data warehouses

• Data Warehousing berupaya mengumpulkan data-data dari berbagai sumber data sehingga mempunyai kualitas data yang bagus.

• Kualitas data yang bagus sangat mempengaruhi hasil keputusan.

Kualitas Data (Data Quality)

• Kualitas data (DQ) dapat dilihat dari 4 katergori:– Contextual DQ: Relevansi, nilai tambah, timeliness,

kelengkapan dan jumlah data.– Intrinsic DQ: akurasi, objektivitas, keterpercayan,

reputasi.– Accessibility DQ: aksesibilitas, keamanan akses.– Representation DQ: interpretabilitas, kemudahan

untuk dimengerti, representasi yang ringkas dan konsisten.

Arsitektur Data Warehouse

Arsitektur Data Warehouse 3-tier

ApplicationServer

Client

DatabaseServer

Application &Database

Server

Client

Arsitektur Data Warehouse 2-tier

Organisasi dan Struktur Database dalam Data Warehouse

• Relational Databases. Berbentuk tabel.• Hierarchical Databases. Berbentuk

pohon atau bagan organisasi.• Network Databases. Berbentuk jaringan

kompleks.• Struktur Lain: objec-oriented,

multimedia-based, documen-based, intelligent databases.

Karakteristik Data Warehousing (1)

• Subject-oriented. Data diorganisasi berdasarkan subyeknya. Mis: pelanggan

• Integrated. Data dari berbagai sumber disimpan dalam format yang sama. Mis: jenis kelamin : ‘L’ dan ‘P’. Maka data yang masuk mengalami konversi.

• Time-variant.Menyediakan data dari masa lampau hingga masa kini.

Karakteristik Data Warehousing (2)

• Nonvolatile. Tidak berubah/hilang. Data dalam data warehouse tidak boleh diupdate.

• Summarized. Data operasional dapat digabungkan ke dalam ringkasan.

• Not normalized. Tidak ternormalisasi.• Metadata. Metadata (data tentang data)

disertakan antara lain deskripsi struktur, istilah dan definisi, kepemilikan data, dsb.

Data Warehouse vs. Operational DBMS

• OLTP (on-line transaction processing)– Major task of traditional relational DBMS– Day-to-day operations: purchasing, inventory, banking, manufacturing, payroll,

registration, accounting, etc.

• OLAP (on-line analytical processing)– Major task of data warehouse system– Data analysis and decision making

• Distinct features (OLTP vs. OLAP):– User and system orientation: customer vs. market– Data contents: current, detailed vs. historical, consolidated– Database design: ER + application vs. star + subject– View: current, local vs. evolutionary, integrated– Access patterns: update vs. read-only but complex queries

OLTP vs. OLAP OLTP OLAP users clerk, IT professional knowledge worker function day to day operations decision support DB design application-oriented subject-oriented data current, up-to-date

detailed, flat relational isolated

historical, summarized, multidimensional integrated, consolidated

usage repetitive ad-hoc access read/write

index/hash on prim. key lots of scans

unit of work short, simple transaction complex query # records accessed tens millions #users thousands hundreds DB size 100MB-GB 100GB-TB metric transaction throughput query throughput, response

Mengapa Memisahkan Datawarehouse

• High performance for both systems– DBMS— tuned for OLTP: access methods, indexing,

concurrency control, recovery– Warehouse—tuned for OLAP: complex OLAP

queries, multidimensional view, consolidation.• Different functions and different data:

– missing data: Decision support requires historical data which operational DBs do not typically maintain

– data consolidation: DS requires consolidation (aggregation, summarization) of data from heterogeneous sources

– data quality: different sources typically use inconsistent data representations, codes and formats which have to be reconciled

Model Konseptual dari Datawarehouse

• Modeling data warehouses: dimensions & measures– Star schema: A fact table in the middle connected to a set of

dimension tables

– Snowflake schema: A refinement of star schema where some dimensional hierarchy is normalized into a set of smaller dimension tables, forming a shape similar to snowflake

– Fact constellations: Multiple fact tables share dimension tables, viewed as a collection of stars, therefore called galaxy schema or fact constellation

Contoh dari Star Schematime_keydayday_of_the_weekmonthquarteryear

time

location_keystreetcityprovince_or_streetcountry

location

Sales Fact Table

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_salesMeasures

item_keyitem_namebrandtypesupplier_type

item

branch_keybranch_namebranch_type

branch

Contoh Snow Flake Schematime_keydayday_of_the_weekmonthquarteryear

time

location_keystreetcity_key

location

Sales Fact Table

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales

Measures

item_keyitem_namebrandtypesupplier_key

item

branch_keybranch_namebranch_type

branch

supplier_keysupplier_type

supplier

city_keycityprovince_or_streetcountry

city

Contoh Fact Constellationtime_keydayday_of_the_weekmonthquarteryear

time

location_keystreetcityprovince_or_streetcountry

location

Sales Fact Table

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_salesMeasures

item_keyitem_namebrandtypesupplier_type

item

branch_keybranch_namebranch_type

branch

Shipping Fact Table

time_key

item_key

shipper_key

from_location

to_location

dollars_cost

units_shipped

shipper_keyshipper_namelocation_keyshipper_type

shipper

Tiga Model Data Warehouse• Enterprise warehouse

– Mengumpulkan semua informasi tentang subjek-subjek yang menjangkau seluruh organisasi

• Data Mart– Sebuah subset dari corporate-wide data yang berguna untuk

kelompok pengguna tertentu. Ruang lingkupnya lebih spesifik seperti marketing data mart

• Independent vs. dependent (directly from warehouse) data mart

• Virtual warehouse– Sekumpulan view atas database-databases operational– Hanya beberapa dari view yang mungkin yang dapat

diwujudkan

Penggunaan Data Warehouse• Pemrosesan informasi

– supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs

• Analytical processing– multidimensional analysis of data warehouse data– supports basic OLAP operations, slice-dice, drilling, pivoting

• Data mining– knowledge discovery dari pola-pola tersembunyi– supports associations, constructing analytical models,

performing classification and prediction, and presenting the mining results using visualization tools.

Dari OLAP ke OLAM (OnLine Analytical Mining)

• Why online analytical mining?– High quality of data in data warehouses

• DW contains integrated, consistent, cleaned data– Available information processing structure

surrounding data warehouses• ODBC, OLEDB, Web accessing, service facilities,

reporting and OLAP tools– OLAP-based exploratory data analysis

• mining with drilling, dicing, pivoting, etc.– On-line selection of data mining functions

• integration and swapping of multiple mining functions, algorithms, and tasks.

• Architecture of OLAM

Contoh Arsitektur OLAM

Data Warehouse

Meta Data

MDDB

OLAMEngine

OLAPEngine

User GUI API

Data Cube API

Database API

Data cleaning

Data integration

Layer3

OLAP/OLAM

Layer2

MDDB

Layer1

Data Repository

Layer4

User Interface

Filtering&Integration Filtering

Databases

Mining query Mining result

Data Mining• Istilah Data mining digunakan untuk

mendeskripsikan penemuan pengetahuan (knowledge) dalam database.

• Data mining merupakan proses yang menggunakan teknik, statistik, matematik, kecerdasan buatan dan machine-learning untuk mengekstrak dan mengidentifikasi informasi yang berguna dan pengetahuan dari database yang besar.

Kovergensi dari Tiga Teknologi

Metode Data Mining (1)• Data mining mencoba menemukan pola

dalam data.• Ada tiga jenis metode yang digunakan

untuk indentifikasi pola tersebut:– Simple models (SQL, OLAP, keputusan

manusia).– Intermediate models (regresi, decision

trees, clustering).– Complex models (neural network, dsb)

Metode Data Mining (2), Complex Model

• Text Mining:– Library database, e-mails, book stores, Web pages.

• Spatial Data Mining:– Geographic information systems, medical image

database.

• Multimedia Mining:– Image and video/audio databases.

• Web Mining:– Unstructured and semi-structured data– Web access pattern analysis

Metode Data Mining (3)• Metode data mining dapat pula

dikategorikan ke dalam 2 kategori:– Hypotesis-driven. Data mining dimulai dari

pernyataan yang kemudian diuji. Mis: “Apakah penjualan DVD player berkaitan dengan penjualan televisi?”

– Discovery-driven. Data mining mencari pola, asosiasi, dan hubungan antar data yang akhirnya dapat memberikan informasi lebih.

Tingkatan Model• Beberapa model lebih baik dari model lainnya

– Accuracy– Understandability

• Model-model tersebut bervarias dari “easy to understand” ke tidak dapat dipahami– Decision trees– Rule induction– Regression models– Neural Networks

Lebih mudah

Lebih sulit

Langkah-langkah Data Mining

• Seleksi. Memilih data.• Preprocessing. Mengatasi masalah data

rusak atau hilang.• Transformasi. Menyeragamkan format

data.• Data mining. Menerapkan algoritma data

mining.• Interpretasi/evaluasi. Evaluasi hasil.

Fungsionalitas Data Mining (1)• Karakterisasi (Characterization):

Summarization of general features of objects in a target class. ( Concept description) Ex: Characterize grad students in Science

• Diskriminasi (Discrimination):Comparison of general features of objects between a target class and a contrasting class. (Concept comparison)Ex: Compare students in Science and students in Arts

Fungsionalitas Data Mining (2)

• Asosiasi (Association):Studies the frequency of items occurring together in transactional databases.

Ex: buys(x, bread) buys(x, milk).• Prediksi (Prediction):

Predicts some unknown or missing attribute values based on other information.Ex: Forecast the sale value for next week based on available data.

Fungsionalitas Data Mining (3)• Klasifikasi:

– Organizes data in given classes based on attribute values. (supervised classification)

– Ex: Labeling celestial objects, medical diagnostic, …

• Clustering:– Organizes data in classes based on attribute values.

(unsupervised classification)– Ex: group crime locations to find distribution

patterns.– Minimize inter-class similarity and maximize intra-

class similarity Similarity or dissimilarity-function ( distance)

• Outlier analysis:– Identifies and explains exceptions (surprises)

– Ex: fraud detection, rare event analysis

Contoh Aplikasi Data Mining

• Marketing: mensegmentasi pelanggan secara demografis.

• Polisi: melacak pola kriminal, lokasi, perilaku kriminal dan sebagainya untuk membatu memecahkan kasus kriminal.

• Pabrikasi/Produksi: memperkirakan waktu kegagalan mesin, menemukan faktor-faktor penentu yang mengontrol optimisasi kapasitas pabrikasi.

top related