ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης. http://delab.csd.auth.gr/~symeon. Αποθήκες Δεδομένων. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 1Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 1
Δρ. Παναγιώτης Συμεωνίδης
Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 2
Βάση Δεδομένων - Ορισμός
Σύστημα Διαχείρισης Βάσεων Δεδομένων (database management system):
Είναι μία συλλογή λογισμικού, η οποία υλοποιεί όλες οι λειτουργίες που πρέπει να υποστηριχθούν, όπως αναζήτηση, εισαγωγή, διαγραφή, συγχρονισμός προσπελάσεων, προστασία και πολλές ακόμη.
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 3
Διαγραμματική απεικόνιση μιας Βάσης Δεδομένων
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 4
Πλεονεκτήματα Βάσεων Δεδομένων
Περιγραφή Δεδομένων (μεταδεδομένα = δεδομένα για τα δεδομένα, κατάλογος συστήματος).
Ανεξαρτησία Δεδομένων και Λειτουργιών (δεν αλλάζουν τα προγράμματα εφαρμογής όταν αλλάζουν τα δεδομένα).
Αποδοτικότερη Διαχείριση Δεδομένων (ο προγραμ-ματιστής επικεντρώνεται στην εφαρμογή και όχι στα δεδομένα και τους αλγορίθμους επεξεργασίας τους).
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 5
Προστασία Δεδομένων και Δικαιώματα Χρηστών (για κάθε σύνολο δεδομένων ξεχωριστά).
Μηχανισμοί Ταυτόχρονης Προσπέλασης (προσφέρονται από το σύστημα μηχανισμοί κλειδαριών).
Πλεονεκτήματα Βάσεων Δεδομένων
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 6
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 15
ΣΚΟΠΟΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ
Τρεις διδακτικοί στόχοι:
1. Γνώση προχωρημένων θεμάτων Βάσεων και Εξόρυξης Δεδομένων.
2. Ικανότητα για κριτική αξιολόγηση ερευνητικών εργασιών στην Εξόρυξη Δεδομένων.
3. Εφαρμογή αλγορίθμων Εξόρυξης Δεδομένων για την επίλυση προβλημάτων.
ΒΙΒΛΙΟΓΡΑΦΙΑ
[1] Introduction to Data Mining(Tan, Steinbach, Kumar)
[2] Mining of Massive Datasets (Rajaraman, Leskovec, Ullman)
[3] Εισαγωγή στην εξόρυξη και τις αποθήκες δεδομένων
(Νανόπουλος, Μανωλόπουλος)
Miningof
MassiveDatasets
Anand RajaramanJure Leskovec
Jeffrey D. Ullman
ΒΙΒΛΙΟΓΡΑΦΙΑ
[4] Βάσεις, Αποθήκες και Εξόρυξη δεδομένων
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 18
ΒΑΘΜΟΛΟΓΙΑ ΜΑΘΗΜΑΤΟΣ
ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ (2 μονάδες)
ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ (3 μονάδες)
ΕΞΕΤΑΣΕΙΣ (5 μονάδες)
*Οι μονάδες αθροίζονται χωρίς προϋποθέσεις
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 19
ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ
Δυνατότητες επιλογής Θέματος1. State-of-the-art papers from Conferences or Workshops 2. Papers from Data Engineering Lab (DELAB) 3. DM Book project Topics
Τρόπος ΠαρουσίασηςΔιάλεξη 15 λεπτώνΠροβολή διαφανειών σε Power Point (30 διαφάνειες)Ερωτήσεις – Συζήτηση (5 λεπτά)
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 20
ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ
Χρήση του MS SQL Server 2014 R2 Business Intelligence
ΣενάριοΜια επιχείρηση διαθέτει μια βάση δεδομένων με στοιχεία των πελατών της. Θα σας δοθούν τρία προβλήματα που αντιμετωπίζει η επιχείρηση και θα προτείνετε λύσεις.
Εφαρμογή αλγορίθμων Εξόρυξης δεδομένωνΑλγόριθμοι Δέντρου, Συστάδων, Χρονοσειρών και Κανόνων Συσχέτισης
Παραδοτέα Προσδιορισμός πιθανών μοντέλων
Διαγράμματα κύβου, δέντρου, χρονοσειρών, συστάδων και κανόνων συσχέτισης Αξιολόγηση των πιθανών μοντέλων Επιλογή καλύτερου μοντέλου
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 21
Εξετάσεις
Ύλη μαθήματος (5-6 κεφάλαια από τα βιβλία που προτείνονται)
Θα πρέπει να απαντηθούν πέντε θέματα (1 μονάδα το καθένα)
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 22
Μάθημα 1 : Διάγραμμα & περιγραφή Μαθήματος (Syllabus)Μάθημα 2 : Βασικές έννοιες στις Βάσεις ΔεδομένωνΜάθημα 3 : Προχωρημένες έννοιες Βάσεων ΔεδομένωνΜάθημα 4 : MS SQL Server 2014 (Δημιουργία/Ερωτημ. ΒΔ)Μάθημα 5 : ΚατηγοριοποίησηΜάθημα 6 : Κανόνες Συσχέτισης Μάθημα 7 : Ομαδοποίηση Μάθημα 8 : Χρονοσειρές Θεωρία και SQL Server 2014Μάθημα 9 : MS SQL Server 2014 (Ομαδοποίηση)Μάθημα 10 : MS SQL Server 2014 (Κατηγοριοποίηση)Μάθημα 11 : MS SQL Server 2014 (Κανόνες Συσχέτισης)Μάθημα 12 : Εξόρυξη Δεδομένων Παγκόσμιου ΙστούΜάθημα 13 : Εξόρυξη Δεδομένων Ειδικού Σκοπού
Οργάνωση του Μαθήματος
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 23
Βάσεις Δεδομένων
Εκτεταμένο μοντέλο οντοτήτων συσχετίσεων
Δημιουργία Βάσης ΔεδομένωνΕρωτήματα σε βάση δεδομένων
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 24
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 25
Θέματα Κατηγοριοποίησης
Decision Tree ClassifierModel OverfittingNaïve Bayes ClassifierNearest Neighbor ClassifierEvaluating and Comparing ClassifiersEnsemble Methods
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 26
Θέματα Κανόνων Συσχέτισης
Frequent Itemset Generation (Apriori)Alternative Itemset Generation (FP-Growth)Sequential Patterns (temporal information)Recommendations based on Ass. Rules
Information Retrieval ModelsWeb Page Pre-processingLatent Semantic IndexingWeb SpammingContent-based Collaborative FilteringExplanations in Recommender Systems
Δρ. Παναγιώτης Συμεωνίδης – Βάσεις και Εξόρυξη Δεδομένων 36
Εξόρυξη Δεδομένων Δομής ΠΙ
Ανακαλύπτει ενδιαφέρουσα γνώση από υπερσυνδέσμους μεταξύ ιστοσελίδων του ΠΙ.