140 Κεφάλαιο 5 Ανάλυση Συσχέτισης - Παλινδρόμησης Χωρική Αυτοσυσχέτιση - Χωρική Παλινδρόμηση Σύνοψη Στο κεφάλαιο αυτό παρουσιάζονται βασικές μέθοδοι επεξεργασίας δύο ή περισσότερων μεταβλητών και συγκεκριμένα η ανάλυση συσχέτισης και η ανάλυση παλινδρόμησης. Με τη συσχέτιση εξετάζεται αν δύο ή περισσότερες μεταβλητές έχουν σχέση μεταξύ τους, πόσο ισχυρή είναι η σχέση αυτή και ποια κατεύθυνση έχει. Η ανάλυση παλινδρόμησης στηρίζεται στην ανάλυση συσχέτισης και αφορά τη δόμηση ενός μοντέλου για την ερμηνεία μίας μεταβλητής από μία ή περισσότερες μεταβλητές οι οποίες αποτελούν τους επεξηγηματικούς παράγοντες. Η ανάλυση παλινδρόμησης έχει πολύ σημαντικές εφαρμογές σε γεωγραφικά δεδομένα και έχουν αναπτυχθεί μέθοδοι χωρικής παλινδρόμησης οι οποίες λαμβάνουν υπόψη το φαινόμενο της χωρικής αυτοσυσχέτισης. Στο κεφάλαιο αυτό θα παρουσιαστούν δείκτες για τη μέτρηση της χωρικής αυτοσυσχέτισης, τρόποι μαθηματικής απεικόνισης της γειτνίασης στον γεωγραφικό χώρο με τη δημιουργία των χωρικών βαρών, καθώς και μοντέλα χωρικής παλινδρόμησης τα οποία λειτουργούν σε περιβάλλον GIS και ενσωματώνουν στους υπολογισμούς τη χωρική αυτοσυσχέτιση. Προαπαιτούμενη γνώση Προαπαιτούμενη γνώση για το κεφάλαιο αυτό είναι ορισμένα βασικά μέτρα της Περιγραφικής Στατιστικής τα οποία έχουν αναπτυχθεί στο Κεφάλαιο 3, όπως ο αριθμητικός μέσος, η διακύμανση, η τυπική απόκλιση και τα διαγράμματα διασποράς, ενώ από το Κεφάλαιο 4 η γνώση των στατιστικών ελέγχων είναι απαραίτητη για την εκτίμηση της αξιοπιστίας των αποτελεσμάτων της ανάλυσης συσχέτισης και της ανάλυσης παλινδρόμησης. 5.1 Εισαγωγή Στο Κεφάλαιο 3 παρουσιάστηκαν τρόποι περιγραφής μεμονωμένων μεταβλητών. Παρουσιάστηκαν για παράδειγμα πίνακες κατανομής συχνοτήτων για τις μεταβλητές ΠΛΗΘΥΣΜΟΣ 2011 και ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ (Πίνακες 3.5 και 3.6), καθώς και τα μέτρα κεντρικής τάσης και διασποράς. Επίσης, στον Πίνακα 3.14 παρουσιάστηκαν ο αριθμητικός μέσος, η τυπική απόκλιση και ο συντελεστής μεταβλητότητας για πέντε μεταβλητές. Παρόλο που οι μεταβλητές αυτές εμφανίζονται σε παράθεση και γίνεται σύγκριση της διασποράς, οι υπολογισμοί των μέτρων κεντρικής τάσης και διασποράς έχουν γίνει ξεχωριστά για κάθε μία από αυτές. Στο κεφάλαιο αυτό θα παρουσιαστούν στατιστικά μέτρα, όπως ο συντελεστής συσχέτισης Pearson r, για τον υπολογισμό των οποίων χρησιμοποιούνται ταυτοχρόνως οι τιμές δύο ή περισσότερων μεταβλητών, με σκοπό να διαπιστωθεί η ύπαρξης σχέσης μεταξύ τους. Στο σημείο αυτό πρέπει να αναφερθούν συμπληρωματικά, κάποιες επεξεργασίες και στατιστικοί έλεγχοι που παρουσιάστηκαν στα Κεφάλαια 3 και 4 και αφορούν τη σχέση μεταξύ δύο μεταβλητών. Οι διασταυρώσεις μεταβλητών και ο έλεγχος Χ 2 αποτελούν βασική μέθοδο για να εξακριβωθεί η ύπαρξη σχέσης μεταξύ δύο ποιοτικών μεταβλητών (βλ. Πίνακες 4.9, 4.10 και 4.12). Ο Πίνακας 3.7 παρουσιάζει τη σχέση της αξίας της κατοικίας (εκφρασμένη σε ομάδες αξίας, δηλαδή στην ιεραρχική κλίμακα) με τη θέση στάθμευσης, και από τη διασταύρωση των τιμών των δύο αυτών μεταβλητών προκύπτει ότι οι φθηνότερες κατοικίες, στο μεγαλύτερο ποσοστό τους, δεν διαθέτουν θέση στάθμευσης, ενώ το αντίθετο συμβαίνει για τις ακριβότερες. Ο έλεγχος Χ 2 χρησιμοποιείται για να ελέγξει την εγκυρότητα των αποτελεσμάτων και να αποφανθούμε αν οι μεταβλητές είναι εξαρτημένες ή ανεξάρτητες ( Πίνακας 4.12). Εξάλλου, οι έλεγχοι t και ANOVA που χρησιμοποιούνται για τη σύγκριση των αριθμητικών μέσων δύο ή περισσότερων ομάδων παρατηρήσεων, μπορεί να θεωρηθεί ότι εκφράζουν τη σχέση μεταξύ μιας ποσοτικής και μιας ποιοτικής μεταβλητής. Όταν παρατηρούμε ότι οι κατοικίες οι οποίες διαθέτουν θέση στάθμευσης είναι κατά μέσο όρο ακριβότερες από αυτές που δεν έχουν, μπορούμε να συμπεράνουμε ότι υπάρχει σχέση μεταξύ των δύο μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ, η οποία είναι εκφρασμένη στην αναλογική κλίμακα μέτρησης (σε ευρώ) και ΘΕΣΗ ΣΤΑΘΜΕΥΣΗΣ η οποία μετριέται στην ονομαστική κλίμακα, με τιμές «ναι» και «όχι». Τόσο οι πίνακες διασταυρώσεων, όσο και οι στατιστικοί έλεγχοι, είναι πολύ χρήσιμες τεχνικές προκειμένου να διαπιστωθεί η σχέση μεταξύ δύο μεταβλητών, ιδιαίτερα όταν η μία τουλάχιστον από αυτές είναι ποιοτική. Στο κεφάλαιο αυτό θα ασχοληθούμε με τη μέτρηση της συσχέτισης και τον υπολογισμό
39
Embed
Κεφάλαιο 5 Ανάλυση Συσέτισης Παλινδρμησης Χωρική Αυουχέιη ... · μεταβλητή θα ήταν ο πληθυσμός. Το θέμα
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
140
Κεφάλαιο 5 Ανάλυση Συσχέτισης - Παλινδρόμησης
Χωρική Αυτοσυσχέτιση - Χωρική Παλινδρόμηση
Σύνοψη
Στο κεφάλαιο αυτό παρουσιάζονται βασικές μέθοδοι επεξεργασίας δύο ή περισσότερων μεταβλητών και
συγκεκριμένα η ανάλυση συσχέτισης και η ανάλυση παλινδρόμησης. Με τη συσχέτιση εξετάζεται αν δύο ή
περισσότερες μεταβλητές έχουν σχέση μεταξύ τους, πόσο ισχυρή είναι η σχέση αυτή και ποια κατεύθυνση έχει. Η
ανάλυση παλινδρόμησης στηρίζεται στην ανάλυση συσχέτισης και αφορά τη δόμηση ενός μοντέλου για την
ερμηνεία μίας μεταβλητής από μία ή περισσότερες μεταβλητές οι οποίες αποτελούν τους επεξηγηματικούς
παράγοντες. Η ανάλυση παλινδρόμησης έχει πολύ σημαντικές εφαρμογές σε γεωγραφικά δεδομένα και έχουν
αναπτυχθεί μέθοδοι χωρικής παλινδρόμησης οι οποίες λαμβάνουν υπόψη το φαινόμενο της χωρικής
αυτοσυσχέτισης. Στο κεφάλαιο αυτό θα παρουσιαστούν δείκτες για τη μέτρηση της χωρικής αυτοσυσχέτισης,
τρόποι μαθηματικής απεικόνισης της γειτνίασης στον γεωγραφικό χώρο με τη δημιουργία των χωρικών βαρών,
καθώς και μοντέλα χωρικής παλινδρόμησης τα οποία λειτουργούν σε περιβάλλον GIS και ενσωματώνουν στους
υπολογισμούς τη χωρική αυτοσυσχέτιση.
Προαπαιτούμενη γνώση
Προαπαιτούμενη γνώση για το κεφάλαιο αυτό είναι ορισμένα βασικά μέτρα της Περιγραφικής Στατιστικής τα
οποία έχουν αναπτυχθεί στο Κεφάλαιο 3, όπως ο αριθμητικός μέσος, η διακύμανση, η τυπική απόκλιση και τα
διαγράμματα διασποράς, ενώ από το Κεφάλαιο 4 η γνώση των στατιστικών ελέγχων είναι απαραίτητη για την
εκτίμηση της αξιοπιστίας των αποτελεσμάτων της ανάλυσης συσχέτισης και της ανάλυσης παλινδρόμησης.
5.1 Εισαγωγή
Στο Κεφάλαιο 3 παρουσιάστηκαν τρόποι περιγραφής μεμονωμένων μεταβλητών. Παρουσιάστηκαν για
παράδειγμα πίνακες κατανομής συχνοτήτων για τις μεταβλητές ΠΛΗΘΥΣΜΟΣ 2011 και ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ
(Πίνακες 3.5 και 3.6), καθώς και τα μέτρα κεντρικής τάσης και διασποράς. Επίσης, στον Πίνακα 3.14
παρουσιάστηκαν ο αριθμητικός μέσος, η τυπική απόκλιση και ο συντελεστής μεταβλητότητας για πέντε
μεταβλητές. Παρόλο που οι μεταβλητές αυτές εμφανίζονται σε παράθεση και γίνεται σύγκριση της
διασποράς, οι υπολογισμοί των μέτρων κεντρικής τάσης και διασποράς έχουν γίνει ξεχωριστά για κάθε μία
από αυτές. Στο κεφάλαιο αυτό θα παρουσιαστούν στατιστικά μέτρα, όπως ο συντελεστής συσχέτισης Pearson
r, για τον υπολογισμό των οποίων χρησιμοποιούνται ταυτοχρόνως οι τιμές δύο ή περισσότερων μεταβλητών,
με σκοπό να διαπιστωθεί η ύπαρξης σχέσης μεταξύ τους.
Στο σημείο αυτό πρέπει να αναφερθούν συμπληρωματικά, κάποιες επεξεργασίες και στατιστικοί
έλεγχοι που παρουσιάστηκαν στα Κεφάλαια 3 και 4 και αφορούν τη σχέση μεταξύ δύο μεταβλητών. Οι
διασταυρώσεις μεταβλητών και ο έλεγχος Χ2 αποτελούν βασική μέθοδο για να εξακριβωθεί η ύπαρξη σχέσης
μεταξύ δύο ποιοτικών μεταβλητών (βλ. Πίνακες 4.9, 4.10 και 4.12). Ο Πίνακας 3.7 παρουσιάζει τη σχέση της
αξίας της κατοικίας (εκφρασμένη σε ομάδες αξίας, δηλαδή στην ιεραρχική κλίμακα) με τη θέση στάθμευσης,
και από τη διασταύρωση των τιμών των δύο αυτών μεταβλητών προκύπτει ότι οι φθηνότερες κατοικίες, στο
μεγαλύτερο ποσοστό τους, δεν διαθέτουν θέση στάθμευσης, ενώ το αντίθετο συμβαίνει για τις ακριβότερες. Ο
έλεγχος Χ2 χρησιμοποιείται για να ελέγξει την εγκυρότητα των αποτελεσμάτων και να αποφανθούμε αν οι
μεταβλητές είναι εξαρτημένες ή ανεξάρτητες ( Πίνακας 4.12).
Εξάλλου, οι έλεγχοι t και ANOVA που χρησιμοποιούνται για τη σύγκριση των αριθμητικών μέσων
δύο ή περισσότερων ομάδων παρατηρήσεων, μπορεί να θεωρηθεί ότι εκφράζουν τη σχέση μεταξύ μιας
ποσοτικής και μιας ποιοτικής μεταβλητής. Όταν παρατηρούμε ότι οι κατοικίες οι οποίες διαθέτουν θέση
στάθμευσης είναι κατά μέσο όρο ακριβότερες από αυτές που δεν έχουν, μπορούμε να συμπεράνουμε ότι
υπάρχει σχέση μεταξύ των δύο μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ, η οποία είναι εκφρασμένη στην αναλογική
κλίμακα μέτρησης (σε ευρώ) και ΘΕΣΗ ΣΤΑΘΜΕΥΣΗΣ η οποία μετριέται στην ονομαστική κλίμακα, με
τιμές «ναι» και «όχι».
Τόσο οι πίνακες διασταυρώσεων, όσο και οι στατιστικοί έλεγχοι, είναι πολύ χρήσιμες τεχνικές
προκειμένου να διαπιστωθεί η σχέση μεταξύ δύο μεταβλητών, ιδιαίτερα όταν η μία τουλάχιστον από αυτές
είναι ποιοτική. Στο κεφάλαιο αυτό θα ασχοληθούμε με τη μέτρηση της συσχέτισης και τον υπολογισμό
141
συντελεστών συσχέτισης, δίνοντας έμφαση στις ποσοτικές μεταβλητές. Για παράδειγμα, μπορεί να μας
ενδιαφέρει να εξετάσουμε αν η αξία των κατοικιών έχει σχέση με το εμβαδόν και την ηλικία τους. Και οι
τρεις αυτές μεταβλητές είναι ποσοτικές μεταβλητές, στην αναλογική κλίμακα μέτρησης. Στη συνέχεια μπορεί
να μας ενδιαφέρει να εξετάσουμε αν η αξία των κατοικιών μπορεί να ερμηνευτεί και να προβλεφθεί από το
εμβαδόν και την ηλικία τους, οπότε στην περίπτωση αυτή πρόκειται για ανάλυση παλινδρόμησης.
Παρά την έμφαση στις ποσοτικές μεταβλητές, θα παρουσιαστούν και ορισμένες μέθοδοι μέτρησης
της συσχέτισης ποιοτικών δεδομένων. Η Στατιστική μας επιτρέπει να διερευνήσουμε τα δεδομένα με πολλούς
διαφορετικούς τρόπους, επομένως τα μέτρα συσχέτισης ποιοτικών δεδομένων, που θα παρουσιαστούν σε
επόμενη ενότητα, μπορούν να χρησιμοποιηθούν εναλλακτικά ή συμπληρωματικά με τους πίνακες
διασταυρώσεων και τον έλεγχο Χ2, προκειμένου να αναλυθεί η σχέση μεταξύ δύο ποιοτικών μεταβλητών.
Η συσχέτιση και η παλινδρόμηση μελετούν τη σχέση μεταξύ δύο ή περισσότερων μεταβλητών. Η
απλή συσχέτιση και παλινδρόμηση αφορούν την περίπτωση όπου εξετάζονται ταυτοχρόνως μόνο δύο
μεταβλητές. Οι τεχνικές αυτές μπορούν όμως να επεκταθούν και για περισσότερες από δύο μεταβλητές και
στην περίπτωση αυτή εφαρμόζεται η πολλαπλή συσχέτιση ή παλινδρόμηση.
5.2 Ανάλυση συσχέτισης
Τα ερωτήματα για τη σχέση δύο μεταβλητών είναι πολύ συνηθισμένα και ενδιαφέροντα στην ερευνητική
διαδικασία. Μπορεί για παράδειγμα να θέλουμε να απαντήσουμε στο ερώτημα κατά πόσο η αξία των
ακινήτων έχει σχέση με την απόσταση από κεντρικές οδικές αρτηρίες ή αν το μέγεθος των αγροκτημάτων έχει
σχέση με την παραγωγικότητά τους ή αν η βαθμολογία στις εξετάσεις έχει σχέση με τις ώρες μελέτης. Με την
ανάλυση συσχέτισης (correlation analysis) μπορούμε να μετρήσουμε τον βαθμό συσχέτισης δύο μεταβλητών
και να προσδιορίσουμε την κατεύθυνση της μεταξύ τους σχέσης. Δηλαδή όσο αυξάνει η απόσταση από
κεντρικές οδικές αρτηρίες μπορεί να μειώνεται η αξία των κατοικιών, αυτή είναι μια αρνητική σχέση, ενώ
αντίθετα όσο αυξάνουν οι ώρες μελέτης αναμένουμε υψηλότερη βαθμολογία στις εξετάσεις. Η ανάλυση
συσχέτισης αφορά κατά κύριο λόγο ποσοτικές μεταβλητές, αλλά θα παρουσιαστούν και συντελεστές
συσχέτισης για ονομαστικές και ιεραρχικές μεταβλητές.
5.2.1 Συσχέτιση ποσοτικών μεταβλητών – Η έννοια της γραμμικής σχέσης
Για την περίπτωση των ποσοτικών μεταβλητών, ο όρος συσχέτιση αφορά τον βαθμό με τον οποίο δύο
μεταβλητές μεταβάλλονται ταυτοχρόνως (συμμεταβάλλονται) και προς ποια κατεύθυνση, με την προϋπόθεση
ότι η σχέση τους είναι γραμμική. Η γραμμική σχέση δύο μεταβλητών εκφράζεται γενικά από τη συνάρτηση
Y = a + bX, όπου X και Y είναι μεταβλητές και a, b σταθερές, οι παράμετροι της εξίσωσης. Στη γραμμική
σχέση για κάθε μεταβολή της μεταβλητής X κατά μία μονάδα, η μεταβλητή Y μεταβάλλεται κατά b. Σε
γεωμετρική απεικόνιση η σχέση αυτή παριστάνεται με μία ευθεία γραμμή.
Επειδή στην πραγματικότητα οι τιμές δύο μεταβλητών μπορεί να σχετίζονται με διαφορετικό τρόπο,
δηλαδή η σχέση να μην είναι γραμμική, πριν από τον ποσοτικό προσδιορισμό της σχέσης είναι απαραίτητο να
διερευνηθεί η ύπαρξη της γραμμικής σχέσης. Τα διαγράμματα διασποράς τα οποία παρουσιάστηκαν στην
ενότητα 3.4.2 αποτελούν το πρώτο βήμα για τη διερεύνηση της ύπαρξης γραμμικής σχέσης.
ΠΑΡΑΔΕΙΓΜΑ 5.1:Διαγράμματα διασποράς ή σκεδασμού
Στο Διάγραμμα 5.1 παρουσιάζεται το διάγραμμα διασποράς (και η γραμμή παλινδρόμησης) για τις
μεταβλητές ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και ΕΜΒΑΔΟΝ για ένα δείγμα 800 κατοικιών της Αττικής. Το σχήμα αυτό
εμφανίζει αρκετά ισχυρή γραμμική σχέση μεταξύ των δύο μεταβλητών, δηλαδή τα σημεία που παριστούν τις
παρατηρήσεις δείχνουν να βρίσκονται γύρω από μια ευθεία γραμμή. Όσο το διάγραμμα διασποράς πλησιάζει
την ευθεία γραμμή τόσο πιο ισχυρή είναι η γραμμική σχέση. Η σχέση είναι θετική, δηλαδή όσο μεγαλώνει το
εμβαδόν η αξία των κατοικιών είναι μεγαλύτερη.
Στο Διάγραμμα 5.2 παρουσιάζεται η σχέση πληθυσμού και απασχόλησης στη βιομηχανία για τους
νομούς της Ελλάδας με βάση τα δεδομένα του Πίνακα 1.1. Η σχέση αυτή εμφανίζει έντονη γραμμικότητα, η
οποία όμως επηρεάζεται από την ύπαρξη ακραίων (πολύ υψηλών τιμών) στους νομούς Αττικής και
Θεσσαλονίκης. Η σχέση αυτή είναι επίσης θετική.
Αντίθετα στο Διάγραμμα 5.3 παρουσιάζεται η σχέση μεταξύ των μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και
ΗΛΙΚΙΑ στο δείγμα των κατοικιών η οποία είναι ασθενής, αφού τα σημεία είναι αρκετά διασκορπισμένα, και
142
έχει αρνητική κατεύθυνση, δηλαδή όσο αυξάνει η ηλικία των κατοικιών μειώνεται η αξία τους. Παρόλο που η
σχέση είναι ασθενής, εφόσον δεν παραπέμπει σε κάποια άλλη συναρτησιακή μορφή, θεωρείται ως γραμμική.
Ο αριθμός των σημείων στα διαγράμματα διασποράς είναι ίσος με τον αριθμό των παρατηρήσεων,
800 σημεία για τα διαγράμματα 5.1 και 5.3 και 51 σημεία για το Διάγραμμα 5.2, αλλά λόγω της κλίμακας της
σχεδίασης και της ύπαρξης ακραίων τιμών εμφανίζεται συγκέντρωση των παρατηρήσεων σε ορισμένες
περιοχές των διαγραμμάτων. Στο Διάγραμμα 5.1 η μεγαλύτερη συγκέντρωση σημείων είναι στην περιοχή του
διαγράμματος με αξία έως 500.000 ευρώ περίπου και εμβαδόν έως 150 τ.μ. Στο Διάγραμμα 5.2 αντίστοιχα η
μεγαλύτερη συγκέντρωση νομών είναι στην περιοχή του διαγράμματος με πληθυσμό περίπου έως 300.000
κατοίκους και απασχόληση στη βιομηχανία περίπου έως 18.000. Στο Διάγραμμα 5.3 η μεγαλύτερη
συγκέντρωση κατοικιών μπορεί να προσδιοριστεί στην περιοχή έως 500.000 ευρώ και έως 10 ετών.
Διάγραμμα 5.1 Διάγραμμα διασποράς με ισχυρή γραμμικότητα (θετική σχέση)
Διάγραμμα 5.2 Διάγραμμα διασποράς με πολύ ισχυρή γραμμικότητα και ακραίες τιμές (θετική σχέση)
143
Διάγραμμα 5.3 Διάγραμμα διασποράς με ασθενή γραμμικότητα (αρνητική σχέση)
Η σειρά τοποθέτησης των μεταβλητών στους άξονες Χ και Υ δεν επηρεάζει τα αποτελέσματα για την
ανάλυση συσχέτισης. Όμως επειδή η ανάλυση συσχέτισης είναι συνυφασμένη με την ανάλυση
παλινδρόμησης, στον άξονα Υ τοποθετείται η μεταβλητή η οποία θεωρείται ότι μπορεί να επεξηγηθεί από τη
δεύτερη μεταβλητή. Για παράδειγμα η αξία των κατοικιών μπορεί να επεξηγηθεί από το εμβαδόν και την
ηλικία τους, οπότε στα Διαγράμματα 5.1 και 5.3, η μεταβλητή ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ τοποθετήθηκε στον άξονα
Υ. Στην περίπτωση των μεταβλητών ΠΛΗΘΥΣΜΟΣ 2011 και ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ ΒΙΟΜΗΧΑΝΙΑ 2011 δεν
είναι εύκολο να προσδιορίσουμε ποια μεταβλητή ερμηνεύει την άλλη. Στο Διάγραμμα 5.2 γίνεται η παραδοχή
ότι ο πληθυσμός είναι ο ερμηνευτικός παράγοντας για την απασχόληση στη βιομηχανία, και για τον λόγο
αυτό τοποθετείται στον άξονα Χ. Δηλαδή υποθέτουμε ότι νομοί με μεγάλο πληθυσμό προσελκύουν
βιομηχανική δραστηριότητα, πιθανά καταναλωτικού προσανατολισμού, οπότε αυξάνει ο αριθμός των
απασχολούμενων στη βιομηχανία. Όμως θα μπορούσαμε να ισχυριστούμε ότι η εγκατάσταση βιομηχανίας σε
έναν νομό προσελκύει πληθυσμό με αποτέλεσμα την αύξησή του, οπότε στην περίπτωση αυτή εξαρτημένη
μεταβλητή θα ήταν ο πληθυσμός. Το θέμα αυτό θα συζητηθεί παρακάτω στην ανάλυση παλινδρόμησης, όταν
θα πρέπει να οριστούν η εξαρτημένη και οι ανεξάρτητες μεταβλητές. Η εξαρτημένη μεταβλητή είναι αυτή
που θα ερμηνευτεί από μία ή περισσότερες μεταβλητές και στο διάγραμμα διασποράς τοποθετείται στον
άξονα Υ. Η ανεξάρτητη μεταβλητή τοποθετείται στον άξονα Χ. Σημειώνεται ότι στα διαγράμματα διασποράς
καταρχήν δεν μπορούμε να απεικονίσουμε περισσότερες από μία ανεξάρτητες μεταβλητές.
5.2.2 Μη γραμμικές σχέσεις
Στις γραμμικές σχέσεις η αύξηση κατά μία μονάδα της τιμής της μεταβλητής Χ έχει ως αποτέλεσμα την
αύξηση της μεταβλητής Υ κατά μία σταθερή ποσότητα. Συχνά όμως υπάρχει σχέση μεταξύ δύο μεταβλητών η
οποία δεν είναι γραμμική και μπορεί να παρασταθεί με μια καμπύλη. Και η σχέση αυτή μπορεί εύκολα να
διαπιστωθεί από τα διαγράμματα διασποράς, γι’ αυτό και η χρησιμότητά τους είναι πολύ μεγάλη στην
ανάλυση συσχέτισης και την ανάλυση παλινδρόμησης. Οι σχέσεις αυτές μπορεί να είναι εκθετικές,
λογαριθμικές, πολυώνυμα κ.ά. Από το διάγραμμα διασποράς πρέπει να διακρίνουμε ποια είναι η μορφή της
καμπύλης ώστε η σχέση που προκύπτει από το διάγραμμα διασποράς να μπορεί να εκφραστεί με μία
μαθηματική σχέση.
Στο Διάγραμμα 5.4 παρουσιάζεται μία κλασική καμπύλη στη Γεωγραφία η οποία δείχνει τη μείωση
της αλληλεπίδρασης μεταξύ δύο τόπων όσο η απόσταση μεγαλώνει (distance decay function). Για παράδειγμα
η μείωση των μετακινήσεων με την απόσταση σπανίως είναι γραμμική, αλλά παριστάνεται από μία καμπύλη
η οποία δείχνει γρήγορη μείωση στην αρχή και μικρότερη μείωση με την αύξηση της απόστασης. Από κάποια
απόσταση και μετά η αλληλεπίδραση τείνει ασυμπτωτικά προς το μηδέν. Τα ταξίδια, η επικοινωνία και η
144
μετανάστευση σπανίως ακολουθούν γραμμικές σχέσεις (Abler, Adams, & Gould, 1971). Στο Διάγραμμα 5.4
θα μπορούσε για παράδειγμα η μεταβλητή Y να είναι ο αριθμός των ημερήσιων μετακινήσεων εργαζόμενων
από κάποιους δήμους προς ένα μεγάλο αστικό κέντρο, π.χ. την Αθήνα, και η μεταβλητή Χ η απόσταση κάθε
δήμου από το αστικό κέντρο. Είναι αναμενόμενο οι πλησιέστεροι δήμοι να έχουν περισσότερες μετακινήσεις,
ενώ μετά από κάποια απόσταση οι μετακινήσεις πλησιάζουν το μηδέν. Στο παράδειγμα της Αθήνας, η
επιρροή της με την έννοια των ημερήσιων μετακινήσεων για εργασία, μπορεί να φθάνει μέχρι την Κόρινθο
και τη Χαλκίδα1. Παρόμοια είναι η καμπύλη αν παραστήσουμε τη μείωση της πυκνότητας του πληθυσμού ή
των τιμών της γης με την απόσταση από το κέντρο της πόλης. Συνήθως οι καμπύλες αυτές προσεγγίζονται με
την αρνητική εκθετική καμπύλη της μορφής Υ=αe-bX
(Chen 2015· Halás, Klapka, & Kladivo 2014· Shaw &
Wheeler, 2000 ).
Ορισμένες από τις μη γραμμικές καμπύλες μπορούν να μετατραπούν σε γραμμικές για την ευκολία
των υπολογισμών. Στο SPSS διατίθενται αρκετές επιλογές για προσαρμογή καμπύλης στα δεδομένα και οι
δυνατότητες αυτές θα συζητηθούν στην ενότητα για την ανάλυση παλινδρόμησης.
Διάγραμμα 5.4 Αρνητική εκθετική καμπύλη: Η επίδραση της απόστασης στην αλληλεπίδραση
5.2.3 Ο συντελεστής συσχέτισης Pearson r
Ο συντελεστής συσχέτισης (correlation coefficient) Pearson r είναι ο σημαντικότερος συντελεστής
συσχέτισης και αφορά ποσοτικές μεταβλητές, ενώ βασίζεται στην έννοια της γραμμικής σχέσης η οποία
παρουσιάστηκε στην προηγούμενη ενότητα. Έχει πάρει το όνομά του από τον Άγγλο μαθηματικό Karl
Pearson.
5.2.3.1 Η έννοια της συνδιακύμανσης Για τον υπολογισμό του συντελεστή συσχέτισης Pearson r για δύο μεταβλητές Χ και Υ χρησιμοποιείται η
συνδιακύμανση (covariance) η οποία συμβολίζεται με ),cov( YX . Η συνδιακύμανση υπολογίζεται από τα
γινόμενα των αποκλίσεων των τιμών της μεταβλητής Χ από τον αριθμητικό μέσο της και των τιμών της
μεταβλητής Υ από τον αριθμητικό μέσο της για όλες τις παρατηρήσεις, δηλαδή:
1 Σε τέτοιου είδους αναλύσεις σπανίως η απόσταση είναι ευκλείδεια και παίζει ρόλο το μεταφορικό δίκτυο.
145
Συνδιακύμανση 1
))((
),cov( 1
n
YyXx
YXi
n
i
i
όπου Χ και Υ είναι οι δύο μεταβλητές
Ο μαθηματικός τύπος της συνδιακύμανσης μπορεί να θεωρηθεί ως επέκταση του μαθηματικού τύπου
της διακύμανσης ή διασποράς (variance). Η διακύμανση αφορά μία και μόνη μεταβλητή, ενώ η
συνδιακύμανση περιγράφει πώς οι δύο μεταβλητές μεταβάλλονται ταυτοχρόνως. Ο μαθηματικός τύπος της
διακύμανσης μπορεί να αναλυθεί ως εξής:
Διακύμανση 1
)( 2
12
n
Xx
s
n
i
i
ή 1
))((12
n
XxXx
si
n
i
i
Αν στην παράσταση XxXx i
n
i
i 1
αντικατασταθεί ο ένας από τους δύο όρους με το όρο
Yyi αντιλαμβανόμαστε εμπειρικά πώς προκύπτει ο μαθηματικός τύπος της συνδιακύμανσης.
Η συνδιακύμανση μπορεί να είναι θετική ή αρνητική, ανάλογα με το αν οι τιμές της μίας μεταβλητής
αυξάνουν όταν και οι τιμές της δεύτερης αυξάνουν ή το αντίστροφο. Δηλαδή εφόσον υψηλές τιμές της Χ
τείνουν να συμβαδίζουν με υψηλές τιμές της Υ και χαμηλές τιμές της Χ με χαμηλές τιμές της Υ, η
συνδιακύμανση είναι θετική. Αντίθετα όταν χαμηλές τιμές της Χ συμβαδίζουν με υψηλές τιμές της Υ και οι
υψηλές τιμές της Χ με χαμηλές τιμές της Υ η συνδιακύμανση είναι αρνητική. Αυτές οι προϋποθέσεις δεν
ισχύουν συνήθως για το σύνολο των παρατηρήσεων, οπότε αν τα περισσότερα σημεία σε ένα διάγραμμα
διασποράς ακολουθούν μια ευθεία γραμμή με θετική κλίση, τότε η συνδιακύμανση είναι θετική και το
αντίστροφο. Η συνδιακύμανση πλησιάζει το μηδέν αν δεν υπάρχει γραμμική σχέση μεταξύ των δύο
μεταβλητών.
ΠΑΡΑΔΕΙΓΜΑ 5.2: Υπολογισμός συνδιακύμανσης
Στον Πίνακα 5.1 παρουσιάζεται τμήμα των δεδομένων για τις κατοικίες της Αττικής (Πίνακας 1.2).
Για 20 κατοικίες δίνεται η αξία της κατοικίας, η οποία είναι η μεταβλητή Υ και το εμβαδόν τους (μεταβλητή
Χ). Για τις δύο αυτές μεταβλητές έχει υπολογιστεί ο αριθμητικός μέσος και στις στήλες Yyi και Xxi
έχουν υπολογιστεί οι αποκλίσεις κάθε παρατήρησης από τον αριθμητικό μέσο για τις δύο μεταβλητές.
Εφόσον υπάρχει θετική σχέση μεταξύ των δύο μεταβλητών, όσο μεγαλώνει το εμβαδόν θα αυξάνει η αξία της
κατοικίας και το αντίστροφο. Θετικές αποκλίσεις αντιστοιχούν σε τιμές πάνω από τον αριθμητικό μέσο και
αρνητικές αποκλίσεις αντιστοιχούν σε τιμές κάτω από τον αριθμητικό μέσο. Εφόσον οι δύο μεταβλητές
συσχετίζονται θετικά, αν μία παρατήρηση έχει θετική απόκλιση για την αξία θα έχει θετική απόκλιση και για
το εμβαδόν, ενώ αρνητική απόκλιση για την αξία θα συνδέεται με αρνητική απόκλιση για το εμβαδόν, οπότε
και στις δύο περιπτώσεις, το γινόμενο των αποκλίσεων είναι θετικό. Επιπλέον, αν διατηρείται και η αναλογία
των αποκλίσεων, δηλαδή, αν για παράδειγμα, αξία δύο φορές πάνω από τον αριθμητικό μέσο της αξίας
συνδέεται με εμβαδόν επίσης δύο φορές πάνω από τον αριθμητικό μέσο του εμβαδού, η συσχέτιση είναι
τέλεια.
Στην πραγματικότητα, επειδή η συσχέτιση μεταξύ δύο μεταβλητών δεν είναι τέλεια, ούτε τα γινόμενα
των αποκλίσεων έχουν πάντα το ίδιο πρόσημο ούτε υπάρχει αναλογία των αποκλίσεων. Για παράδειγμα, σε
μια γενικά θετική σχέση, όπως αυτή της αξίας και του εμβαδού των κατοικιών, η θετική απόκλιση για τη μία
μεταβλητή μπορεί να συνδέεται με αρνητική απόκλιση για την άλλη μεταβλητή, οπότε το γινόμενο των
αποκλίσεων είναι αρνητικό. Στον Πίνακα 5.1 οι κατοικίες με αριθμό 8, 10, 13, 16 και 17 έχουν αρνητικό
γινόμενο αποκλίσεων. Ως προς την αναλογία των αποκλίσεων, αν παρατηρήσουμε την κατοικία με αριθμό 15
έχει σχεδόν διπλάσια αξία σε σχέση με τον αριθμητικό μέσο και το ίδιο ισχύει για το εμβαδόν της. Αντίθετα η
κατοικία με αριθμό 20 έχει χαμηλή αξία, περίπου στο 1/4 του αριθμητικού μέσου, αλλά το εμβαδόν είναι
αναλογικά μεγαλύτερο, στο ήμισυ του αριθμητικού μέσου. Αν το γινόμενο των αποκλίσεων είχε το ίδιο
πρόσημο για όλες τις παρατηρήσεις (θετικό στο συγκεκριμένο παράδειγμα) και επίσης υπήρχε η ίδια
αναλογία αποκλίσεων σε σχέση με τον αριθμητικό μέσο κάθε μεταβλητής, η συσχέτιση θα ήταν τέλεια.
Επειδή όμως υπάρχουν και άλλοι παράγοντες που επηρεάζουν την αξία των κατοικιών, εκτός από το
εμβαδόν, όπως η θέση, η ηλικία και ο όροφος, η συσχέτιση μεταξύ αξίας κατοικίας και εμβαδού δεν είναι
τέλεια.
146
Πίνακας 5.1 Υπολογισμός συνδιακύμανσης2
5.2.3.2 Υπολογισμός του συντελεστή συσχέτισης Pearson 3
Το μέγεθος της συνδιακύμανσης εξαρτάται από τα μεγέθη των τιμών των μεταβλητών και τις μονάδες
μέτρησης, όπως είναι η περίπτωση και για την τυπική απόκλιση. Προκειμένου να οριστεί ένα μέτρο
συσχέτισης ανεξάρτητο μονάδων μέτρησης, η συνδιακύμανση διαιρείται με το γινόμενο των τυπικών
αποκλίσεων σx και σy. Με τον τρόπο αυτό προκύπτει ο συντελεστής συσχέτισης Pearson, ο οποίος δεν έχει
μονάδες μέτρησης και συμβολίζεται με το ελληνικό γράμμα ρ, όταν ο υπολογισμός γίνεται για τον στατιστικό
πληθυσμό, και με το λατινικό γράμμα r, όταν πρόκειται για δείγμα. Οπότε:
όπου cov (x,y) είναι η συνδιακύμανση και σx, σy είναι οι τυπικές αποκλίσεις των μεταβλητών X και Y.
και
n
i
n
i
ii
n
i
ii
YyXx
YyXx
r
1 1
22
1
2 Τυχόν διαφορές στα αποτελέσματα οφείλονται στη διατήρηση όλων των δεκαδικών ψηφίων κατά τον υπολογισμό
3 Η πλήρης ονομασία του συντελεστή συσχέτισης Pearson είναι Pearson product-moment correlation coefficient, όπου ο
όρος product αναφέρεται στα γινόμενα των αποκλίσεων και ο όρος moment στον αριθμητικό μέσο.
YX
YX
),cov(
147
Υπάρχουν και εναλλακτικοί τύποι υπολογισμού του συντελεστή Pearson r (Wong & Lee, 2005), όπως:
n
i
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i
yynxxn
yxyxn
r
1
2
1
2
2
11
2
111
Ο συντελεστής συσχέτισης Pearson r δεν έχει μονάδες μέτρησης και λαμβάνει τιμές στο διάστημα [-
1,+1]. Επομένως για κάθε ζεύγος μεταβλητών, η τιμή του συντελεστή συσχέτισης θα είναι 11 r .
Συντελεστής r = -1 ή r = 1 σημαίνει ότι υπάρχει τέλεια γραμμική συσχέτιση μεταξύ των δύο μεταβλητών και
τα σημεία που ορίζονται από τα ζεύγη των τιμών τους στο διάγραμμα διασποράς βρίσκονται κατά μήκος μιας
ευθείας γραμμής. Η τιμή r=0 αντιστοιχεί σε ένα νέφος σημείων τα οποία είναι ασυσχέτιστα. Θετικός
συντελεστής συσχέτισης σημαίνει ότι οι δύο μεταβλητές είναι θετικά συσχετιζόμενες και οι τιμές τους
μεταβάλλονται προς την ίδια κατεύθυνση, δηλαδή όταν μεγαλώνουν οι τιμές της μίας μεταβλητής
μεγαλώνουν και οι τιμές της άλλης μεταβλητής και το αντίστροφο. Αρνητικός συντελεστής συσχέτισης
σημαίνει αρνητική σχέση μεταξύ δύο μεταβλητών, δηλαδή όταν αυξάνουν οι τιμές της μίας μεταβλητής
μειώνονται οι τιμές της άλλης. Η μηδενική συσχέτιση σημαίνει ότι δεν υπάρχει γραμμική σχέση μεταξύ των
δύο μεταβλητών. Στην περίπτωση αυτή, θα μπορούσε να υπάρχει σχέση μεταξύ των δύο μεταβλητών, η οποία
όμως δεν είναι γραμμική και για τον λόγο αυτό καταλήγει σε συντελεστή συσχέτισης Pearson r = 0 (βλ.
Διάγραμμα 5.6). Εκτός των χαρακτηριστικών τιμών του συντελεστή συσχέτισης, δηλαδή των r = ±1 και r = 0,
οι υπόλοιπες τιμές στο διάστημα [-1,+1] ερμηνεύονται με εμπειρικό τρόπο. Τιμές κοντά στη μονάδα, συνήθως
μεγαλύτερες του 0,80, θετικές ή αρνητικές ερμηνεύονται ως σχεδόν τέλεια ή πολύ ισχυρή συσχέτιση. Τιμές
κοντά στο 0,5 μπορεί να ερμηνευτούν ως μέτρια συσχέτιση, ενώ τιμές κοντά στο μηδέν ως ασθενής
συσχέτιση ή απουσία συσχέτισης. Πρέπει να σημειωθεί, ότι ανάλογα με το αντικείμενο της μελέτης, η
ερμηνεία του μεγέθους των συντελεστών συσχέτισης μπορεί να διαφέρει.
Στο Διάγραμμα 5.5 παρουσιάζονται υποθετικά διαγράμματα διασποράς στα οποία εμφανίζονται οι
χαρακτηριστικές τιμές του συντελεστή συσχέτισης Pearson:
r = 1 (τέλεια θετική συσχέτιση),
r = -1 (τέλεια αρνητική συσχέτιση),
r = 0 (απουσία συσχέτισης).
ΠΑΡΑΔΕΙΓΜΑ 5.3: Υπολογισμός συντελεστή συσχέτισης Pearson Στον Πίνακα 5.2 φαίνεται ο υπολογισμός του συντελεστή συσχέτισης Pearson για τα δεδομένα του
Πίνακα 5.1. Ο υπολογισμός του συντελεστή Pearson γίνεται μέσω προγραμμάτων Η/Υ, όπως το Excel
(συνάρτηση PEARSON) και το SPSS. Στα λογισμικά στατιστικής ανάλυσης είναι δυνατός ο υπολογισμός του
r για πολλά ζεύγη μεταβλητών ταυτόχρονα και η διαδικασία αυτή είναι σημαντική για να προχωρήσουμε
στην ανάλυση παλινδρόμησης.
Διάγραμμα 5.5 Διαγράμματα σκεδασμού και συντελεστές συσχέτισης
148
754,0
2151707376480000
30022400
1
2
1
2
1
n
i
i
n
i
i
n
i
ii
YyXx
YyXx
r
Πίνακας 5.2 Υπολογισμός συντελεστή συσχέτισης Pearson r
Στον Πίνακα 5.3 φαίνονται τα αποτελέσματα υπολογισμού του συντελεστή συσχέτισης Pearson για
πολλά ζεύγη μεταβλητών, όπως προκύπτουν από το λογισμικό SPSS για την επεξεργασία των δεδομένων των
800 κατοικιών, τμήμα των οποίων φαίνεται στον Πίνακα 1.2. Σε κάθε φατνίο εμφανίζονται τρεις γραμμές.
Στην πρώτη γραμμή εμφανίζεται ο συντελεστής συσχέτισης Pearson r και στη δεύτερη τα αποτελέσματα του
στατιστικού ελέγχου t, ο οποίος εξηγείται στην επόμενη ενότητα. Στην τρίτη γραμμή κάθε φατνίου
εμφανίζεται το πλήθος των παρατηρήσεων. Ο πίνακας των συντελεστών συσχέτισης είναι συμμετρικός πάνω
και κάτω από τη διαγώνιο, δηλαδή οι τιμές των συντελεστών συσχέτισης εμφανίζονται δύο φορές, επειδή δεν
έχει σημασία η σειρά των μεταβλητών στον υπολογισμό του Pearson. Η διαγώνιος αποτελείται από μονάδες,
επειδή κάθε μεταβλητή συσχετίζεται με το εαυτό της και η συσχέτιση είναι τέλεια, αλλά χωρίς πρακτική
σημασία. Η υψηλότερη συσχέτιση μεταξύ των μεταβλητών του Πίνακα 5.3 παρατηρείται μεταξύ των
μεταβλητών ΑΞΙΑ ΚΑΤΟΙΚΙΑΣ και ΕΜΒΑΔΟΝ. Ο συντελεστής συσχέτισης για τις μεταβλητές αυτές είναι
0,872 και η συσχέτιση είναι θετική και ισχυρή4. Ο συντελεστής συσχέτισης για τις μεταβλητές ΑΞΙΑ
ΚΑΤΟΙΚΙΑΣ και ΗΛΙΚΙΑ είναι -0,349. Στην περίπτωση αυτή το αρνητικό πρόσημο σημαίνει ότι όσο αυξάνει
η ηλικία της κατοικίας η αξία της μειώνεται, όμως το μέγεθος της συσχέτισης (0,349) υποδηλώνει μάλλον
ασθενή σχέση μεταξύ των δύο μεταβλητών. Πρέπει να σημειωθεί ότι η θέση των κατοικιών, δηλαδή ο δήμος
στον οποίο ανήκουν δεν είναι δυνατό να εμφανιστεί στον πίνακα των συσχετίσεων, επειδή πρόκειται για
4 Το αποτέλεσμα είναι διαφορετικό από αυτό του Πίνακα 5.2 επειδή το δείγμα είναι διαφορετικό.
149
μεταβλητή στην ονομαστική κλίμακα μέτρησης. Το θέμα αυτό θα αντιμετωπιστεί παρακάτω στην ανάλυση
παλινδρόμησης.
Στον Πίνακα 5.4 φαίνεται ο πίνακας των συντελεστών συσχέτισης για τα δεδομένα του Πίνακα 1.1
για τους 51 νομούς της Ελλάδας (βλ. και video 5.1). Στον πίνακα αυτό οι παρατηρήσεις είναι γεωγραφικές
ενότητες, οι νομοί, και μπορούν να εξαχθούν άμεσα συμπεράσματα γεωγραφικού ενδιαφέροντος, σε αντίθεση
με τα δεδομένα των κατοικιών. Παρατηρούμε για παράδειγμα πολύ υψηλούς συντελεστές συσχέτισης μεταξύ
των μεταβλητών ΠΛΗΘΥΣΜΟΣ 2011, ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ ΒΙΟΜΗΧΑΝΙΑ 2011, ΑΚΑΘΑΡΙΣΤΟ ΕΓΧΩΡΙΟ
ΠΡΟΪΟΝ 2011 και ΟΙΚΟΔΟΜΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ 2011, δηλαδή οι νομοί με μεγάλο πληθυσμιακό
μέγεθος συνήθως έχουν υψηλή απασχόληση στη βιομηχανία, υψηλό ΑΕΠ και μεγάλη οικοδομική
δραστηριότητα. Τα συμπεράσματα αυτά είναι αναμενόμενα αν λάβουμε υπόψη ότι νομοί με μεγάλο
πληθυσμό περιλαμβάνουν μεγάλα αστικά κέντρα, ενώ στη βιβλιογραφία είναι τεκμηριωμένη η σχέση
αστικοποίησης, εκβιομηχάνισης και υψηλών εισοδημάτων. Η οικοδομική δραστηριότητα είναι επίσης
αναμενόμενο να ακολουθεί την κατανομή του πληθυσμού. Αντίθετα η απασχόληση στη γεωργία αναφέρεται
στον αγροτικό χώρο ο οποίος είναι αραιοκατοικημένος και δεν χαρακτηρίζεται από βιομηχανική
δραστηριότητα, ενώ τα εισοδήματα είναι χαμηλότερα, οπότε οι συντελεστές συσχέτισης της μεταβλητής
ΑΠΑΣΧΟΛΗΣΗ ΣΤΗ ΓΕΩΡΓΙΑ 2011 με τις υπόλοιπες μεταβλητές εκφράζουν μέτρια προς ασθενή σχέση.
Πρέπει όμως να σημειωθεί, ότι δεν είναι εύκολο να διατυπωθεί μια ερευνητική υπόθεση για το αίτιο
και το αιτιατό μόνο από την παρατήρηση των συντελεστών συσχέτισης. Ενώ δηλαδή είναι λογικό να
υποθέσουμε ότι η μεγάλη οικοδομική δραστηριότητα αποτελεί αποτέλεσμα του μεγάλου πληθυσμιακού
μεγέθους, για τη σχέση πληθυσμού και βιομηχανικής δραστηριότητας δεν είναι εύκολο να γίνει μια ανάλογη
διατύπωση χωρίς βαθύτερη γνώση των πόλεων και της οικονομίας τους. Στη θεωρία της οικονομικής
ανάπτυξης οι μεγάλες πόλεις έλκουν οικονομική δραστηριότητα, αλλά επίσης η εγκατάσταση μεγάλων
παραγωγικών μονάδων προσελκύει πληθυσμό. Οι σχέσεις αιτίου και αιτιατού θα συζητηθούν αναλυτικότερα
στην ενότητα 5.3 που αφορά την ανάλυση παλινδρόμησης.
5.2.3.3 Επαγωγικοί έλεγχοι για τον συντελεστή συσχέτισης Pearson Όπως αναφέρθηκε προηγουμένως, ο συντελεστής συσχέτισης Pearson r αναφέρεται σε δεδομένα από
δειγματοληψία και ο αντίστοιχος συντελεστής συσχέτισης για τον πληθυσμό συμβολίζεται με ρ. Κατά τον
υπολογισμό του r από λογισμικά στατιστικής ανάλυσης, γίνεται στατιστικός έλεγχος για τον συντελεστή ρ. Η
μηδενική υπόθεση συνήθως είναι ότι δεν υπάρχει σχέση μεταξύ των δύο μεταβλητών οπότε ρ=0. Ο έλεγχος
της υπόθεσης αυτής γίνεται με παρόμοιο τρόπο, όπως στους ελέγχους υποθέσεων που έχουν αναφερθεί στο
Κεφάλαιο 4. Το κριτήριο το οποίο χρησιμοποιείται είναι το κριτήριο t το οποίο ισούται με:
21
2
r
nrt
όπου r είναι ο συντελεστής συσχέτισης Pearson που υπολογίζεται από το δείγμα.
Η κατανομή του κριτηρίου αυτού ακολουθεί την κατανομή t με n-2 βαθμούς ελευθερίας. Εφόσον η
τιμή του κριτηρίου t αντιστοιχεί σε πιθανότητα μικρότερη από το επίπεδο σημαντικότητας, δηλαδή p<0,05 ή
p<0,01, τότε μπορεί να απορριφθεί η μηδενική υπόθεση ότι ρ=0. Για τη γενικότερη περίπτωση ελέγχου, ως
προς οποιαδήποτε αριθμητική τιμή του ρ, ακολουθείται διαφορετική διαδικασία ελέγχου με βάση την
κανονική κατανομή (Κίτσος, 1991).
Στα λογισμικά στατιστικής ανάλυσης ο υπολογισμός του στατιστικού ελέγχου γίνεται αυτόματα. Στον
Πίνακα 5.3 με τα αποτελέσματα του SPSS, ο έλεγχος t φαίνεται στη δεύτερη σειρά κάθε φατνίου με τον όρο
Sig., δηλαδή significance ή σημαντικότητα. Υπάρχει επίσης στο ίδιο σημείο των αποτελεσμάτων και η
ένδειξη 2-tailed, ότι δηλαδή ο έλεγχος είναι αμφίπλευρος. Εφόσον η τιμή που βρίσκεται στη γραμμή Sig.
είναι μικρότερη από 0,05, τότε μπορούμε να απορρίψουμε τη μηδενική υπόθεση ότι ρ=0. Συνήθως τιμές
μεγαλύτερες του 0,05 εμφανίζονται σε ζεύγη μεταβλητών με ασθενή συσχέτιση.