Μετάβαση στο περιεχόμενο

Συσχέτιση και εξάρτηση (Στατιστική)

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Διάφορα σύνολα (x, y) σημείων, με τον Pearson συντελεστή συσχέτισης των x και y για κάθε σύνολο. Σημειώστε ότι η συσχέτιση αντανακλά το θόρυβο και την κατεύθυνση της γραμμικής σχέσης (πάνω σειρά), αλλά όχι την κλίση της σχέσης (μέση), ούτε πολλές πτυχές των μη γραμμικών σχέσεων (κάτω). Π.Χ.: η εικόνα στο κέντρο έχει κλίση 0, αλλά σε αυτή την περίπτωση, ο συντελεστής συσχέτισης είναι απροσδιόριστος, επειδή η διακύμανση της Y είναι μηδέν.

Στις στατιστικές, η εξάρτηση είναι οποιαδήποτε στατιστική σχέση μεταξύ δύο τυχαίων μεταβλητών ή δύο σύνολα δεδομένων. Η συσχέτιση αναφέρεται σε μια ευρεία κατηγορία στατιστικών σχέσεων με τη συμμετοχή της εξάρτησης, αν και σε κοινή χρήση συχνότερα αναφέρεται στο βαθμό με τον οποίο δύο μεταβλητές έχουν μια γραμμική σχέση η μία με την άλλη. Γνωστά παραδείγματα εξαρτημένων φαινόμενων περιλαμβάνουν τη συσχέτιση μεταξύ των φυσικώνφαινοτύπων των γονέων και των απογόνων τους, καθώς και τη συσχέτιση μεταξύ της ζήτησης για ένα προϊόν και την τιμή του.

Οι συσχετισμοί είναι χρήσιμoι, διότι μπορεί να υποδείξουν μια προγνωστική σχέση που μπορεί να αξιοποιηθεί στην πράξη. Για παράδειγμα, ένα ηλεκτρικό εργαλείο μπορεί να παράγει λιγότερη ενέργεια σε μια ήπια μέρα με βάση τη συσχέτιση μεταξύ της ζήτησης ηλεκτρικής ενέργειας και των καιρικών συνθηκών. Σε αυτό το παράδειγμα υπάρχει μια αιτιώδης σχέση, επειδή τα ακραία καιρικά φαινόμενα προκαλούν τους ανθρώπους να χρησιμοποιούν περισσότερη ενέργεια για θέρμανση ή ψύξη * ωστόσο, η στατιστική εξάρτηση δεν επαρκεί για να αποδείξει την παρουσία της εν λόγω αιτιώδους σχέσης (δηλαδή,η συσχέτιση δε συνεπάγεται αιτιότητα).

Επισήμως, η εξάρτηση αναφέρεται σε οποιαδήποτε κατάσταση στην οποία τυχαίες μεταβλητές δεν πληρούν μια μαθηματική κατάσταση πιθανοτικής ανεξαρτησίας. Σε χαλαρή χρήση, η συσχέτιση μπορεί να αναφέρεται σε οποιοδήποτε απόκλιση δύο ή περισσότερων τυχαίων μεταβλητών από την ανεξαρτησία, αλλά τυπικά αναφέρεται σε πολλούς από τους πιο εξειδικευμένους τύπους σχέσης μεταξύ μέσων τιμών. Υπάρχουν διάφοροι συντελεστές συσχέτισης, συχνά συμβολίζονται ρ ή r, μετρώντας το βαθμό συσχέτισης. Οι πιο κοινοί από αυτούς είναι ο συντελεστής συσχέτισης Pearson, ο οποίος είναι ευαίσθητος μόνο σε μια γραμμική σχέση μεταξύ των δύο μεταβλητών (που μπορεί να υπάρχει ακόμη και αν η μία είναι μια μη γραμμική συνάρτηση της άλλης). Άλλοι συντελεστές συσχέτισης έχουν αναπτυχθεί για να είναι πιο γεροί από το συντελεστή συσχέτισης του Pearson – που είναι πιο ευαίσθητος σε μη γραμμικές σχέσεις.[1][2][3] η Αμοιβαία πληροφορία μπορεί επίσης να εφαρμοστεί για να μετρήσει την εξάρτηση μεταξύ δύο μεταβλητών.

Pearson συντελεστής συνδιακύμανσης

[Επεξεργασία | επεξεργασία κώδικα]

Το πιο γνωστό μέτρο της εξάρτησης μεταξύ δύο ποσοτήτων είναι ο συντελεστής συσχέτισης συνδιακύμανσης Pearson, ή "Pearson συντελεστής συσχέτισης", που συνήθως ονομάζεται απλά "ο συντελεστής συσχέτισης". Είναι το πηλίκο της διαίρεσης της συνδιακύμανσης των δύο μεταβλητών με το γινόμενο των τυπικών αποκλίσεωνKarl Pearson ανέπτυξε το συντελεστή από μια παρόμοια, αλλά ελαφρώς διαφορετική ιδέα από τον Francis Galton.[4]

Ο γνωστός συντελεστής συσχέτισης ρX,Y μεταξύ δύο τυχαίων μεταβλητών X και Y με τις αναμενόμενες τιμές μX και μY και τυπική απόκλιση σX και σY ορίζεται ως:

όπου Ε είναι η αναμενόμενη τιμή του χειριστή, cov σημαίνει συνδιακύμανση, και corr είναι μια ευρέως χρησιμοποιούμενη εναλλακτική σημειογραφία για το συντελεστή συσχέτισης.

Ο συντελεστής συσχέτισης Pearson ορίζεται μόνο αν και οι δύο τυπικές αποκλίσεις είναι πεπερασμένες και μη μηδενικές. Είναι απόρροια της ανισότητας Κωσύ-Σβαρτς ότι η συσχέτιση δεν μπορεί να υπερβαίνει το 1, σε απόλυτη τιμή. Ο συντελεστής συσχέτισης είναι συμμετρικός: corr(X,Y) = corr(Y,X).

Η συσχέτιση Pearson είναι +1 σε περίπτωση μίας τέλειας άμεσης (αύξουσας) γραμμικής σχέσης (συσχέτιση), -1 σε περίπτωση μίας τέλειας φθίνουσας (αντίστροφης) γραμμικής σχέσης (αντισυσχέτιση),[5] και κάποια τιμή μεταξύ -1 και 1 σε όλες τις άλλες περιπτώσεις, που δείχνει το βαθμό της γραμμικής εξάρτησης μεταξύ των μεταβλητών. Καθώς πλησιάζει το μηδέν υπάρχει λιγότερη  σχέση (πιο κοντά σε ασυσχέτιστα). Όσο πιο κοντά είναι ο συντελεστής είτε στο -1 ή στο 1, τόσο ισχυρότερη είναι η συσχέτιση μεταξύ των μεταβλητών.

Αν οι μεταβλητές είναι ανεξάρτητες, o συντελεστής συσχέτισης Pearson είναι 0, αλλά το αντίστροφο δεν είναι αληθές, διότι ο συντελεστής συσχέτισης ανιχνεύει μόνο γραμμική εξάρτηση μεταξύ των δύο μεταβλητών. Για παράδειγμα, ας υποθέσουμε ότι η τυχαία μεταβλητή X είναι συμμετρικά κατανεμημένη στο μηδέν, και Y = X2. Τότε το Y καθορίζεται εντελώς από το X, ώστε οι X και Y είναι απόλυτα εξαρτημένες, αλλά η συσχέτιση είναι μηδενική * είναι ασυσχέτιστες. Ωστόσο, στην ειδική περίπτωση, όταν X και Y είναι από κοινού κανονικές, το οτι δε συσχετίζονται είναι ισοδύναμο με την ανεξαρτησία.

Αν έχουμε μια σειρά από n μετρήσεις των X και Y γραμμένες ως xi και yi για i = 1, 2, ..., n, τότε ο δειγματικός συντελεστής συσχέτισης μπορεί να χρησιμοποιηθεί για την εκτίμηση του πληθυσμιακού συντελεστή συσχέτισης Pearson r μεταξύ X και Y. Ο δειγματικός συντελεστής συσχέτισης γράφεται

όπου x και y είναι ο δειγματικός μέσος των X και Y και sx και sy είναι οι δειγματικές τυπικές αποκλίσεις των X και Y.

Αυτό μπορεί επίσης να γραφτεί ως:

Αν x και y είναι τα αποτελέσματα των μετρήσεων που περιέχουν μετρήσιμα σφάλματα, τα ρεαλιστικά όρια του συντελεστή συσχέτισης δεν είναι από -1 έως +1, αλλά ένα μικρότερο εύρος.[6]

Για την περίπτωση του γραμμικού μοντέλου με μία μόνο ανεξάρτητη μεταβλητή, ο συντελεστής προσδιορισμού (R τετράγωνο) είναι το τετράγωνο του r, Pearson στιγμή προϊόντος συντελεστή.

Κατάταξη συντελεστών συσχέτισης

[Επεξεργασία | επεξεργασία κώδικα]

Ο βαθμός συσχέτισης των συντελεστών, όπως ο βαθμός του συντελεστή συσχέτισης του Spearman και ο βαθμός του συντελεστή συσχέτισης του Kendall (τ) μετρούν την έκταση στην οποία, καθώς μία μεταβλητή αυξάνεται, η άλλη μεταβλητή τείνει να αυξηθεί, χωρίς να απαιτείται η αύξηση να εκπροσωπείται από μια γραμμική σχέση. Αν, καθώς η μία μεταβλητή αυξάνεται, η άλλη μειώνεται, οι βαθμοί των συντελεστών συσχέτισης θα είναι αρνητικοί. Είναι σύνηθες να θεωρούμε αυτούς τους βαθμούς συντελεστών συσχέτισης ως εναλλακτικές λύσεις για το συντελεστή Pearson, αφού χρησιμοποιούνται είτε για να μειώσουν το ποσό του υπολογισμού του, ή για να κάνουν το συντελεστή λιγότερο ευαίσθητο σε μη-κανονικές κατανομές. Ωστόσο, η άποψη αυτή έχει μικρή μαθηματική βάση, καθώς οι βαθμοί των συντελεστών συσχέτισης μετρούν ένα διαφορετικό είδος σχέσης από τον Pearson συντελεστή συσχέτισης συνδιακύμανσης, και είναι καλύτερο να θεωρηθούν ως μέτρα ενός διαφορετικού είδους σύνδεσης, και όχι ως εναλλακτικό μέτρο του πληθυσμιακού συντελεστή συσχέτισης.[7][8]

Για να τονιστεί η φύση του βαθμού αντιστοιχίας, και η διαφορά της από την γραμμική συσχέτιση, εξετάστε τα ακόλουθα τέσσερα ζεύγη των αριθμών (x, y):

(0, 1), (10, 100), (101, 500), (102, 2000).

Καθώς πάμε από το κάθε ζεύγος στο επόμενο ζεύγος το x αυξάνει, το ίδιο και το y. Αυτή η σχέση είναι τέλεια, με την έννοια ότι η αύξηση των x πάντα συνοδεύεται από μια αύξηση στα y. Αυτό σημαίνει ότι έχουμε ένα τέλειο βαθμό συσχέτισης, και οι δύο συντελεστές συσχέτισης του Spearman και του Kendall είναι 1, ενώ σε αυτό το παράδειγμα ο συσχέτισης Pearson στιγμή προϊόντος συντελεστής είναι 0.7544, υποδεικνύοντας ότι τα σημεία απέχουν πολύ από το να βρίσκονται μια ευθεία γραμμή. Με τον ίδιο τρόπο, αν το y πάντα μειώνεται όταν το x αυξάνει, ο βαθμός συντελεστή συσχέτισης θα είναι -1, ενώ ο Pearson στιγμή προϊόντος συντελεστής συσχέτισης μπορεί να είναι ή να μην είναι κοντά στο -1, ανάλογα με το πόσο κοντά είναι τα σημεία σε μια ευθεία γραμμή. Αν και σε ακραίες περιπτώσεις τέλειου βαθμού συσχέτισης οι δύο συντελεστές είναι ισότιμοι (είναι και οι δύο +1 ή και οι δύο -1), αυτό δεν είναι γενική περίπτωση, και οι αξίες των δύο συντελεστών δεν μπορούν ουσιαστικά να συγκριθούν.[7] Για παράδειγμα, για τα τρία ζεύγη (1, 1) (2, 3) (3, 2) ο συντελεστής του Spearman είναι 1/2, ενώ ο συντελεστής του Kendall είναι 1/3.

Άλλα μέτρα εξάρτησης μεταξύ των τυχαίων μεταβλητών

[Επεξεργασία | επεξεργασία κώδικα]

Οι πληροφορίες που παρέχονται από τον συντελεστή συσχέτισης δεν είναι αρκετές για να καθορίσουν την δομή της εξάρτησης μεταξύ τυχαίων μεταβλητών.[9]  Ο συντελεστής συσχέτισης ορίζει εντελώς την δομή της εξάρτησης μόνο σε πολύ ειδικές περιπτώσεις, για παράδειγμα όταν η κατανομή είναι μια πολυμεταβλητή κανονική κατανομή. (Δείτε το παραπάνω διάγραμμα.) Στην περίπτωση που οι ελλειπτικές κατανομές χαρακτηρίζουν τις (υπερ-)ελλείψεις της ίσης πυκνότητας, ωστόσο, δεν χαρακτηρίζουν εντελώς την δομή της εξάρτησης (για παράδειγμα,για μια πολυμεταβλητή t-κατανομής  οι βαθμοί ελευθερίας καθορίζουν το επίπεδο της εξάρτησης).

Η Απόσταση συσχέτιση και Μπράουν συνδιακύμανση / Μπράουν συσχέτιση[10][11] θεσπίστηκαν για την αντιμετώπιση της ανεπάρκειας του συντελεστή συσχέτισης Pearson που μπορεί να είναι μηδέν  για εξαρτημένες τυχαίες μεταβλητές, η μηδενική απόσταση συσχέτισης και η μηδέν Brown συσχέτιση συνεπάγεται ανεξαρτησία.

Η Τυχαιοποιημένη Εξάρτηση του Συντελεστή[12] είναι ένα υπολογιστικά αποδοτικό, επίπεδο με βάση το μέτρο της εξάρτησης μεταξύ πολλών τυχαίων μεταβλητών . Η RDC είναι αμετάβλητη όσον αφορά τις μη γραμμικές κλιμακώσεις τυχαίων μεταβλητών, είναι ικανή να ανακαλύψει ένα ευρύ φάσμα από λειτουργικά μοτίβα σύνδεσης και παίρνει την τιμή μηδέν για ανεξαρτησία.

Η αναλογία συσχέτισης είναι σε θέση να ανιχνεύσει σχεδόν κάθε λειτουργική εξάρτηση, και η εντροπία με βάση την αμοιβαία πληροφορίαη συνολική συσχέτιση και η διπλή συνολική συσχέτιση είναι ικανή να ανιχνεύσει ακόμα ποιο γενικές εξαρτήσεις. Αυτές μερικές φορές αναφέρονται ως μέτρα συσχέτισης πολλαπλών στιγμών, σε σύγκριση με εκείνους που θεωρούν μόνο τη δεύτερη στιγμή (ζεύγη ή τετραγωνική) εξάρτηση.

Η πολυχωρική συσχέτιση είναι μια άλλη συσχέτιση που εφαρμόζεται σε τακτικά δεδομένα που έχει ως στόχο να εκτιμηθεί η συσχέτιση μεταξύ της θεωρίας των λανθάνων μεταβλητών.

Ένας τρόπος για να συλλάβει κανείς μια πιο ολοκληρωμένη άποψη για την δομή της εξάρτησης είναι να εξετάσει ένα επίπεδο μεταξύ τους.

Ο συντελεστής προσδιορισμού γενικεύει τον συντελεστή συσχέτισης για τις σχέσεις πέρα από την απλή γραμμική παλινδρόμηση.

Ευαισθησία στη κατανομή δεδομένων

[Επεξεργασία | επεξεργασία κώδικα]
Ο Pearson/Spearman συντελεστής συσχέτησης μεταξύ του X και Y εμφανίζεται όταν τα εύροι των δύο μεταβλητών είναι απεριόριστα, και όταν το φασμα του X είναι περιορισμένο στο διάστημα (0,1).

Ο βαθμός εξάρτησης μεταξύ των μεταβλητών X και Y δεν εξαρτάται από την κλίμακα στην οποία οι μεταβλητές εκφράζονται. Δηλαδή, αν αναλύσουμε τη σχέση μεταξύ X και Y, τα μέτρα συσχέτισης  δεν επηρεάζονται από τη μετατροπή του X σε a + bX και Y σε c + dY, όπου abc, και d είναι σταθερές (b και d είναι θετικά). Αυτό ισχύει και για τη συσχέτιση στατιστικών στοιχείων, καθώς και τον πληθυσμό τους ανάλογα. Για κάποια στατιστικά στοιχεία συσχέτισης, όπως το βαθμό του συντελεστή συσχέτισης, που είναι επίσης αμετάβλητα σε μονότονες μεταμορφώσεις των περιθωριακών κατανομών των Χ και/ή Y.

Τα περισσότερα μέτρα συσχέτισης είναι ευαίσθητα στον τρόπο με τον οποίο γίνεται η δειγματοληψία των X και Y. Οι Εξαρτήσεις τείνουν να γίνουν ισχυρότερες εάν προβληθούν πάνω από ένα ευρύτερο φάσμα τιμών. Έτσι, αν θεωρήσουμε τον συντελεστή συσχέτισης μεταξύ του ύψους των πατέρων και των γιων τους σε όλα τα ενήλικα αρσενικά, και το συγκρίνουμε με τον ίδιο συντελεστής συσχέτισης υπολογίζεται όταν οι πατέρες επιλέγονται να είναι μεταξύ 165 και 170 εκατοστά σε ύψος, η συσχέτιση θα είναι ασθενέστερη στην τελευταία περίπτωση. Διάφορες τεχνικές έχουν αναπτυχθεί που στοχεύουν στον περιορισμό του ευρους σε μία ή δύο μεταβλητές, και χρησιμοποιούνται συνήθως σε μετα-ανάλυση, η πιο κοινή είναι η περίπτωση II Thorndike's και η περίπτωση III εξισώσεις.[13]

Διάφορα μέτρα συσχέτισης στην χρήση, μπορεί να είναι αόριστα για ορισμένες κοινές κατανομές των Χ και Υ. Για παράδειγμα, ο συντελεστής συσχέτισης Pearson ορίζεται με βάση τις στιγμές, και ως εκ τούτου θα είναι απροσδιόριστος αν οι στιγμές είναι απροσδιόριστες. Μέτρα εξάρτησης με βάση τα quantiles ορίζονται πάντοτε. Το δείγμα με βάση τα στατιστικά στοιχεία που προορίζονται για την εκτίμηση του πληθυσμού τα μέτρα της εξάρτησης μπορεί ή μπορεί να μην έχουν τις επιθυμητές στατιστικές ιδιότητες όπως το να είναι αμερόληπτη, ή ασυμπτωτικά συνεπής, με βάση τη χωρική δομή του πληθυσμού από τον οποίο ελήφθησαν τα δεδομένα .

Η ευαισθησία για τη κατανομή δεδομένων μπορεί να χρησιμοποιηθεί ως πλεονέκτημα. Για παράδειγμα, η κλίμακα αντιστοιχίας έχει σχεδιαστεί για να χρησιμοποιεί την ευαισθησία ώστε να παίρνει συσχετίσεις μεταξύ γρήγορων στοιχείων των χρονοσειρών.[14] Μειώνοντας το εύρος των τιμών με ελεγχόμενο τρόπο, οι συσχετισμοί σε μακροπρόθεσμη κλίμακα φιλτράρονται και μόνο οι συσχετισμοί σε σύντομες χρονικές κλίμακες θα αποκαλυφθούν.

Πίνακες συσχέτισης

[Επεξεργασία | επεξεργασία κώδικα]

Ο πίνακας συσχέτισης των n τυχαίων μεταβλητών X1, ..., Xn είναι ο n × n πίνακας του οποίου τα i,j της εισόδου είναι corr(XiXj). Αν τα μέτρα της συσχέτισης χρησιμοποιούνται ως συντελεστές, ο πίνακας συσχέτισης είναι ο ίδιος με τον πίνακα συνδιασποράς των τυποποιημένων τυχαίων μεταβλητών Xi / σ (Xi) για i = 1, ..., n. Αυτό ισχύει τόσο για τον πίνακα συσχετίσεων του πληθυσμού (στην περίπτωση αυτή το "σ" είναι η τυπική απόκλιση πληθυσμού), οσο για τον πίνακα συσχετίσεων του δείγματος (στην περίπτωση αυτή το "σ", δηλώνει η τυπική απόκλιση του δείγματος). Κατά συνέπεια, το καθένα είναι απαραιτήτως ένας θετικός-ημιθετικός πίνακας.

Ο πίνακας συσχετίσεων είναι συμμετρικος διότι η συσχέτιση μεταξύ των Xi και Xj είναι η ίδια όπως η συσχέτιση ανάμεσα σε Xj και  Xi.

Κοινές παρερμηνείες

[Επεξεργασία | επεξεργασία κώδικα]

Συσχέτιση και αιτιότητα

[Επεξεργασία | επεξεργασία κώδικα]

Η συμβατική ρήση "correlation does not imply causation" σημαίνει ότι η συσχέτιση δεν μπορεί να χρησιμοποιηθεί για να συναχθεί η ύπαρξη αιτιώδους σχέσης μεταξύ των μεταβλητών.[15] Αυτή η ρήση δεν σημαίνει ότι οι συσχετισμοί δεν μπορεί να υποδηλώνουν την πιθανή ύπαρξη αιτιωδών σχέσεων. Ωστόσο, τα αίτια στα οποία βασίζεται η συσχέτιση, αν υπάρχει, μπορεί να είναι έμμεσα και άγνωστα, και οι υψηλές συσχέτισεις, ακόμα συμπίπτουν με τις σχέσεις  ταυτότητα (tautologies), όπου δεν υπάρχει αιτιώδης διαδικασία . Κατά συνέπεια , για τη θέσπιση συσχέτισης μεταξύ δύο μεταβλητών δεν αποτελεί επαρκή προϋπόθεση να δημιουργήσετε μια αιτιώδη σχέση (σε οποιαδήποτε κατεύθυνση).

Μια συσχέτιση μεταξύ της ηλικίας και το ύψος στα παιδιά είναι αρκετά αιτιολογικά διαφανείς, αλλά μια συσχέτιση μεταξύ της διάθεσης και της υγείας σε άτομα είναι λιγότερο έτσι. Η βελτιωμένη διάθεση οδηγεί σε βελτίωση της υγείας, ή  η καλή υγεία οδηγεί σε καλή διάθεση, ή και τα δύο; Ή μήπως κάποιος άλλος παράγοντας αποτελεί τη βάση και για τα δύο; Με άλλα λόγια, μια συσχέτιση μπορεί να ληφθεί ως αποδεικτικό στοιχείο για μια πιθανή αιτιώδη σχέση, αλλά δεν μπορεί να δείξει  ποια είναι η αιτιώδης σχέση, αν υπάρχει, ίσως είναι.

Συσχέτιση και γραμμικότητα

[Επεξεργασία | επεξεργασία κώδικα]
Τέσσερα σύνολα δεδομένων με την ίδια συσχέτιση 0.816

Ο συντελεστής συσχέτισης Pearson δείχνει τη δύναμη της γραμμικής σχέσης μεταξύ δύο μεταβλητών, η τιμή του όμως, γενικά, δεν χαρακτήριζει εντελώς τη σχέση τους.[16] Ειδικότερα, αν η υπό όρους, μέση τιμή της Y δοσμένου X, που συμβολίζεται E(Y|X), δεν είναι γραμμική στο X, ο συντελεστής συσχέτισης θα καθορίσει πλήρως την μορφή της E(Y|X).

Η εικόνα στα δεξιά δείχνει διαγράμματα διασποράς της Anscombe κουαρτέτο, ένα σύνολο από τέσσερα διαφορετικά ζεύγη μεταβλητών δημιουργηθεί από Francis Anscombe.[17] Οι τέσσερις y μεταβλητές έχουν την ίδια μέση τιμή (7.5), διακύμανση (4.12), συσχέτιση (0.816) και γραμμή παλινδρόμησης (y = 3 + 0.5x). Ωστόσο, όπως μπορεί να δει κανείς στα διαγράμματα, η κατανομή των μεταβλητών είναι πολύ διαφορετική. Στο πρώτο (πάνω αριστερά) φαίνεται να διανέμονται κανονικά, και αντιστοιχεί σε ότι θα περίμενε κανείς όταν εξετάζει δύο μεταβλητές που συσχετίζονται και μετά την παραδοχή της κανονικότητας. Στο δεύτερο (πάνω δεξιά) δεν κατανέμονται κανονικά, ενώ μπορεί να παρατηρηθεί μια προφανής σχέση μεταξύ των δύο μεταβλητών , όχι όμως γραμμική. Σε αυτή την περίπτωση, ο συντελεστής συσχέτισης Pearson δεν δείχνει ότι υπάρχει μια ακριβής λειτουργική σχέση: μόνο τον βαθμό στον οποίο αυτή η σχέση μπορεί να προσεγγισθεί με μια γραμμική σχέση. Στην τρίτη περίπτωση (κάτω αριστερά), η γραμμική σχέση είναι τέλεια, εκτός από μια εξαίρεση , η οποία ασκεί αρκετή επιρροή για να μειώσει το συντελεστή συσχέτισης από το 1 στο 0.816. Τέλος, το τέταρτο παράδειγμα (κάτω δεξιά) δείχνει πως μία ακραία τιμή είναι αρκετή για να παράγει ένα υψηλό συντελεστή συσχέτισης, ακόμα κι αν η σχέση μεταξύ των δύο μεταβλητών δεν είναι γραμμική.

Αυτά τα παραδείγματα δείχνουν ότι ο συντελεστής συσχέτισης, με μια συνοπτική στατιστική, δεν μπορεί να αντικαταστήσει την οπτική εξέταση των δεδομένων. Σημειώστε ότι τα παραδείγματα είναι μερικές φορές η αποδείξη ότι συντελεστής συσχέτισης Pearson προϋποθέτει ότι τα δεδομένα ακολουθούν κανονική κατανομή, αλλά αυτό δεν είναι σωστό.[4]

Διμεταβλητή κανονική κατανομή

[Επεξεργασία | επεξεργασία κώδικα]

Αν ένα ζεύγος (XY) τυχαίων μεταβλητών ακολουθεί μια διμεταβλητή κανονική κατανομή, η υπό όρους, δηλαδή E(X|Y) είναι γραμμική συνάρτηση του Y, και η υπό συνθήκη μέση τιμή E(Y|X) είναι γραμμική συνάρτηση του X. Ο συντελεστής συσχέτισης r μεταξύ X και Y, μαζί με τις οριακές μέσες τιμές και τις διακυμάνσεις των X και Y, καθορίζουν αυτή τη γραμμική σχέση:

όπου E(X) και E(Y)  είναι οι αναμενόμενες τιμές των X και Y, αντίστοιχα, και σx και σy είναι οι τυπικές αποκλίσεις των X και Y, αντίστοιχα.

Αν ο πληθυσμός ή το συνόλο των δεδομένων που χαρακτηρίζεται από περισσότερες από δύο μεταβλητές, ένας μερικός συντελεστής συσχέτισης μετρά τη δύναμη της εξάρτησης μεταξύ δύο μεταβλητών που δεν εξηγείται από τον τρόπο με τον οποίο και οι δύο αλλάζουν ανάλογα με τις παραλλαγές σε ένα επιλεγμένο υποσύνολο των άλλων μεταβλητών.

  1. Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman.
  2. Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition, A. Higler.
  3. Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition.
  4. 4,0 4,1 Rodgers, J. L.; Nicewander, W. A. (1988). «Thirteen ways to look at the correlation coefficient». The American Statistician 42 (1): 59–66. doi:10.1080/00031305.1988.10475524. 
  5. Dowdy, S. and Wearden, S. (1983).
  6. Francis, DP; Coats AJ; Gibson D (1999). «How high can a correlation coefficient be?». Int J Cardiol 69 (2): 185–199. doi:10.1016/S0167-5273(99)00028-5. 
  7. 7,0 7,1 Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968).
  8. Kendall, M. G. (1955) "Rank Correlation Methods", Charles Griffin & Co.
  9. Mahdavi Damghani B. (2013). «The Non-Misleading Value of Inferred Correlation: An Introduction to the Cointelation Model». Wilmott Magazine. doi:10.1002/wilm.10252. 
  10. Székely, G. J. Rizzo; Bakirov, N. K. (2007). «Measuring and testing independence by correlation of distances». Annals of Statistics 35 (6): 2769–2794. doi:10.1214/009053607000000505. https://archive.org/details/sim_annals-of-statistics_2007-12_35_6/page/2769. 
  11. Székely, G. J.; Rizzo, M. L. (2009). «Brownian distance covariance». Annals of Applied Statistics 3 (4): 1233–1303. doi:10.1214/09-AOAS312. 
  12. Lopez-Paz D. and Hennig P. and Schölkopf B. (2013). "The Randomized Dependence Coefficient", "Conference on Neural Information Processing Systems" Reprint
  13. Thorndike, Robert Ladd (1947). Research problems and techniques (Report No. 3). Washington DC: US Govt. print. off. 
  14. Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). «Scaled correlation analysis: a better way to compute a cross-correlogram». European Journal of Neuroscience: 1–21. doi:10.1111/j.1460-9568.2011.07987.x. 
  15. Aldrich, John (1995). «Correlations Genuine and Spurious in Pearson and Yule». Statistical Science 10 (4): 364–376. doi:10.1214/ss/1177009870. https://archive.org/details/sim_statistical-science_1995-11_10_4/page/364. 
  16. Mahdavi Damghani, Babak (2012). «The Misleading Value of Measured Correlation». Wilmott 2012 (1): 64–73. doi:10.1002/wilm.10167. 
  17. Anscombe, Francis J. (1973). «Graphs in statistical analysis». The American Statistician 27: 17–21. doi:10.2307/2682899.