2.2 ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Στατιστικοί Πίνακες Μετά τη συλλογή των στατιστικών δεδομένων είναι αναγκαία η κατασκευή συνοπτικών πινάκων ή γραφικών παραστάσεων, ώστε να είναι εύκολη η κατανόησή τους και η εξαγωγή σωστών συμπερασμάτων. Η παρουσίαση των στατιστικών δεδομένων σε πίνακες γίνεται με την κατάλληλη τοποθέτηση των πληροφοριών σε γραμμές και στήλες, με τρόπο που να διευκολύνεται η σύγκριση των στοιχείων και η καλύτερη ενημέρωση του αναγνώστη σχετικά με τη δομή του πληθυσμού που ερευνάμε. Πίνακας 1 Πληθυσμός της Ελλάδος (σε εκατομμύρια) κατά μεγάλες ομάδες ηλικιών
|
Πίνακας 2 Επιφάνεια και πληθυσμός των κατοικημένων νησιών της Ελλάδας με πληθυσμό, κατά την απογραφή του 1991, άνω των 10.000 κατοίκων.
Πίνακας 3 Εργατικά ατυχήματα κατά ομάδες ηλικιών
|
Πίνακας 4 Χαρακτηριστικά 40 μαθητών Γ' τάξης ενός Λυκείου.
|
Πίνακες Κατανομής Συχνοτήτων Ας υποθέσουμε ότι x1, x2,..., xκ είναι οι τιμές μιας μεταβλητής Χ, που αφορά τα άτομα ενός δείγματος μεγέθους v, κ ≤ ν. Στην τιμή xi αντιστοιχίζεται η (απόλυτη) συχνότητα (frequency) νi, δηλαδή ο φυσικός αριθμός που δείχνει πόσες φορές εμφανίζεται η τιμή xi της εξεταζόμενης μεταβλητής Χ στο σύνολο των παρατηρήσεων. Είναι φανερό ότι το άθροισμα όλων των συχνοτήτων είναι ίσο με το μέγεθος ν του δείγματος, δηλαδή: ν1+ ν2 + ... + νκ = v (1) Για παράδειγμα, για τη μεταβλητή Χ: “αριθμός αδελφών” του πίνακα 4 οι συχνότητες για τις τιμές x1 = 0, x2 =1, x3 = 2, x4 = 3 είναι, αντίστοιχα, ν1 = 8, ν2 = 22 , ν3 = 7, ν4 = 3 με ν1 + ν2 + ν3 + ν4 = 40. Ο υπολογισμός των συχνοτήτων γίνεται με τη διαλογή των παρατηρήσεων, όπως φαίνεται στον παρακάτω πίνακα 5. Διατρέχοντας με τη σειρά τη λίστα των δεδομένων καταγράφουμε κάθε παρατήρηση με συμβολικό τρόπο σαν μια γραμμή “ | ” στην αντίστοιχη τιμή της μεταβλητής. Πίνακας 5 Κατανομή συχνοτήτων της μεταβλητής Χ: “αριθμός αδελφών” των μαθητών του πίνακα 4.
Αν διαιρέσουμε τη συχνότητα νi με το μέγεθος ν του δείγματος, προκύπτει η σχετική συχνότητα (relative frequency) fi της τιμής xi, δηλαδή Για τη σχετική συχνότητα ισχύουν οι ιδιότητες: (i) 0 ≤ fi ≤ 1 για i = 1,2,..., κ αφού 0 ≤ νi ≤ ν. (ii) f1 + f2 + ... + fκ = 1, αφού |
Συνήθως, τις σχετικές συχνότητες fi τις εκφράζουμε επί τοις εκατό, οπότε συμβολίζονται με fi %, δηλαδή fi % =100fi. Για παράδειγμα, οι σχετικές συχνότητες για τις τιμές x1 = 0, x2 = 1, x3 = 2, x4 = 3 της μεταβλητής Χ: “αριθμός αδελφών΄” είναι αντιστοίχως: Συνεπώς f1% = 20% , f2% = 55%, f3% =17,5% και f4% = 7,5% με f1% + f2% + f3% + f4% = 100%.Οι ποσότητες xi, νi, fi για ένα δείγμα συγκεντρώνονται σε ένα συνοπτικό πίνακα, που ονομάζεται πίνακας κατανομής συχνοτήτων ή απλά πίνακας συχνοτήτων. Αθροιστικές Συχνότητες Στην περίπτωση των ποσοτικών μεταβλητών εκτός από τις συχνότητες νi και fi χρησιμοποιούνται συνήθως και οι λεγόμενες αθροιστικές συχνότητες (cumulative frequencies) Ni και οι αθροιστικές σχετικές συχνότητες (cumulative relative frequencies) Fi, οι οποίες εκφράζουν το πλήθος και το ποσοστό αντίστοιχα των παρατηρήσεων που είναι μικρότερες ή ίσες της τιμής xi. Συχνά οι Fi πολλαπλασιάζονται επί 100 εκφραζόμενες έτσι επί τοις εκατό, δηλαδή Fi% = 100Fi , βλέπε πίνακα 6. Αν οι τιμές x1, x2,..., μιας ποσοτικής μεταβλητής Χ είναι σε αύξουσα διάταξη, τότε η αθροιστική συχνότητα της τιμής xi είναι Ni = ν1 + ν2 +...+ νi. Όμοια, η αθροιστική σχετική συχνότητα είναι Fi= f1 + f2 +...+ fi, για i = 1,2,...,κ. Για παράδειγμα, για τη μεταβλητή Χ: “αριθμός αδελφών” του πίνακα 4 είναι Ν1 = ν1 = 8 , Ν2 = ν1 + ν2 = 30 , Ν3 = ν1 + ν2 + ν3 = 37 και Ν4 = ν1 + ν2 + ν3 + ν4 = ν = 40, οπότε ν1 = N1 , ν2 = N2 - N1 ,..., νκ = Nκ - Nκ-1 |
Πίνακας 6 Κατανομή συχνοτήτων και αθροιστικών συχνοτήτων της μεταβλητής
Γραφική Παράσταση Κατανομής Συχνοτήτων Τα στατιστικά δεδομένα παρουσιάζονται πολλές φορές και υπό μορφή γραφικών παραστάσεων ή διαγραμμάτων. Οι γραφικές παραστάσεις παρέχουν πιο σαφή εικόνα του χαρακτηριστικού σε σχέση με τους πίνακες, είναι πολύ πιο ενδιαφέρουσες και ελκυστικές, χωρίς βέβαια να προσφέρουν περισσότερη πληροφορία από εκείνη που περιέχεται στους αντίστοιχους πίνακες συχνοτήτων. Επί πλέον με τα διαγράμματα διευκολύνεται η σύγκριση μεταξύ ομοειδών στοιχείων για το ίδιο ή για διαφορετικά χαρακτηριστικά. Υπάρχουν διάφοροι τρόποι γραφικής παρουσίασης, ανάλογα με το είδος των δεδομένων που έχουμε. Όπως όμως οι στατιστικοί πίνακες έτσι και τα στατιστικά διαγράμματα πρέπει να συνοδεύονται από α) τον τίτλο, β) την κλίμακα με τις τιμές των μεγεθών που απεικονίζονται, γ) το υπόμνημα που επεξηγεί συνήθως τις τιμές της μεταβλητήςκαι δ) την πηγή των δεδομένων. α) Ραβδόγραμμα Το ραβδόγραμμα (barchart) χρησιμοποιείται για τη γραφική παράσταση των τιμών μιας ποιοτικής μεταβλητής. Το ραβδόγραμμα αποτελείται από ορθογώνιες στήλες που οι βάσεις τους βρίσκονται πάνω στον οριζόντιο ή τον κατακόρυφο άξονα. Σε κάθε τιμή της μεταβλητής Χ αντιστοιχεί μια ορθογώνια στήλη της οποίας το ύψος είναι ίσο με την αντίστοιχη συχνότητα ή σχετική συχνότητα. Έτσι έχουμε αντίστοιχα το ραβδόγραμμα συχνοτήτων και το ραβδόγραμμα σχετικών συχνοτήτων. Τόσο η απόσταση μεταξύ των στηλών όσο και το μήκος των βάσεών τους καθορίζονται αυθαίρετα. Στον πίνακα 7 έχουμε την κατανομή συχνοτήτων της μεταβλητής Χ: “απασχόληση στον ελεύθερο χρόνο” και στα σχήματα 1(α), (β) τα αντίστοιχα ραβδογράμματα συχνοτήτων και σχετικών συχνοτήτων. |
Πίνακας 7 Κατανομή συχνοτήτων για την απασχόληση στον ελεύθερο χρόνο τους
Μερικές φορές σε ένα ραβδόγραμμα συχνοτήτων ο ρόλος των δύο αξόνων είναι δυνατόν να αντιστραφεί, όπως φαίνεται στο σχήμα 1(β), που παριστάνεται το ραβδόγραμμα σχετικών συχνοτήτων της ίδιας μεταβλητής. Αν θέλουμε να συγκρίνουμε τον τρόπο που περνούν τον ελεύθερο χρόνο τους τα αγόρια και τα κορίτσια, τότε κατασκευάζουμε το ραβδόγραμμα σχετικών συχνοτήτων του σχήματος 1(γ), όπως προκύπτει από τον πίνακα 4.
|
β) Διάγραμμα Συχνοτήτων Στην περίπτωση που έχουμε μια ποσοτική μεταβλητή αντί του ραβδογράμματος χρησιμοποιείται το διάγραμμα συχνοτήτων (line diagram). Αυτό μοιάζει με το ραβδόγραμμα με μόνη διαφορά ότι αντί να χρησιμοποιούμε συμπαγή ορθογώνια υψώνουμε σε κάθε xi (υποθέτοντας ότι x1 < x2 <...< xκ) μία κάθετη γραμμή με μήκος ίσο προς την αντίστοιχη συχνότητα, όπως φαίνεται στο σχήμα 2(α). Μπορούμε επίσης αντί των συχνοτήτων νi στον κάθετο άξονα να βάλουμε τις σχετικές συχνότητες fi, οπότε έχουμε το διάγραμμα σχετικών συχνοτήτων. Ενώνοντας τα σημεία (xi, νi) ή (xi, fi) έχουμε το λεγόμενο πολύγωνο συχνοτήτων ή πολύγωνο σχετικών συχνοτήτων, αντίστοιχα, που μας δίνουν μια γενική ιδέα για τη μεταβολή της συχνότητας ή της σχετικής συχνότητας όσο μεγαλώνει η τιμή της μεταβλητήςπου εξετάζουμε, βλέπε σχήμα 2(β).
|
γ) Κυκλικό Διάγραμμα Το κυκλικό διάγραμμα (piechart) χρησιμοποιείται για τη γραφική παράσταση τόσο των ποιοτικών όσο και των ποσοτικών δεδομένων, όταν οι διαφορετικές τιμές της μεταβλητής είναι σχετικά λίγες. Το κυκλικό διάγραμμα είναι ένας κυκλικός δίσκος χωρισμένος σε κυκλικούς τομείς, τα εμβαδά ή, ισοδύναμα, τα τόξα των οποίων είναι ανάλογα προς τις αντίστοιχες συχνότητες νi ή τις σχετικές συχνότητες fi των τιμών xi της μεταβλητής. Αν συμβολίσουμε με αi το αντίστοιχο τόξο ενός κυκλικού τμήματος στο κυκλικό διάγραμμα συχνοτήτων, τότε Στο σχήμα 3 παριστάνεται το αντίστοιχο κυκλικό διάγραμμα σχετικών συχνοτήτων της “απασχόλησης των μαθητών” για τα δεδομένα του πίνακα 4. Κυκλικό διάγραμμα σχετικών συχνοτήτων της δ) Σημειόγραμμα Όταν έχουμε λίγες παρατηρήσεις, η κατανομή τους μπορεί να περιγραφεί με το σημειόγραμμα (dot diagram), στο οποίο οι τιμές παριστάνονται γραφικά σαν σημεία υπεράνω ενός οριζόντιου άξονα. Στο σχήμα 4 έχουμε το σημειόγραμμα των χρόνων (σε λεπτά) 4,2,3,1,5,6,4,2,3,4,7,4,8,6,3 που χρειάστηκαν δεκαπέντε μαθητές, για να λύσουν ένα πρόβλημα. |
ε) Χρονόγραμμα. Το χρονόγραμμα ή χρονολογικό διάγραμμα χρησιμοποιείται για τη γραφική απεικόνιση της διαχρονικής εξέλιξης ενός οικονομικού, δημογραφικού ή άλλου μεγέθους. Ο οριζόντιος άξονας χρησιμοποιείται συνήθως ως άξονας μέτρησης του χρόνου και ο κάθετος ως άξονας μέτρησης της εξεταζόμενης μεταβλητής. Στο σχήμα 5 έχουμε το χρονόγραμμα του ποσοστού ανεργίας στη χώρα μας από το 1990 έως το 1995. (Πηγή ΕΣΥΕ). Ποσοστά ανεργίας στην Ελλάδα Παρατηρούμε ότι στο γυναικείο πληθυσμό υπάρχει συστηματικά μεγαλύτερο ποσοστό ανεργίας, γύρω στις 8 εκατοστιαίες μονάδες. Στο διάστημα 1993-95 το ποσοστό ανεργίας έχει σταθεροποιηθεί γύρω στο 6,5% για τους άνδρες και γύρω στο 15% για τις γυναίκες. Ομαδοποίηση των Παρατηρήσεων Οι πίνακες συχνοτήτων και κατ’ αναλογίαν τα αντίστοιχα διαγράμματα είναι δύσκολο να κατασκευαστούν, όταν το πλήθος των τιμών μιας μεταβλητής είναι αρκετά μεγάλο. Αυτό μπορεί να συμβεί είτε στην περίπτωση μιας διακριτής μεταβλητής είτε, πολύ περισσότερο, στην περίπτωση μιας συνεχούς μεταβλητής, όπου αυτή μπορεί να πάρει οποιαδήποτε τιμή στο διάστημα ορισμού της. Σ’ αυτές τις περιπτώσεις είναι απαραίτητο να ταξινομηθούν (ομαδοποιηθούν) τα δεδομένα σε μικρό πλήθος ομάδων, που ονομάζονται και κλάσεις (class intervals), έτσι ώστε κάθε τιμή να ανήκει μόνο σε μία κλάση. Τα άκρα των κλάσεων καλούνται όρια των κλάσεων (class boundaries). Συνήθως υιοθετούμε την περίπτωση που μια κλάση περιέχει το κάτω άκρο της (κλειστή αριστερά) αλλά όχι το άνω άκρο της (ανοικτή δεξιά), δηλαδή που οι κλάσεις είναι της μορφής [ , ). Οι παρατηρήσεις κάθε κλάσης θεωρούνται όμοιες, οπότε μπορούν να “αντιπροσωπευθούν” από τις κεντρικές τιμές, τα κέντρα δηλαδή κάθε κλάσης.
|
Πίνακας 8 Το ύψος (σε cm) των μαθητών της Γ' Λυκείου, όπως έχει καταγραφεί στον πίνακα 4.
Παρατηρούμε ότι το εύρος του δείγματος είναι R = 191 - 156 = 35. Επειδή έχουμε ν = 40 παρατηρήσεις, χρησιμοποιούμε κ = 6 κλάσεις. |
Το πλάτος των κλάσεων είναι c = R / κ = 35 / 6 = 5,83 ≈ 6. Αν θεωρήσουμε ως αρχή της πρώτης κλάσης το 156, θα έχουμε τον επόμενο πίνακα 9.
Πίνακας 9 Κατανομές συχνοτήτων (απόλυτων, σχετικών, αθροιστικών) για τα δεδομένα
Ιστόγραμμα Συχνοτήτων Η αντίστοιχη γραφική παράσταση ενός πίνακα συχνοτήτων με ομαδοποιημένα δεδομένα γίνεται με το λεγόμενο ιστόγραμμα (histogram) συχνοτήτων. Στον οριζόντιο άξονα ενός συστήματος ορθογωνίων αξόνων σημειώνουμε, με κατάλληλη κλίμακα, τα όρια των κλάσεων. Στη συνέχεια, κατασκευάζουμε διαδοχικά ορθογώνια (ιστούς), από καθένα από τα οποία έχει βάση ίση με το πλάτος της κλάσης και ύψος τέτοιο, ώστε το εμβαδόν του ορθογωνίου να ισούται μετη συχνότητατης κλάσης αυτής. α) Κλάσεις Ίσου Πλάτους Θεωρώντας το πλάτος c ως μονάδα μέτρησης του χαρακτηριστικού στον οριζόντιο άξονα, το ύψος κάθε ορθογωνίου είναι ίσο προς τη συχνότητα της αντίστοιχης κλάσης, έτσι ώστε να ισχύει πάλι ότι το εμβαδόν των ορθογωνίων είναι ίσο με τις αντίστοιχες συχνότητες. |
Επομένως, στον κατακόρυφο άξονα σε ένα ιστόγραμμα συχνοτήτων βάζουμε τις συχνότητες. Με ανάλογο τρόπο κατασκευάζεται και το ιστόγραμμα σχετικών συχνοτήτων, οπότε στον κάθετο άξονα βάζουμε τις σχετικές συχνότητες.
Με τον ίδιο τρόπο κατασκευάζονται και τα ιστογράμματα αθροιστικών συχνοτήτων και αθροιστικών σχετικών συχνοτήτων. Αν ενώσουμε σε ένα ιστόγραμμα αθροιστικών συχνοτήτων τα δεξιά άκρα (όχι μέσα) των άνω βάσεων των ορθογωνίων με ευθύγραμμα τμήματα βρίσκουμε το πολύγωνο αθροιστικών συχνοτήτων (ogive) της κατανομής. Στο σχήμα 7 παριστάνεται το ιστόγραμμα και το πολύγωνο αθροιστικών σχετικών συχνοτήτων για το ύψος των μαθητών του πίνακα 9. β) Κλάσεις Άνισου Πλάτους Όπως προαναφέραμε, συνήθως επιλέγουμε κλάσεις ίσου πλάτους. |
Υπάρχουν όμως και περιπτώσεις που είναι απαραίτητο να έχουμε κλάσεις διαφορετικού πλάτους όπως, για παράδειγμα, στην κατανάλωση νερού και ηλεκτρικού ρεύματος ή ακόμα και περιπτώσεις όπου οι συχνότητες σε κάποιες κλάσεις να είναι πολύ μικρές οπότε γίνεται συγχώνευση κλάσεων. Έστω, για παράδειγμα, η διάρκεια (σε sec) ν=80 τηλεφωνημάτων που έγιναν τυχαία από ένα κινητό τηλέφωνο, η οποία δίνεται στο διπλανό πίνακα συχνοτήτων. Το αντίστοιχο ιστόγραμμα συχνοτήτων κατασκευάζεται πάλι, έτσι ώστε το εμβαδόν κάθε ορθογωνίου να ισούται με τη συχνότητα της αντίστοιχης κλάσης. Άρα, αν ci είναι το πλάτος της κλάσης i με συχνότητα νi, το ύψος του ορθογωνίου θα είναι , i = 1,2,..., κ. Επομένως, για την κατασκευή του ιστογράμματος συχνοτήτων χρειαζόμαστε τα πλάτη των κλάσεων και τα ύψη των ορθογωνίων. Αυτά δίνονται στον επόμενο πίνακα.
Τότε το ιστόγραμμα συχνοτήτων δίνεται στο σχήμα 8(α). Παρατηρούμε ότι το άθροισμα των εμβαδών όλων των ορθογωνίων είναι ίσο με το συνολικό μέγεθος δείγματος ν, όπως δηλαδή συμβαίνει και στο ιστόγραμμα με κλάσεις ίσου πλάτους.
|
Με ανάλογο τρόπο κατασκευάζεται και το ιστόγραμμα σχετικών συχνοτήτων, (σχήμα 8(β)) αρκεί να χρησιμοποιήσουμε ως ύψος των ορθογωνίων το λόγο των σχετικών συχνοτήτων προς το πλάτος των κλάσεων, δηλαδή . Καμπύλες Συχνοτήτων Καμπύλη συχνοτήτων για το ύψος Εάν υποθέσουμε ότι ο αριθμός των κλάσεων για μια συνεχή μεταβλητή είναι αρκετά μεγάλος (τείνει στο άπειρο) και ότι το πλάτος των κλάσεων είναι αρκετά μικρό (τείνει στο μηδέν), τότε η πολυγωνική γραμμή συχνοτήτων τείνει να πάρει τη μορφή μιας ομαλής καμπύλης, η οποία ονομάζεται καμπύλη συχνοτήτων (frequency curve), όπως δείχνει το σχήμα 9. Οι καμπύλες συχνοτήτων έχουν μεγάλη εφαρμογή στη Στατιστική, όπου οι ιδιότητες τους μπορούν να χρησιμοποιηθούν για την εξαγωγή χρήσιμων συμπερασμάτων. Η μορφή μιας κατανομής συχνοτήτων εξαρτάται από το πώς είναι κατανεμημένες οι παρατηρήσεις σε όλη την έκταση του εύρους τους. Μερικές χαρακτηριστικές καμπύλες συχνοτήτων που συναντάμε συχνά στις εφαρμογές δίνονται στο σχήμα 10. Η κατανομή (β), με “κωδωνοειδή” μορφή λέγεται κανονική κατανομή (normal distribution) και παίζει σπουδαίο ρόλο στη Στατιστική. Όταν οι παρατηρήσεις “κατανέμονται” ομοιόμορφα σε ένα διάστημα [α, β], όπως στην κατανομή (α), η κατανομή λέγεται ομοιόμορφη. Όταν οι παρατηρήσεις δεν είναι συμμετρικά κατανεμημένες, η κατανομή λέγεται ασύμμετρη με θετική ασυμμετρία όπως στην κατανομή (γ) ή αρνητική ασυμμετρία όπως στην κατανομή (δ).
|
ΕΦΑΡΜΟΓΕΣ 1. Από το πολύγωνο αθροιστικών συχνοτήτων του παρακάτω διαγράμματος να βρεθεί ΛΥΣΗ α) Ακολουθούμε τη διαδρομή ΑΒ, όπως φαίνεται στο διάγραμμα, και ξεκινώντας από το σημείο (0, 0,25) πηγαίνουμε παράλληλα προς τον άξονα 0x μέχρι το αθροιστικό διάγραμμα και μετά κάθετα στον άξονα 0x μέχρι το σημείο (x *,0). Το x * = 168 είναι το ζητούμενο ύψος. β) Όμοια, ακολουθώντας τη διαδρομή ΓΔ από το σημείο (170, 0) καταλήγουμε, όπως φαίνεται στο σχήμα, στο σημείο (0, p). Το p = 0,35 = 35% είναι το ζητούμενο ποσοστό. 2. Στο διπλανό ιστόγραμμα σχετικών συχνοτήτων σβήστηκε κατά λάθος το ορθογώνιο της κλάσης [2-5). Εάν είναι γνωστό ότι δεν υπάρχει μισθός άνω των $1000, να κατασκευάσετε το ορθογώνιο αυτό. ΛΥΣΗ Επειδή έχουμε ένα ιστόγραμμα σχετικών συχνοτήτων (fi%), το άθροισμα των εμβαδών όλων των ορθογωνίων θα πρέπει να ισούται με 100. Το εμβαδόν του πρώτου ορθογωνίου είναι E1 = (1 - 0) · 10 =10 , του δεύτερου ορθογωνίου E2 = (2 - 1) · 20 = 20, και του τέταρτου E4 = (10 - 5) · 5 = 25. Άρα, το εμβαδόν του τρίτου ορθογωνίου θα είναι E3 = 100 - (10 + 20 + 25 = 45. Επειδή το πλάτος του ορθογωνίου είναι 5 - 2 = 3, το ύψος του θα είναι 45/3 = 15, όπως φαίνεται στο διπλανό σχήμα. |
Ασκήσεις
|
|
|
|