Pandas Profiling – A Visual Analytics Wonder
September 29, 2022Αυτό το άρθρο δημοσιεύτηκε ως μέρος του Data Science Blogathon.
Εισαγωγή
Το πακέτο προφίλ Python του Pandas παράγει ένα διαδραστικό σύνολο πινάκων και απεικονίσεων για εξερευνητική εξερεύνηση δεδομένων (EDA). Μπορεί να είναι δύσκολο
Το Pandas Prbrary σάς επιτρέπει να δημιουργείτε δυναμικές, διαδραστικές συλλογές διερευνητικών πινάκων ανάλυσης δεδομένων (EDA) και οπτικοποιήσεων με απλώς να έχετε μια εις βάθος κατανόηση πολλών πακέτων.

Panda’s df. Η συνάρτηση describe() είναι εξαιρετική αλλά λίγο στοιχειώδης για σοβαρή διερευνητική ανάλυση δεδομένων. Το pandas_profiling επεκτείνει το pandas DataFrame με df.profile_report() για γρήγορη ανάλυση δεδομένων.
Βοηθά στη δημιουργία αναφορών προφίλ για Pandas DataFrames
Διερευνητική Ανάλυση Δεδομένων
Μια διερευνητική ανάλυση δεδομένων είναι μια στρατηγική για τη διερεύνηση και την ανάλυση συνόλων δεδομένων για τη συλλογή γνώσεων οπτικά. Το EDA χρησιμοποιείται για την κατανόηση των σημαντικών πτυχών ενός συνόλου δεδομένων.
Οι τιμές, οι μετρήσεις, οι μέσοι όροι, οι διάμεσοι, τα τεταρτημόρια, οι κατανομές δεδομένων, οι συσχετίσεις μεταξύ μεταβλητών, τα είδη δεδομένων, τα μοντέλα δεδομένων και άλλες πληροφορίες βρίσκονται όλα με τη βοήθεια του EDA. Το EDA απαιτεί πολύ χρόνο και απαιτεί πολλές γραμμές.
Το Pandas Profiling είναι ένα πακέτο Python που μπορεί να χρησιμοποιηθεί για την αυτοματοποίηση του EDA. Είναι ένα φανταστικό εργαλείο για τη δημιουργία διαδραστικών αναφορών HTML που απλοποιούν την ερμηνεία και την ανάλυση δεδομένων.
Εγκατάσταση προφίλ Pandas με διαφορετικούς τρόπους
Ας εξερευνήσουμε το Pandas Profiling. Χρησιμοποιώντας μόνο μία γραμμή κώδικα, το EDA εκτελείται πολύ γρήγορα.
Επιλογή 1: Χρήση pip
Εγκαταστήστε το προφίλ του panda χρησιμοποιώντας το πρόγραμμα εγκατάστασης του πακέτου pip εάν η Python λειτουργεί στον υπολογιστή σας ανεξάρτητα. Εκτελέστε την ακόλουθη εντολή σε cmd (Windows) ή τερματικό (Mac):
pip install pandas-profiling[notebook]
Η εγκατάσταση του Pip καλύπτει όλα όσα χρειάζεστε. Μετά την εκτέλεση της εγκατάστασης του pip, θα δείτε πολλά πακέτα όπως panda, σημειωματάριο πελάτη, seaborn κ.λπ. Όλα όσα απαιτούνται για τη δημιουργία μιας αναφοράς προφίλ περιλαμβάνονται επίσης.
Επιλογή 2: GitHub
Εναλλακτικά, μπορείτε να κάνετε λήψη της πιο πρόσφατης έκδοσης απευθείας από το GitHub.
pip install https://github.com/ydataai/pandas-profiling/archive/master.zip
Επιλογή 3: Χρήση Conda
Εγκαταστήστε τη βιβλιοθήκη προφίλ pandas μέσω της διαδικασίας εγκατάστασης του πακέτου conda, εάν αποφασίσετε να εγκαταστήσετε το πακέτο Anaconda για να χρησιμοποιήσετε την Python. Εκτελέστε τις ακόλουθες εντολές στο τερματικό Anaconda:
conda install -c conda-forge pandas-profiling
Με το conda, όλα όσα χρειάζεστε είναι εγκατεστημένα.
Επιλογή 4: Από την πηγή
Κλωνοποίηση του αποθετηρίου ή πάτημα του κουμπιού για λήψη του πηγαίου κώδικα „Λήψη ZIP“ σε αυτήν την σελίδα.
Μεταβείτε στον κατάλογο της επιλογής σας και εγκαταστήστε τον εκτελώντας:
python setup.py install
Σημείωση: Η βιβλιοθήκη προφίλ panda βασίζεται σε panda, επομένως η έκδοση πρέπει να ταιριάζει με την έκδοση pandas που χρησιμοποιείται από τη βιβλιοθήκη δημιουργίας προφίλ panda. Εάν έχετε εγκαταστήσει μια παλαιότερη έκδοση του Panda, το προφίλ του Panda μπορεί να προκαλέσει σφάλμα. Ενημερώστε την τρέχουσα εγκατάσταση του panda στην πιο πρόσφατη έκδοση ως λύση σε αυτήν την περίπτωση. Για να αναγκάσετε τα τρέχοντα panda να ενημερώσουν, επιστρέψτε στην κονσόλα και δώστε την ακόλουθη εντολή.
pip install --upgrade --force-reinstall pandas
Τώρα η έκδοση panda σας είναι ενημερωμένη
Μια μελέτη περίπτωσης στο Google Colab
Αναφορές προφίλ Pandas – «Βασικά δομικά στοιχεία».
Το να πούμε ότι το αποτέλεσμα της βιβλιοθήκης προφίλ Pandas είναι απλό θα ήταν υποτιμητικό. Εναλλακτικά, μπορείτε να χρησιμοποιήσετε τον ακόλουθο κώδικα για να δημιουργήσετε μια γενική έξοδο που ονομάζεται αναφορά προφίλ.
Για να δημιουργήσετε μια αναφορά προφίλ:
- Εισαγωγή τα πάντα
- Εισαγωγή ProfileReport από τη βιβλιοθήκη pandas_profiling
- Δημιουργήστε DataFrame με δεδομένα για την αναφορά
- Περάστε το DataFrame χρησιμοποιώντας το ProfileReport()
Εγκατάσταση της Βιβλιοθήκης – Pandas Profiling
pip install https://github.com/ydataai/pandas-profiling/archive/master.zip
Εισαγωγή Βασικών Βιβλιοθηκών για Αριθμητικό, Οπτικό Χειρισμό Δεδομένων
import pandas as pd import matplotlib.pyplot as plt from pandas_profiling import ProfileReport pd.set_option('display.max_colwidth',None) %matplotlib inline
Ανάγνωση των δεδομένων του Excel χρησιμοποιώντας panda
df=pd.read_excel('GA NMU.xlsx')
Γιατί οι αναφορές προφίλ είναι χρήσιμες
Οι αναφορές για τη δημιουργία προφίλ είναι πλήρως επεξεργάσιμες. Το επόμενο κομμάτι κώδικα φορτώνει μια διαμόρφωση πλοήγησης που περιλαμβάνει πολλές δυνατότητες για κείμενο (διανομή μήκους, δεδομένα Unicode), αρχεία (μέγεθος αρχείου, χρόνος δημιουργίας) και εικόνες (διαστάσεις, πληροφορίες exif).
Χρησιμοποιώντας το iframe() για να ρυθμίσετε ένα πλαίσιο μέσα στο παράθυρο ()
profile.to_notebook_iframe()
Δείγμα εξόδου με εκτελούμενο ερώτημα
Αποθήκευση της Εξόδου σε μορφή HTML
profile.to_file(output_file="Pandas ProfilingReport.html")
Για κάθε στήλη, τα ακόλουθα στατιστικά στοιχεία – εάν σχετίζονται με τον τύπο στήλης – παρουσιάζονται σε μια διαδραστική αναφορά HTML:
- Συμπέρασμα τύπου: ανίχνευση του τύπους των στηλών σε ένα πλαίσιο δεδομένων.
- Είδη πρώτης ανάγκης: τύπος, μοναδικές τιμές, τιμές που λείπουν
- Ποσοστοιχεία στατιστικών όπως ελάχιστη τιμή, Q1, διάμεσος, Q3, μέγιστο, εύρος, διατεταρτημόριο
- Περιγραφικά στατιστικά όπως μέσος όρος, τρόπος, τυπική απόκλιση, άθροισμα, διάμεση απόλυτη απόκλιση, συντελεστής διακύμανσης, κύρτωση, λοξότητα
- Οι πιο συχνές τιμές
- Ιστόγραμμα
- Συσχετισμοί επισημαίνοντας μεταβλητές υψηλής συσχέτισης, πίνακες Spearman, Pearson και Kendall
- Λείπουν αξίες μήτρα, μέτρηση, θερμικός χάρτης και δενδρόγραμμα τιμών που λείπουν
- Ανάλυση κειμένου μαθαίνει για μπλοκ δεδομένων κειμένου (ASCII), σενάρια (λατινικά, κυριλλικά) και κατηγορίες (κεφαλαία, κενό).
- Ανάλυση αρχείων και εικόνας εξάγετε μεγέθη αρχείων, ημερομηνίες δημιουργίας και διαστάσεις και σαρώστε για περικομμένες εικόνες ή εκείνες που περιέχουν πληροφορίες EXIF.
Διάφορα τμήματα είναι διαθέσιμα στην Αναφορά προφίλ Pandas
ΣΦΑΙΡΙΚΗ ΕΙΚΟΝΑ:

Ένα μέρος από τις περισσότερες από πέντε σελίδες δεδομένων και απεικονίσεων εμφανίζεται παραπάνω. Πρόκειται για μια στοιχειώδη υλοποίηση, όπως αναφέρθηκε ήδη. Ο τίτλος της αναφοράς ήταν η μόνη προαιρετική προσθήκη (δεν φαίνεται στην παραπάνω εικόνα). Το γραφικό στοιχείο Εναλλαγή λεπτομερειών είναι ορατό. Μια λίστα με συγκεκριμένες λεπτομέρειες εμφανίζεται όταν ένας χρήστης πατήσει το γραφικό στοιχείο (κουμπί).
- Γενικές πληροφορίες παρέχονται σε αυτή την ενότητα. Μεταβλητά είδη και στατιστικά δεδομένων.
- Η εγγραφή στατιστικών στοιχείων εμφανίζει στήλες, σειρές, τιμές που λείπουν κ.λπ.
- Ο τύπος μεταβλητής υποδεικνύει τον τύπο δεδομένων της ιδιότητας εγγραφής. Εμφανίζεται επίσης μια „προειδοποίηση“ που παραθέτει τις λειτουργίες με ισχυρή σύνδεση με άλλες λειτουργίες.
Μεταβλητή ενότητα:

Λεπτομερείς πληροφορίες παρέχονται σε αυτήν την ενότητα για κάθε χαρακτηριστικό ξεχωριστά. Όταν επιλέγετε την επιλογή Εναλλαγή λεπτομερειών, όπως υποδεικνύεται στην προαναφερθείσα εικόνα, θα εμφανιστεί μια νέα ενότητα.
Αλληλεπιδράσεις:

Συνεργασίες:
Ο χάρτης θερμότητας Seaborn χρησιμοποιείται σε αυτήν την ενότητα για να δείξει πώς σχετίζονται τα χαρακτηριστικά. Αλλάζετε εύκολα μεταξύ διαφόρων συσχετισμών, συμπεριλαμβανομένων των πινάκων Pearson, Spearman και Kendall.

Τιμές που λείπουν:

Δείγμα:
Αυτή η ενότητα εμφανίζει τις πρώτες 10 σειρές και τις τελευταίες 10 σειρές του συνόλου δεδομένων.


Αναφορά προφίλ για Pandas: Προηγμένες επιλογές
Πολυάριθμες επιλογές και εξελιγμένες παράμετροι είναι διαθέσιμες στην αναφορά προφίλ των pandas. Το οπτικό αποτέλεσμα μιας αναφοράς και οι ιδιαιτερότητες κάθε γραφήματος και οπτικοποίησης ελέγχονται όλα από τις ρυθμίσεις.
Υπάρχουν πολλά προαιρετικά
ρυθμίσεις που πρέπει να γνωρίζετε
- τίτλος: Το χαρακτηριστικό τίτλος ορίζει τον τίτλο της αναφοράς. Αυτό το προαιρετικό χαρακτηριστικό ορίζεται όταν δημιουργείται η αναφορά προφίλ. Ένα παράδειγμα είναι απεικονίζεται σε η τρίτη γραμμή του κωδικός παραπάνω.
- να αρχειοθετήσω(): Η αναφορά προφίλ δημιουργείται ως αρχείο HTML που μπορεί να αποθηκευτεί έξω από το σημειωματάριο Jupyter. Η αναφορά προφίλ που δημιουργήθηκε είναι ένα αρχείο HTML, οπότε λάβετε υπόψη αυτό.
- EX : profile.to_file („flights_data.html“)
Οι ρυθμίσεις μπορούν να χρησιμοποιηθούν με δύο διαφορετικούς τρόπους. Κατά τη δημιουργία μιας αναφοράς προφίλ, η πρώτη επιλογή εφαρμόζει τροποποιήσεις ως επιπλέον χαρακτηριστικά χρησιμοποιώντας ένα λεξικό. Η δεύτερη επιλογή ορίζει ξανά ζεύγη κλειδιού-τιμής χρησιμοποιώντας ένα λεξικό και πλοηγείται στις απαραίτητες παραμέτρους χρησιμοποιώντας σημειογραφία κουκκίδων.
Υπάρχει μια ελάχιστη προβολή από τότε που εισήχθη η έκδοση 2.4 στη λειτουργία minimal για μεγάλα σύνολα δεδομένων.
Αυτή η προεπιλεγμένη ρύθμιση απενεργοποιεί δαπανηρούς υπολογισμούς (όπως συσχέτιση και διπλότυπο).
from pandas_profiling import ProfileReport profile = ProfileReport(df, minimal=True) profile.to_file(output_file="output.html")
συμπέρασμα
Ελπίζουμε ότι η βιβλιοθήκη προφίλ Pandas θα σας βοηθήσει να αναλύσετε τα δεδομένα σας πιο γρήγορα και πιο εύκολα. Πώς σας φαίνεται αυτή η υπέροχη βιβλιοθήκη; Δοκιμάστε το και ενημερώστε μας για την εμπειρία σας στην ενότητα απαντήσεων.
- Δυνατότητα επεξεργασίας μεγάλο σύνολα δεδομένων με ελάχιστη οπτική πληροφορίες.
- Αυτή η βιβλιοθήκη λειτουργεί υπέροχο ακόμη χωρίς σοβαρός κωδικοποίηση εμπειρία.
- Τα περισσότερα άλλα IDE, συμπεριλαμβανομένων των PyCharm και Jupyter Notebook, είναι συμβατά με το Pandas Profiling.
Τα μέσα που εμφανίζονται σε αυτό το άρθρο δεν ανήκουν στο Analytics Vidhya και χρησιμοποιούνται κατά την κρίση του συγγραφέα.