Διαδρομή εκμάθησης για Master Data Engineering το 2022
Oktober 1, 2022Τα δεδομένα είναι το νέο λάδι του κλάδου. Ο τρόπος με τον οποίο το ακατέργαστο πετρέλαιο ενδυναμώνει τη βιομηχανική οικονομία, τα δεδομένα ενισχύουν την οικονομία της πληροφορίας.
Ανώνυμος
ΣΦΑΙΡΙΚΗ ΕΙΚΟΝΑ
Το Analytics Vidhya βρίσκεται εδώ και καιρό στην πρώτη γραμμή της μετάδοσης γνώσεων επιστήμης δεδομένων στην κοινότητά του. Με την πρόθεση να κάνουμε τη μάθηση της επιστήμης δεδομένων πιο ελκυστική για την κοινότητα, ξεκινήσαμε με τη νέα μας πρωτοβουλία – „DataHour“. Αυτό είναι μια σειρά διαδικτυακών σεμιναρίων από κορυφαίους ειδικούς του κλάδου όπου διδάσκουν και εκδημοκρατίζουν τη γνώση της επιστήμης δεδομένων. Στις 23 Απριλίου 2022, ήμασταν μαζί μας Ο κύριος Shashank Mishra για μια συνεδρία DataHour στις «Διαδρομή μάθησης για να κατακτήσετε τη Μηχανική Δεδομένων το 2022„.
Ο Shashank είναι ένας έμπειρος Μηχανικός Δεδομένων με αποδεδειγμένο ιστορικό εργασίας σε εταιρείες υπηρεσιών και προϊόντων όπως η Amazon, η Paytm και η McKinsey. Επί του παρόντος, ο Shashank συνεισφέρει ενεργά στην κοινότητα Data Science and Data Engineering μέσω των απίστευτων podcast και του καναλιού του στο Youtube (E-Learning Bridge)
Είστε ενθουσιασμένοι που θα βουτήξετε βαθύτερα στον κόσμο της Μηχανικής Δεδομένων; Σας καλύψαμε. Ας ξεκινήσουμε με τα σημαντικότερα σημεία: Διαδρομή εκμάθησης για να αποκτήσετε γνώση της Μηχανικής Δεδομένων το 2022.
Εισαγωγή
Στην εποχή ενός εξαιρετικά προηγμένου τεχνολογικά κόσμου, κάθε εταιρεία ή οργανισμός εξαρτάται σε μεγάλο βαθμό από επιχειρηματικές αποφάσεις που βασίζονται σε δεδομένα. Τα δεδομένα που συλλέγονται είναι τεράστια και η λήψη επιχειρηματικών αποφάσεων ή η βασική εξαγωγή αυτών των δεδομένων δεν είναι κάτι το κέικ. Όλα αυτά συμβαίνουν σε φάσεις και χρειάζονται ένα εξαιρετικά προηγμένο σύστημα ή αγωγό. Εδώ εμφανίζεται ο ρόλος του μηχανικού δεδομένων και της μηχανικής δεδομένων. Αυτό υποτίθεται ότι πρέπει να κάνει ένας μηχανικός δεδομένων. Τοποθέτησαν τα δεδομένα σε πιο ακριβή μορφή για καλύτερη λήψη επιχειρηματικών αποφάσεων. Τώρα, ας βουτήξουμε στον οδικό χάρτη που θα μας οδηγήσει να γίνουμε επιτυχημένοι μηχανικοί δεδομένων.
Ποιοι είναι οι Μηχανικοί Δεδομένων;
Οι μηχανικοί δεδομένων εργάζονται ως πρωτοπόροι όπως κάθε εταιρεία εργάζεται σε μια λύση μεγάλων δεδομένων. Αντιμετωπίζονται ως πρωτοπόροι επειδή το πραγματικό τους καθήκον είναι να δημιουργήσουν αυτούς τους επεκτάσιμους και βελτιστοποιημένους αγωγούς δεδομένων που απαιτεί κάθε εταιρεία. Αλλά η δημιουργία ενός αγωγού δεδομένων ή ETL δεν είναι εύκολη υπόθεση. Το ETL και η δημιουργία των αγωγών δεν είναι μια απλή εργασία της απλής μεταφοράς δεδομένων από κάποια πηγή και της τοποθέτησης τους σε κάποιο κατάντη σύστημα. Εδώ εμπλέκεται και το υλικό της μηχανικής λογισμικού και διαδραματίζει ζωτικό ρόλο, επειδή οι επιστήμονες πρέπει να σχεδιάσουν αυτά τα κλιμακούμενα συστήματα όπου θα εμπλέκονται οι κατανεμημένες υπολογιστικές μηχανές τους και θα πρέπει να χειριστούν το φορτίο καθώς και το φορτίο δεδομένων που χρειάζεστε για να δημιουργήσετε επεκτάσιμες σωλήνες δεδομένων σε τέτοια ένας τρόπος που ακόμη και αν υπάρχει μια απότομη αύξηση στα δεδομένα, ο αγωγός δεν παίρνει διάλειμμα ή χρειάζεται χρόνο για την επεξεργασία των δεδομένων.
Ο οδικός χάρτης που μας οδηγεί στον προορισμό μας
Γλώσσα προγραμματισμού
Πρέπει να σκέφτεστε, ο προγραμματισμός ή η κατανόηση του προγραμματισμού απαιτείται πράγματι στη μηχανική δεδομένων ή όχι; Μάλλον, σκέφτεστε προς τη σωστή κατεύθυνση.
Το να είστε καλά εξοπλισμένοι με αυτές τις γλώσσες προγραμματισμού είναι μια αναγκαιότητα σε αυτόν τον τομέα. Αυτό συμβαίνει επειδή για τη δημιουργία κλιμακωτών και βελτιστοποιημένων αγωγών δεδομένων, θα εφαρμοστεί κάποιος μετασχηματισμός δεδομένων εκεί. Αυτό σημαίνει ότι πρέπει να χρησιμοποιήσουμε κάποιο κώδικα για να εφαρμόσουμε αυτόν τον μετασχηματισμό για οποιαδήποτε εκτέλεση σχετίζεται. Ως εκ τούτου, η κατανόηση του προγραμματισμού και των σύγχρονων αντικειμενοστρεφών εννοιών γίνεται αναγκαιότητα. Υπάρχουν μερικές δημοφιλείς γλώσσες στη μηχανική δεδομένων και αυτές είναι:
Ίσως, μπορείτε να επιλέξετε οποιοδήποτε από αυτά και να αποκτήσετε εμπειρία σε αυτό. Αλλά αν χρειάζεται να σας προτείνω, θα έλεγα να επιλέξετε πρώτα την Python. Σήμερα, η Python είναι γνωστή ως η γλώσσα των δεδομένων. Ενώ η Java και η Scala είναι λίγο δύσκολες γλώσσες λόγω του αντικειμενοστρεφούς τρόπου γραφής και εκτέλεσής τους. Και η Python έχει διαφορετικές βιβλιοθήκες ανάλυσης δεδομένων και είναι εύκολο να κατανοηθεί. Αυτή είναι η πρώτη λίστα ελέγχου που θα σας βοηθήσει να λύσετε την περίπτωση χρήσης με πιο απλό προγραμματισμό.
Λειτουργικό Σύστημα & Scripting
Πρέπει επίσης να κατανοήσετε τα λειτουργικά συστήματα (όπως το Linux και το Unix) και τη δέσμη ενεργειών φλοιού. Εξοικειωθείτε με τον τρόπο εκτέλεσης εντολών στο τερματικό και να εκτελέσετε βασικές λειτουργίες, όπως αντιγραφή, μορφοποίηση, κ.λπ., αρχείων. Πώς να γράψετε ένα σενάριο κελύφους για να αυτοματοποιήσετε πράγματα ή να κάνετε κάποια πράγματα στο παρασκήνιο.
Δομή δεδομένων & αλγόριθμοι
Στη μηχανική δεδομένων, πρέπει να έχετε μια βασική κατανόηση του DS και των αλγορίθμων του. Αυτά χρησιμοποιούνται σε δραστηριότητες όπως η κατασκευή αγωγών με χρήση πίνακας, συμβολοσειρά, στοίβα, κ.λπ. Άλλα algo είναι: συνδεδεμένη λίστα, ουρά, δέντρο, γράφημα και η διέλευση του, δυναμικός προγραμματισμός, αναζήτηση και ταξινόμηση.
Όλα αυτά θα σας βοηθήσουν να ελέγξετε την ικανότητα λογικής σκέψης σας και άλλες δεξιότητες προγραμματισμού. Επομένως, μόνο η κατανόηση αυτών των αλγορίθμων είναι σημαντική μόνο για να βεβαιωθείτε ότι γνωρίζετε καλά τις έννοιες που χρησιμοποιούνται περαιτέρω στη διαδικασία.
DBMS (Σύστημα διαχείρισης βάσει δεδομένων)
Η βασική κατανόηση του DBMS είναι απαραίτητη. Αυτό θα σας βοηθήσει να λύσετε τη δήλωση προβλήματος και το σχεδιασμό και τη διαχείριση της βάσης δεδομένων. Επιπλέον, η σαφήνεια των εννοιών του DBMS «ποιο να χρησιμοποιήσει πού» θα κάνει αυτές τις περιπτώσεις δηλώσεων απλούστερες. Αυτές είναι οι λίγες εντολές που χρησιμοποιούνται στο DBMS:
- DDL-Γλώσσα ορισμού δεδομένων
- DCL-Data Control Language
- DML-Data Manipulation Language
- Περιορισμοί ακεραιότητας
- Σχήμα Δεδομένων
- Βασικές Λειτουργίες
- Ιδιότητες ΟΞΥ
- Συναλλαγές
- Έλεγχος Συγχρονισμού
- Αδιέξοδο
- Ευρετηρίαση
- Κατακερματισμός
- Μορφές κανονικοποίησης
- Προβολές
- Αποθηκευμένες Διαδικασίες
- Διαγράμματα ER
SQL Scripting
Αυτή είναι μια από τις λίστες ελέγχου που πρέπει να έχετε. Πρέπει να το χρησιμοποιείτε στις καθημερινές σας δραστηριότητες για να παράγετε πολύπλοκα και αναλυτικά αποτελέσματα. Εδώ είναι η λίστα που πρέπει να γνωρίζετε:
- Βάσεις δεδομένων συναλλαγών: MySQL, PostgreSQL
- Όλοι οι τύποι ενώσεων
- Ένθετα ερωτήματα
- Ομάδα κατά
- Χρήση των δηλώσεων Case When
- Λειτουργίες παραθύρου
Μεγάλα δεδομένα
Εδώ, πρέπει να κατανοήσετε τι είναι τα μεγάλα δεδομένα και τις ορολογίες τους, όπως τεχνικές ορολογίες των 5 V δεδομένων, υπολογιστική κατανομή και πώς λειτουργούν. Άλλα πράγματα που πρέπει να μάθετε είναι:
- Κάθετη έναντι οριζόντιας κλιμάκωσης
- Εμπορευματικό Υλικό
- Συστάδες
- Μορφές αρχείων-CSV, JSON, AVRO, Parquet, ORC
- Είδος Δεδομένων Δομημένων, Μη Δομημένων και Ημιδομημένων
Θα χρησιμοποιήσεις αυτές τις βασικές ορολογίες τεχνολογικά πλαίσια που χρησιμοποιούνται σε μεγάλα δεδομένα.
Σημαντικές βιβλιοθήκες Python
Συνηθίστε δύο πολύ σημαντικές βιβλιοθήκες python:
Αυτές είναι βιβλιοθήκες εξερεύνησης δεδομένων όπου μπορείτε να διαβάσετε και να εξερευνήσετε τα δεδομένα. Επιπλέον, ορισμένα μαθηματικά/στατιστικά πράγματα μπορούν επίσης να εκτελεστούν. Περάστε από όλες τις βιβλιοθήκες ενδελεχώς.
Έννοιες αποθήκευσης δεδομένων
Αυτό είναι σημαντικό σε γύρους σχεδιασμού και σε πραγματικές περιπτώσεις χρήσης. Όλα προέρχονται από κάποια πηγή που θα έχει ένα είδος δεδομένων ή αποθήκης. Για να δημιουργήσετε ή να σχεδιάσετε αποτελεσματικά συστήματα κατάντη, πρέπει να κατανοήσετε διεξοδικά τις έννοιες της αποθήκευσης δεδομένων και της μοντελοποίησης δεδομένων.
- OLAP εναντίον OLTP
- Πίνακες διαστάσεων
- Πίνακες γεγονότων
- Star Schema
- Σχήμα νιφάδας χιονιού
- Ερωτήσεις σχεδιασμού αποθήκης
- Πολλά ακόμη θέματα
Πλαίσιο BigData
Από εδώ και πέρα, θα βουτήξουμε βαθύτερα στον τομέα της μηχανικής δεδομένων. Η βάση ή το θεμέλιο του BigData είναι Apache Hadoop. Αυτό είναι το πρώτο πλαίσιο που χρησιμοποιείται για ομαδική επεξεργασία δεδομένων και η αρχιτεκτονική κατανόηση είναι απαραίτητη. Ανακαλύφθηκε για υπολογισμό κατανεμημένων δεδομένων. Με όλα αυτά, θα μπορείτε να γράφετε.
- HDFS (σύστημα αποθήκευσης αρχείων)
- ΜΕΙΩΣΗ ΧΑΡΤΗ
- Νήματα (διαχειριστής πόρων)
Το δεύτερο πλαίσιο είναι Apache Hive. Είναι μια υπηρεσία αποθήκης που χρησιμοποιείται συχνά σε εταιρείες. Είναι ένα είδος πλαισίου που είναι γραμμένο πάνω από το Hadoop. Απλώς μετατρέπει τον SQL/κώδικα σε κώδικα μείωσης χάρτη κάτω από την ίδια την κουκούλα. Μαθαίνω:
- Πώς να φορτώσετε δεδομένα σε διαφορετικές μορφές αρχείων;
- Εσωτερικοί πίνακες και εξωτερικοί πίνακες
- Ερώτημα δεδομένων πίνακα αποθηκευμένων σε HDFS
- Διαμέριση και Κάδος
- Σύνδεση από πλευράς χάρτη και σύνδεση ταξινόμησης-συγχώνευσης
- UDF’s και SerDe στην Κυψέλη
Στις μέρες μας, ένα απαραίτητο σετ δεξιοτήτων είναι Apache Spark. Είναι 100 φορές πιο γρήγορο από το Hadoop και έχει εξαιρετικές δυνατότητες όπως ο χρόνος εκτέλεσης επειδή κάνει τον υπολογισμό στη μνήμη. Υπάρχουν τρία συστατικά:
- Spark Core
- Spark SQL
- Spark Streaming
Στη συνέχεια, το Apache Flink προορίζεται για επεξεργασία δεδομένων σε πραγματικό χρόνο / επεξεργασία ροής. Μπορεί επίσης να λύσει ροές επεξεργασίας παρτίδων, αλλά αυτό θα είναι μια ειδική περίπτωση επεξεργασίας σε πραγματικό χρόνο.
Πρέπει επίσης να περάσετε από άλλα πλαίσια όπως π.χ Apache SQOOP, Apache NIFI και Apache FLUME.
Δύο πράγματα που πρέπει να γνωρίζετε ή να εστιάσετε σε αυτά:
- Πώς γίνεται η επεξεργασία κατά παρτίδες;
- Πώς να κάνετε επεξεργασία σε πραγματικό χρόνο;
- Προγραμματιστές ροής εργασιών, Διαχείριση εξάρτησης
Αυτό χρησιμοποιείται όταν τα δεδομένα δεν είναι συστηματικά τακτοποιημένα και τα δεδομένα θα εξάγονται από διαφορετικά σύνολα δεδομένων και εξαρτώνται το ένα από το άλλο και ο χρόνος παράδοσής τους είναι διαφορετικός. Θα τα χρησιμοποιήσουμε για να προγραμματίσουμε αυτές τις εργασίες με τέτοιο τρόπο ώστε να διατηρείται η σωστή εξάρτηση.
- Ροή αέρα Apache
- Στην Αζκα
- Βάσεις δεδομένων NoSQL: Οι βάσεις δεδομένων συναλλαγών δεν μπορούν να επιλύσουν περιπτώσεις χρήσης που σχετίζονται με μεγάλα δεδομένα. Πρέπει λοιπόν να μάθουμε:
- HBase
- DataStax Cassandra (Συνιστάται)
- ElasticSearch
- MongoDB
- Πλαίσια ουράς μηνυμάτων: Διατηρεί τα δεδομένα που απαιτεί το Apache Flink για επεξεργασία σε πραγματικό χρόνο. Απάτσι ΚΑΦΚΑ χρησιμοποιείται για επεξεργασία που σχετίζεται με τη ροή.
- Εργαλεία ταμπλό: Αυτό είναι σημαντικό για να δοκιμάσετε σωστά τα πράγματα. Παρακάτω είναι μερικά εργαλεία-
- Ζώσα σκηνική εικών
- PowerBI
- Γραφάνα
- Kibana (Μέρος του ELK (ElasticSearch – Logstash – Kibana)
- Υπηρεσίες BigData στο Cloud (AWS): Είναι το πιο σημαντικό στις μέρες μας, αλλά μπορείτε απλά να έχετε μια επισκόπηση αυτού γιατί θα έχετε καλή έκθεση στην ίδια την εταιρεία.
- Μηχανές Ondemand: AWS EC2
- Διαχείριση πρόσβασης: AWS IAM
- Για αποθήκευση και πρόσβαση σε διαπιστευτήρια: AWS Secret Manager
- Κατανεμημένη αποθήκευση αρχείων: AWS S3
- Υπηρεσίες βάσης δεδομένων συναλλαγών: AWS RDS, AWS Athena, AWS Redshift (Αποθήκευση δεδομένων)
- Υπηρεσίες βάσεων δεδομένων NoSQL: AWS Dynamo
- Χωρίς διακομιστή: AWS Lambda
- Προγραμματιστής: AWS Cloudwatch
- Υπολογισμός Κατανεμημένων Δεδομένων: AWS EMR
- Ουρά μηνυμάτων: AWS SNS, AWS SQS
- Επεξεργασία δεδομένων σε πραγματικό χρόνο: AWS Kinesis
συμπέρασμα
Αυτό το άρθρο έχει συζητήσει τον οδικό χάρτη που θα σας βοηθήσει να γίνετε σπουδαίος μηχανικός δεδομένων. Επισκεφτείτε το κανάλι μας στο YouTube, εάν χάσατε να παρακολουθήσετε αυτήν τη συνεδρία. Η ηχογράφηση είναι διαθέσιμη τώρα!
Σκοπεύουμε να φέρουμε περισσότερα τέτοια DataHours σε εσάς και να αφήσουμε τους ειδικούς του κλάδου να σας μεταδώσουν γνώση με την πιο πρακτική έννοια. Οι επερχόμενες συνεδρίες DataHour είναι:
Μεταβείτε στους παραπάνω συνδέσμους για να μάθετε περισσότερα για αυτές τις συνεδρίες. Και, σημειώστε το ημερολόγιό σας! Ελπίζουμε να σας δούμε εκεί!