PySpark Einführung

Total time: 2 days
Location: At location, Online
Starting date and place: 7 starting dates

PySpark Einführung

GFU Cyrus AG

Get alternatives

Provider rating:

Need more information? Get more details on the site of the provider.

Get alternatives

Starting dates and places

Online: Zoom

19 Feb 2026 until 20 Feb 2026

Starting date guaranteed

Köln

28 May 2026 until 29 May 2026

Online: Zoom

28 May 2026 until 29 May 2026

Köln

27 Aug 2026 until 28 Aug 2026

Online: Zoom

27 Aug 2026 until 28 Aug 2026

Köln

26 Nov 2026 until 27 Nov 2026

Online: Zoom

26 Nov 2026 until 27 Nov 2026

Description

Schulungen der Extraklasse ✔ Durchführungsgarantie ✔ Trainer aus der Praxis ✔ Kostenfreies Storno ✔ 3=2 Kostenfreie Teilnahme für den Dritten ✔ Persönliche Lernumgebung ✔ Kleine Lerngruppen

Seminarziel

Die Teilnehmer entwickeln ein umfassendes Verständnis der PySpark-Architektur und Einsatzmöglichkeiten. Sie lernen die verschiedenen Komponenten kennen und können deren Nutzen für ihre spezifischen Datenverarbeitungsanforderungen einschätzen. Das Seminar vermittelt zudem Best Practices für die Planung von PySpark-Projekten.

Inhalt

Grundlagen von PySpark
- Einführung in die Architektur von Apache Spark und die Rolle von PySpark: Überblick der Komponenten (Spark Core, SQL, Streaming, MLlib) und deren Integration mit Python. Vergleich mit anderen Big-Data-Technologien wie Pandas und Dask.
- Entwicklungsumgebungen für PySpark: Jupyter Notebooks, Zeppelin und IDEs (PyCharm, VS Code)…

Read the complete description

Frequently asked questions

There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.

Get alternatives

Didn't find what you were looking for? See also: Lean, Building / Construction, Project Management, Planning, and Six Sigma.

Seminarziel

Inhalt

Grundlagen von PySpark
- Einführung in die Architektur von Apache Spark und die Rolle von PySpark: Überblick der Komponenten (Spark Core, SQL, Streaming, MLlib) und deren Integration mit Python. Vergleich mit anderen Big-Data-Technologien wie Pandas und Dask.
- Entwicklungsumgebungen für PySpark: Jupyter Notebooks, Zeppelin und IDEs (PyCharm, VS Code) mit PySpark-Integration. Besonderheiten bei der lokalen Entwicklung und Cluster-Umgebungen.
- Lizenzierung und Kosten: Open-Source-Aspekte von Spark, kommerzielle Distributionen (Databricks, Cloudera) und Cloud-Anbieter-Integration (AWS EMR, Azure Databricks).
Datenverarbeitung mit DataFrames
- DataFrame-Konzept: Vergleich mit Pandas DataFrames und relationalen Datenbanktabellen. Vor- und Nachteile der verteilten Verarbeitung.
- Datenimport/Export: Arbeiten mit verschiedenen Datenquellen (CSV, JSON, Parquet, JDBC) in PySpark. Performance-Optimierungen bei großen Datensätzen.
- Grundlegende Transformationen: Filterung, Aggregation, Joins und Fensterfunktionen in PySpark. Unterschiede zu SQL-Implementierungen.
Spark-SQL Integration
- SQL-Syntax in PySpark: Nutzung von Spark-SQL für Data Scientists mit SQL-Hintergrund. Abfragen auf registrierten Tabellen und temporären Views.
- UDFs (User Defined Functions): Erstellung und Nutzung von Python-Funktionen in Spark-SQL. Performance-Aspekte und Alternativen.
- Katalogzugriff: Metadatenmanagement und Schema-Integration zwischen PySpark und Hive Metastore.
Performance-Optimierung
- Ausführungsmodell verstehen: Spark-Execution-Pläne interpretieren und optimieren. Rolle der Catalyst-Optimierung.
- Partitionierungsstrategien: Best Practices für physische Datenverteilung. Auswirkung auf Join- und Aggregationsoperationen.
- Caching-Persistenz: Strategien für die Zwischenspeicherung von häufig genutzten DataFrames. Speicherlevel und Trade-Offs.
Datenvisualisierung
- Integration mit Python-Visualisierungsbibliotheken: Nutzung von Matplotlib, Seaborn und Plotly mit PySpark-DataFrames.
- Einschränkungen und Workarounds: Umgang mit Visualisierungen bei großen Datensätzen (Sampling, Aggregation).
- Dashboard-Integration: Exportmöglichkeiten für BI-Tools (Tableau, Power BI) und Webanwendungen.
Machine Learning mit PySpark MLlib
- Pipeline-Konzept: Aufbau von ML-Workflows mit PySpark. Vergleich mit scikit-learn.
- Feature-Engineering: Nutzung der integrierten Transformationen für Datenvorbereitung.
- Modelltraining und -evaluation: Implementierung und Bewertung von Algorithmen für Klassifikation, Regression und Clustering.
Streaming-Datenverarbeitung
- Strukturiertes Streaming: Grundkonzepte der Echtzeitdatenverarbeitung mit PySpark. Vergleich mit Batch-Verarbeitung.
- Quellen und Senken: Integration mit Kafka, Dateisystemen und Datenbanken.
- Event-Time-Verarbeitung: Umgang mit verzögerten Daten und Fensteroperationen.
Praxisübung: End-to-End-Datenpipeline
- Teilnehmer implementieren eine komplette Datenverarbeitungspipeline von der Datenextraktion über Transformationen bis zur Analyse und Visualisierung.

Get alternatives

There are no reviews yet.

Share your review

Do you have experience with this course? Submit your review and help other people make the right choice. As a thank you for your effort we will donate $1.- to Stichting Edukans.

There are no frequently asked questions yet. If you have any more questions or need help, contact our customer service.