ZHAW Departement School of Management and Law

CAS Data Engineering

Ort

auf Anfrage

Start

23.08.2025

Anmeldeschluss

20.07.2025

Dauer

132 Lektionen

Preis

CHF 8'340.00

Abschluss

CAS


Hinweis zum Datenschutz
Das Phänomen der stetig zunehmenden Menge und Verbreitung von Daten begleitet uns seit Jahrzehnten. Zu Beginn dieser Entwicklung entstanden Daten in Systemen, bei denen die gewünschte Funktionalität die Form und Verarbeitung der Daten vorgab. Heutzutage verbreiten sich aber auch Systeme, in denen ein Nutzen dank dem Einbezug vorhandener Daten gestiftet wird. Zielpublikum:

Der CAS richtet sich an Fach- und Führungskräfte aus allen Branchen, welche ein Grundlagenverständnis für das Datenmanagement mitbringen, bereits Erfahrungen im generellen Umgang mit Daten gesammelt haben (bspw. durch den Besuch des CAS Data Competence for Business) und sich im Bereich der Sammlung, Aufbereitung, Validierung und Distribution von Daten vertiefen wollen. Idealerweise haben Sie bereits erste Erfahrungen mit 1 – 2 Abfrage-, Programmier- oder Skriptsprachen gesammelt. Der CAS bereitet Sie darauf vor, Aufgaben im Bereich des Data Engineering selbst durchzuführen sowie auf einem fachlichen Niveau zu überwachen.

Ziele:

Sie können im Anschluss an diesen CAS:

  • Fragestellungen identifizieren, denen mit dem Einbezug von Daten und unterschiedlichen Aufbereitungs- und Analysemethoden begegnet werden kann
  • für den Erkenntnisgewinn erforderliche Daten identifizieren und spezifizieren
  • Speicherlösungen konzeptionieren und Datenmodelle skizzieren
  • Daten mittels unterschiedlicher Vorgehensweisen beschaffen und in geeignete Speicherlösungen überführen
  • für die Datenpipeline geeignete Transformationsmethoden kennen und anwenden, um die Datenkompatibilität herzustellen
  • für die Datenpipeline geeignete Bereinigungsmethoden kennen und anwenden, um eine akzeptable Datenqualität herzustellen
  • Grundsätzliche Überlegungen und Wege zur Bereitstellung von Daten für die Anwendungsfälle Analytik und Machine Learning kennen
  • die wichtigsten Überlegungen im Bereich der Informationssicherheit kennen
  • Überlappungen des Data Engineering – Lebensyzklus mit Datenmanagement, Orchestrierung, Software Engineeering und DevOps/DataOps/MLOps kennen
  • Statistische Methoden und Modelle des maschinellen Lernens für die Analyse und Validation der Daten innerhalb des Data Enginee-ring - Lebenszyklus kennen und anwenden
  • Statistische Methoden und Modelle des maschinellen Lernens für die Identifikation von Anomalien in Daten kennen und anwenden
  • Werkzeuge und Methoden für den Umgang mit natürlicher Sprache kennen und anwenden
  • Werkzeuge und Methoden für den Umgang mit Bilddaten kennen und anwenden
  • Werkzeuge und Methoden für den Umgang mit räumlichen Daten kennen und anwenden
  • Daten über ausgewählte Deployment-Lösungen bereitstellen und Datenübergänge automatisieren
Inhalt:

Data Engineering wird je nach Definition als Teilbereich oder als Vorstufe des Data Science verstanden und befasst sich hauptsächlich mit den praktischen Aspekten der Datenbeschaffung und Zusammenführung, über den gesamten Datenaufbereitungskreislauf bis zur Analyse mit dem Ziel, eine qualitativ und quantitativ akzeptable Datengrundlage für die anschliessende Modellierung zu bieten.

Mit dem Wachstum der Datenmenge haben wir immer mehr Möglichkeiten, nützliche Produkte, Dienstleistungen und effektive Betriebe zu gestalten. Menschen in diversen Positionen, Funktionen und Rollen verfolgen ein breites Spektrum an Aufgaben, in denen Fragestellungen mit der Erfassung, Aufbereitung und Verarbeitung von Daten effektiver und effizienter beantwortet werden können. Im CAS Data Engineering vermitteln wir ein ebenso breites Spektrum an Werkzeugen und Methoden, welche Teilnehmende dazu befähigt, in ihrem beruflichen Alltag Daten mittels systematischer Techniken bereitzustellen, damit aus diesen ein konkreter Nutzen gewonnen werden kann.

Jeder Themenblock wird begleitet durch eine theoretische Einführung in die Thematik, die prozessorientierte Perspektive sowie praktische Übungen. Die Übungen finden mit öffentlich zugänglichen Daten aus den Bereichen Pharma & Gesundheit, Energie & Umwelt, Automobilindustrie, Versicherungen, Finanzen und Agrarwirtschaft statt. Es besteht ebenfalls die Möglichkeit, mit eigenen Daten zu arbeiten.

Modul 1: Werkzeuge und Methoden

Das erste Modul widmet sich den Werkzeugen und Methoden der folgenden Phasen des Data Engineering Lifecycle (Reis & Housley, 2022).

1. Einführung

  • Definition von Data Engineering, Abgrenzung zu verwandten Themenbereichen
  • Motivation, Organisation, Anforderungen, Organisatorisches
  • Tools und Equipment (Programmier-, Abfrage- und Skriptsprachen, Umgebungen)

2. Architekturen

  • Datenarchitekturen und ihrer Grundsätze
  • Architekturkonzepte

3. Ingestion

  • Formate und Datentypen
  • Datenquellen und -identifikation
  • API’s
  • Webscraping
  • Streaming

4. Storage

  • Verteilte Systeme
  • Datenbankeigenschaften
  • Raw ingredients
  • Data Storage Systems

5. Transformation

  • ROI der Transformation
  • Zeitfenster
  • Kombination von Streams mit anderen Daten
  • Kompatibilitäten
  • Integration
  • Datenqualität

6. Serving

  • Überlegungen zur Bereitstellung von Daten
  • Wege zur Bereitstellung von Daten
  • Anwendungsfälle Analytik und Machine Learning
  • Reverse ETL

7. Unterströmungen

  • Datenmanagement
  • Orchestrierung
  • Software Engineering
  • DevOps und DataOps
  • Informationssicherheit
Modul 2: Domänen und Daten

Im 2. Modul stehen Anwendungsfälle in den folgenden Themenblöcken im Fokus.

1. Daten, Datenmodelle und Datenbanken – eine Einführung

2. Graphen und Graphendatenbanken

3. Service Public

4. Plattformen

5. Soziale Medien

6. Natural Language Processing

7. Räumliche Daten

8. Bilddaten

Wir arbeiten mit den folgenden Sprachen und Umgebungen.

Programmier-, Abfrage- und Skriptsprachen:

  • Python (Pandas, NumPy, Matplotlib, Seaborn, Scikit Learn)
  • SQL
  • Cypher
  • R (optional)
  • Visual Basic (optional)

Entwicklungsumgebungen:

  • OpenRefine
  • Anaconda (Jupyter Notebook / Lab, Spyder, PyCharm)
  • Google Colab
  • MS Visual Studio
  • MS Excel
  • MS Access (optional)

Datenbanken:

  • MySQL, MariaDB
  • MongoDB
  • Neo4J
  • MS Azure SQL Server (optional)
  • MS Azure Cosmos DB (optional)

Weitere:

  • Google Cloud Platform
  • Git
  • MS Shell / Terminal
  • Docker
  • Flask
  • Dash
  • Social Network Visualizer
  • QT Designer (optional)
  • Django (optional)

Kontakt

School of Management and Law
Tel... anzeigen
E-Mail Anfrage