Das CAS Advanced Statistical Data Analysis erweitert und vertieft die im CAS Data Analysis erworbenen Kenntnisse und Fähigkeiten. Im Zentrum stehen neben fortgeschrittenen Datenaufbereitungstechniken und erweiterten Regressionsmodellen, auch Fragen, wie mit fehlenden Werten umzugehen ist und welche kausalen Rückschlüsse aus Modellen zulässig sind.
Zielpublikum:Das CAS Advanced Statistical Data Analysis richtet sich an Personen,
- die Unternehmensdaten oder öffentliche Daten bearbeiten (z.B. Analytiker/innen),
- die datengestützte Entscheidungsgrundlagen (Berichte und/oder statistische Modelle) liefern müssen,
- die Produktions- oder Betriebsprozesse überwachen und regeln,
- die Kundendaten auswerten.
Ziele:Die Absolventinnen und Absolventen des CAS Advanced Statistical Data Analysis erwerben sowohl theoretische Grundlagen als auch praktische Fähigkeiten in den folgenden Bereichen:
- Datenaufbereitung von verschiedensten Daten(quellen) und Datenanreicherung mit zusätzlicher Information mit R
- Umgang mit fehlenden Werten
- Generalisierte lineare und additive Modelle (GLM, GAM)
- Netzwerkanalyse
- Quantifizieren und Schätzen kausaler Effekte
- Entwicklung eines Analysekonzepts
Inhalt:
Modul A "Data Enhancement and Processing"
Lernziele
- Sie können Daten aus verschiedenen Dateiformaten (z.B. JSON, XML, SQL Datenbanken) in R importieren.
- Sie können geeignete Tools für die Datenaufbereitung einsetzen, dabei mehrere Datenquellen zusammenführen, Ausreisser und Fehler finden.
- Sie können aus bestehenden Variablen (z.B. Zeitangaben oder Text) für eine bestimmte Fragestellung nützliche Informationen extrahieren.
- Sie können zusätzliche Informationen zu ihren Daten hinzufügen.
- Sie können fehlende Werte typisieren und kennen Methoden für die Imputation.
Inhalte
- Data Wrangling
- Data Enhancement
- Multivariate Methoden zur Ausreisserdetektion
- Typisierung von fehlenden Werten
- Imputationsmethoden (Standard- und neuste Methoden wie z.B. missForest)
- Durchführung einer eigenen Datenaufbereitung
Modul B "Data Analysis Concepts"
Lernziele
- Sie kennen die wesentlichen Schritte einer Datenanalyse.
- Sie können die einzelnen Schritte einer statistischen Auswertung kritisch hinterfragen.
- Sie sind in der Lage, ein Analysekonzept zu entwickeln.
Inhalte
- Das Konzept Cross-Industry Standard Process for Data Mining
- Diskussion anhand von Fallbeispielen
- Entwerfen eines eigenen Analysekonzepts (Projektarbeit)
Modul C "Advanced Regression Modelling"
Lernziele
- Sie sind vertraut mit praxisrelevanten Methoden der multiplen Regressionsrechnung bei nicht normalverteilten Zielgrössen.
- Sie erkennen, auf welchen Prinzipien diese Methoden beruhen und können die Resultate aus den Anpassungen interpretieren.
- Sie können beurteilen, ob das Modell zu den Daten passt.
- Sie können ein generalisiertes Regressionsmodell datengestützt entwickeln.
Inhalte
- Logistische Regression
- Generalisierte lineare Modelle (GLM)
- Generalisierte additive Modelle (GAM)
- Robuste und moderne Schätzmethoden
Modul D "Network Analysis and Causality"
Lernziele
- Sie kennen die (graphentheoretischen) Grundlagen der Netzwerkanalyse.
- Sie können mit Softwaretools wie zum Beispiel igraph und Gephi Netzwerke analysieren und darstellen.
- Sie verstehen die Grundlagen der Diffusion in Netzwerken.
- Sie können graphische Modelle aufsetzen und damit kausale Effekte und Auswirkungen von Interventionen aus Daten schätzen.
Inhalte
- Eigenschaften und Modelle sozialer Netzwerke (Small World / Skalenfreiheit, Erdös- / Barabási-Modell)
- Zentralitätsmasse und Community-Strukturen (Wer sind die Key Users für das Marketing?)
- Diffusion in (sozialen) Netzwerken (Wie breiten sich Gerüchte oder Epidemien aus, wie setzen sich Innovationen oder Theorien durch?)
- Visualisierung von (grossen) Netzwerken
- Graphische Modelle und Kausalität