Das CAS Data Analysis vermittelt einen Einstieg in das statistische Denken sowie in klassische und neue Konzepte der statistischen Datenanalyse. In diesem CAS lernen Sie in Abhängigkeit der fachlichen Fragestellung und der Art der Daten Vorgehensweisen und Methoden kennen, um die in den Daten enthaltene Informationen sichtbar zu machen, sowie um nützliche Erkenntnisse daraus zu ziehen unter Berücksichtigung, dass die Zusammenhänge verrauscht sind.
Zielpublikum:Das CAS Data Analysis richtet sich an Personen, die
- Unternehmensdaten oder öffentliche Daten bearbeiten (z.B. AnalytikerInnen),
- datengestützte Entscheidungsgrundlagen (Erstellen von Berichten und/oder statistischen Modellen) liefern müssen,
- Produktions- oder Betriebsprozesse überwachen und regeln,
- Kundendaten auswerten
Ziele:Die Absolventinnen und Absolventen des CAS Data Analysis erwerben sowohl theoretische Grundlagen als auch praktische Fähigkeiten in den folgenden Bereichen:
- Beschreibung und grafische Darstellung von Daten
- Statistischen Konzepte zur Datenanalyse und dazugehörige Interpretationen
- Prüfen der Modelleignung (Residuen-Analyse, Anpassungstest)
- Prognosen und Bestimmung von Prognoseunsicherheiten mit statistischen Regressionsmodellen
- Methoden zur Strukturentdeckung in Daten und Verfahren zur Klassifizierung von Objekten.
Inhalt:
Modul A "Data Visualisation"
Lernziele
- Sie können Daten gemäss ihrem Typ geeignet beschreiben und grafisch darstellen (mit R).
- Sie erkennen missbräuchliche Anwendungen von grafischen Darstellungen.
- Sie können für einen gegebenen Datensatz selbständig eine deskriptive Analyse in R durchführen.
Inhalte
- Einführung in die Statistiksoftware R und der Entwicklungsumgebung RStudio
- Datentypen in unabhängigen Stichproben und Zeitreihen
- Kennzahlen und grafische Darstellungen für uni- und bivariate Daten
- Do’s and dont’s der grafischen Darstellung von Daten
Modul B "Statistical Inference"
Lernziele
- Sie können mit einfachen statistischen Modellen umgehen.
- Sie kennen die statistischen Konzepte der Schätzung, des Hypothesentests sowie des Vertrauensintervalls und können diese in der Praxis anwenden (mit R).
- Sie sind vertraut mit dem Simpson-Paradoxon.
Inhalte
- Statistisches Modell versus Daten
- Zufallsvariable, deren Verteilungen und Kennzahlen
- bedingte Verteilungen und Simpson-Paradoxon
- Schliessende Statistik (Schätzen, Vertrauensintervall, Statistische Tests) bei Zähldaten (Poisson- und Binomial-Modell) und bei metrischen Daten (Normal- und Exponentialverteilung)
- Dispersion- und Anpassungstest
Modul C "Statistical Regression Analysis"
Lernziele
- Sie können das multiple lineare Regressionsmodell zur Analyse von metrischen Daten (z. B. Messdaten) und zur Prognose einsetzen.
- Sie können beurteilen, ob das Regressionsmodell zu den Daten passt (Residuen-Analyse).
- Sie können ein Regressionsmodell Daten gestützt entwickeln.
Inhalte
- Einfache und multiple lineare Regression
- Modellvielfalt, Transformationen
- Parameterschätzung via Kleinste Quadrate
- Statistische Tests und Vertrauensintervalle
- Prognose und Prognosebereiche
- Residuenanalyse, Variablenselektion, Kreuzvalidierung und Modellbaustrategien
- Interpretation, Kollinearität
Modul D "Clustering and Classification"
Lernziele
- Sie können gängige Methoden zur Strukturentdeckung in Daten anwenden
- Sie können mit einer Auswahl von Klassifikationsverfahren Daten gestützt die Klassenzugehörigkeit eines Objekts ermitteln
- Sie können die Klassifikationsperformance bei einem gegebenen Datensatz ermitteln.
Inhalte
- Visualisierung von und Strukturerkennung in multivariaten Daten:
- Ähnlichkeits- und Distanzmasse,
- Dimensionsreduktion (z.B. Hauptkomponentenanalyse, Multidimensional Scaling),
- Hierarchische und partitionierende Cluster-Verfahren
- Klassifikationsverfahren:
- kNN, Klassifikationsbäume, Random Forest, etc.
- Performance-Masse bei Klassifikationsverfahren (Konfusionsmatrix, Fehlerrate, Sensitivität, Spezifität etc.) und Performance-Messung durch z.B. Kreuzvalidierung