Unter Information Engineering verstehen wir Methoden und Verfahren zur Gestaltung und Entwicklung von Informationssystemen. In diesem CAS lernen Sie, wie man sowohl mit strukturierten Daten (z. B. aus Datenbanken und Data Warehouses) als auch mit semistrukturierten und unstrukturierten Daten (z. B. Weblogs, Textdokumenten, Bildern, Videos etc.) umgeht.
Zielpublikum:Das CAS Information Engineering richtet sich an Personen, die
- Unternehmensdaten oder öffentliche Daten bearbeiten
- datengestützte (Entscheidungs-)Grundlagen in Form von Berichten oder Web-Applikationen erstellen
- Kundendaten (im Customer Relationship Management, kurz CRM) auswerten wollen
- wissenschaftliche Daten auswerten wollen
- verschiedenste Datenquellen zusammenführen und auswerten wollen
- bestehende Informationen in einer oder verschiedenen Datenquellen auffinden wollen
- in den Bereichen Business Analytics oder Business Intelligence arbeiten
Ziele:Wir leben in einer Welt, in welcher die Sammlung, Aufbereitung und Nutzbarmachung von Informationen und Daten zunehmend zentral wird. Unter Information Engineering verstehen wir Methoden und Verfahren zur Gestaltung und Entwicklung von Informationssystemen. In diesem CAS lernen Sie, wie man sowohl mit strukturierten Daten (z. B. aus Datenbanken und Data Warehouses) als auch mit semistrukturierten und unstrukturierten Daten (z. B. Weblogs, Textdokumenten, Bildern, Videos etc.) umgeht.
Folgende Fragestellungen stehen im Zentrum des CAS Information Engineering:
- Welche Scripting-Methoden eignen sich für die Prozessierung von Daten?
- Was sind die Grundlagen einer relationalen Datenbank und wie kann ich Daten mit einer geeigneten Abfragesprache (SQL) filtern?
- Warum braucht man ein Data Warehouse und wie integriert man Daten aus unterschiedlichen Systemen?
- Was verbirgt sind hinter Big Data (Hadoop, MapReduce, Pig, Hive, STORM etc.) und welche neuen Fragestellungen lassen sich damit beantworten?
- Wie kann ich Sentimentanalyse für meine Unternehmung einsetzen, um neue Erkenntnisse über die Kundenzufriedenheit zu gewinnen und effektiv darauf zu reagieren?
Inhalt:
Modul A "Scripting"
Lernziele
- Sie kennen die Grundlagen der Script-Sprache Python sowie der relevanten Bibliotheken
- Sie können die Script-Sprache für unterschiedliche Schritte im Datenanalyseprozess einsetzen
Inhalte
- Einführung in Python mit sciPy und scikit-learn
- Anwendungsmöglichkeiten in den Bereichen Datenextraktion, Datenanalyse und Datenvisualisierung
- Erstellung von Mashups mit externen Web-Services
Modul B "Datenbanken and Data Warehousing"
Lernziele
Wie man strukturierte Daten aufbereitet, modelliert und für die Analyse bereitstellt.
- Sie verstehen die Grundlagen der relationalen Algebra und können die Datenbanksprache SQL anwenden
- Sie verstehen die Wesensmerkmale und den Aufbau, sowie den Zweck von DWH-Systemen
- Sie können Architektur und Design von skalierenden DWH-Systemen entwerfen
- Sie kennen die Technologien und Bausteine von DWH-Systemen und sind in der Lage, diese Bausteine beispielhaft zur Implementation zu nutzen
Inhalte
- Relationale Algebra und Datenbankabfragesprache SQL
- Einführung in Decision Support Systeme: Definition, Abgrenzung, Vergleich OLTP (transaktionsbasierte Systeme) und OLAP (Analysesysteme)
- Architektur und Modellierung: DWH-Aufbau, Datenmodellierung für Analysezwecke
- ETL Prozess: Kopplung von OLTP und Business Intelligence (BI)-Welt,automatisiertes Laden
- Datenqualität: Fehlererkennung und –korrektur, iteratives Vorgehen beim DWH-Entwurf
Modul C "Information Retrieval"
Lernziele
Wie man unstrukturierte Texte aufbereitet und nutzbar macht.
- Sie kennen konkrete Retrievalsysteme (z.B. Websuche/Google, fachspezifische Suche u.a.) und haben einen soliden Einblick in das Gebiet: Grundlagen, Theorie, Stand der Technik, Praxis und Auswertung
- Sie beherrschen die Wahl der richtigen Technologie für Suchaufgaben, und können Information Retrieval-Systeme evaluieren und bewerten
- Sie kennen Methoden der tiefergehenden Textanalyse wie Sentimentanalyse, und können mit maschineller Übersetzung umgehen
- Sie lernen Methoden kennen, um Merkmale aus nicht-textuellen Dokumenten zu extrahieren
Inhalte
- Einführung in Information Retrieval
- Grundlagen: Modelle, Probability Ranking Principle, Rangierungsregeln
- Indizierung/Vergleich: Textanalyse, Gewichtung, Systeme/Architektur
- Sentiment Analyse, Text Summarization, Mehrsprachiges und sprachübergreifendes Retrieval
- Multimedia Information Access
Modul D "Big Data"
Lernziele
Wie man skalierbare Analysesysteme mit Big-Data-Technologie aufbaut und nutzt.
- Sie verstehen die Wesensmerkmale und den Aufbau, sowie den Zweck von Big Data-Systemen
- Sie können Big Data-Systeme beurteilen und evaluieren
- Sie sind in der Lage, ein DWH-Projekt mit beliebiger Datenmenge durchzuführen
- Sie haben in den Praktika Hands-on Erfahrung mit State-of-the-Art Tools wie Apache Hadoop Ecosystem gesammelt
Inhalte
- Big-Data-Überblick: Einsatzkonzepte für grosse und unstrukturierte Daten
- Überblick über NoSQL
- Skalierbare Abfragen und Analysen: MapReduce mit Hadoop, SQL-ähnliche Interfaces mit Pig und Hive
- Real Time Analytics mit STORM