Modulhandbuch

Um ein Modulhandbuch einzufügen, den Inhalt-Plus-Button an der gewünschten Stelle anklicken und unter der Rubrik Plug-Ins „Modulhandbuch (DE)“ wählen. Unter „Studiengang“ den gewünschten Studiengang auswählen und speichern. Jetzt wird das Modulhandbuch auf der Seite angezeigt.


Falls das gewünschte Modulhandbuch noch nicht in der Liste erscheint, bitte Webmaster (webmaster@hs-offenburg.de) kontaktieren.

Modulhandbuch

Data Engineering

Empfohlene Vorkenntnisse

Datenbanken, Programmierung in Python

Lehrform Vorlesung/Labor
Lernziele / Kompetenzen

Ein umfangreicher Anteil eines datengetriebenen Analysesystems wird durch die Bereitstellung einer Dateninfrastruktur bestimmt. Dieses Modul vermittelt grundlegende Inhalte zu Datenverwaltungsaufgaben wie denen der Datenerfassung, Datenaufbereitung, Datentransformation und Datenvalidierung. Die Studierenden kennen Architekturen, Methoden und Frameworks zum Aufbau von Datenpipelines und der verteilten, parallelen Verarbeitung und Speicherung von Daten mit Big Data Technologien. Sie können die wesentlichen Architekturansätze und Methoden charakterisieren und bewerten. Sie können die Methoden und Architekturen für gegebene Problemstellungen systematisch aufgrund von Randbedingungen (z.B. Datencharakteristik, Systemarchitektur) auswählen und implementieren.

Dauer 1
SWS 4.0
Aufwand
Lehrveranstaltung 60
Selbststudium / Gruppenarbeit: 120
Workload 180
ECTS 6.0
Voraussetzungen für die Vergabe von LP

Modulprüfung für "Data Engineering" (K60) "Praktikum Data Engineering" muss "m.E." attestiert sein.

Modulverantwortlicher

Prof. Dr. Keuper

Max. Teilnehmer 41
Empf. Semester 3
Haeufigkeit jedes Jahr (SS)
Verwendbarkeit

Bachelor-Studiengang AKI

Veranstaltungen

Data Engineering und ML Operations

Art Vorlesung
Nr. EMI927
SWS 2.0
Lerninhalt

Die LV umfasst folgende Lerninhalte:

  • ETL-Prozesse
  • Grundlagen der Datensammlung und Datenqualität
  • Grundlagen Paralleler Datenverarbeitung
  • Stream Processing
  • NoSQL-Datenbanken
  • Hadoop DFS und MapReduce
  • Verteile Analyse großer Datenmengen mit verteilten Systemen wie Apache Spark
  • Parallele Datenverarbeitung in Python mit DASK, Rapids und Ray

 

Literatur
  • Kleppmann, Martin (2018): Designing data-intensive applications. The big ideas behind reliable, scalable, and maintainable systems. Fifth release. Beijing, Boston, Farnham, Sebastopol, Tokyo: O'Reilly.
  • White, Tom (2015): Hadoop. The definitive guide. 4. edition: O'Reilly & Associates.
  • Chambers, Bill; Zaharia, Matei (2018): Spark. The definitive guide: big data processing made simple. First edition. Sebastapol, CA: O'Reilly Media.
  • Apel, Detlef (2015): Datenqualität erfolgreich steuern. Praxislösungen für Business Intelligence Projekte. 3., überarbeitete und erweiterte Auflage. Heidelberg [Germany]: dpunkt.verlag (Edition TDWI).

Praktikum Data Engineering und ML Operations

Art Praktikum
Nr. EMI928
SWS 2.0
Lerninhalt
  • ETL-Prozesse
  • NoSQL-Datenbanken
  • HDFS und MapReduce
  • Spark
  • Dask
  • Ray
  • Rapids
  • Rest-APIs
Literatur

Géron, Aurélien (2019): Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. Concepts, tools, and techniques to build intelligent systems. Second edition. Sebastopol, CA: O'Reilly Media, Inc.