1 Einführung

Für den GI-Arbeitskreis „Data Engineering for Data Science“ ist die akademische Ausbildung ein wichtiger Diskussionspunkt. Anlässlich dieses Themenhefts haben wir eine Online-Umfrage durchgeführt, beworben über den E‑Mail-Verteiler fg-db. Wir haben die Lehrenden im Hochschulbereich um Rückmeldung zu den von ihren Hochschulen angebotenen Data-Engineering-Lehrveranstaltungen gebeten.

Uns erreichten 17 Antworten zu Lehrveranstaltungen an Universitäten sowie Hochschulen für angewandte Wissenschaften. Wir geben diese aggregiert wieder und diskutieren sie im Vergleich zu einer ähnlichen Umfrage aus dem Jahr 2014, zu dem (damals neuen) Thema „Cloud“ [3]. Dabei haben wir bewusst auf eine ähnliche Strukturierung des Online-Fragebogens geachtet, um eine Vergleichbarkeit herstellen zu können.

2 Synopse

Auch wenn unsere Umfrage sich auf eine überschaubare Anzahl Rückmeldungen stützt, so zeigt sich ein deutlicher Konsens bezüglich der Kernaussagen.

Hand-On vs. On-Paper. Die am häufigsten genannten Lehrformate sind Vorlesungen und Praktika am Rechner, letztere dominieren gegenüber dem „Lösen von Aufgaben auf Papier“. Abb. 1 stellt die Rückmeldungen zu Formaten in der aktuellen Umfrage (DE4DS) im Vergleich zu der früheren Umfrage zum Thema Cloud (DMC) dar. Auffallend ist, dass Vorlesungen und Praktika stärker verbreitet sind.

Abb. 1
figure 1

Formate bei Data-Engineering-Lehrveranstaltungen (DE4DS), im Vergleich mit einer früheren Umfrage zum Thema „Cloud“ (DMC). V: Vorlesung, P: Praktikum, S: Seminar

Flächendeckendes Angebot. Data Engineering wird überwiegend als Wahlmodul angeboten. und zwar nicht nur im Master Informatik, sondern auch vermehrt im Bachelor Informatik, wie in Abb. 2 visualisiert.

Laut unseren Umfrageergebnissen sind die meisten Veranstaltungen eher klein konzipiert, mit bis zu 50 Studierenden. Das lässt auf einen guten Betreuungsschlüssel schließen. Damit bleibt der openHPI-MOOC-Kurs von Felix Naumann, mit einer Reichweite von zehntausend Personen [2], außer Konkurrenz.

Abb. 2
figure 2

Verankerung in Informatik-Studiengängen: Wahlpflichtfach oder Pflichtfach im Master (WMSc vs. PMSc), bzw. im Bachelor (WBSc vs. PBSc)

Inhalte. Unter den erwarteten fachlichen Voraussetzungen wurden am häufigsten Datenbank-Kenntnisse sowie die Beherrschung der Programmiersprachen Python und Java genannt. Hier müssen wir von einem Bias bei dieser Umfrage ausgehen, wodurch die Datenbank-Kenntnisse wahrscheinlich betont wurden.

Dafür wurden Statistik-Kenntnisse selten genannt. Interdisziplinäre Themen, wie Datenethik, Privacy oder juristische Aspekte, wurden gar nicht genannt. Wir greifen diese Beobachtungen in der Diskussion auf.

Bei der Frage nach den vermittelten Methoden wurden an erster Stelle Big-Data-Technologien und Datenintegration genannt, an zweiter Stelle Data Mining, und an dritter Stelle Methoden des maschinellen Lernens. Auch Herausforderungen wie die Skalierbarkeit, oder die Verarbeitung von Graphen, fanden Erwähnung.

Sprache je nach Studienphase. Als Lehrsprachen wurden Deutsch und Englisch zu gleichen Teilen genannt. Wir vermuten, dass dies der typischen Aufteilung „Deutsch im Bachelor“ und „Englisch im Master“ folgt. Diese Zuordnung könnte man bei einer detaillierteren Untersuchung erfragen.

Taktung. In den Antworten zu unserer Umfrage wurde von einer Veranstaltung berichtet, die bereits seit 15 Jahren angeboten wird. Die meisten vorgestellten Veranstaltungen sind jedoch seit ca. 6 Jahren im Angebot, im jährlichen Turnus.

Export-Schlager. Bei der Frage, für welche Studiengänge die Veranstaltungen angeboten werden, erweist sich Data Engineering als Exportschlager. So zeigte die Befragung den Export in eigene Data-Science-Studiengänge, gefolgt von Wirtschaftsinformatik. Data Engineering wird breit exportiert, auch in die Mathematik und die Naturwissenschaften hinein.

Lehrmaterial. Über Lehrmaterial wurde berichtet, dass überwiegend eigene Folien zur Verfügung gestellt werden, aber auch, dass „Videos im Kommen“ seien (was natürlich gegenwärtig auch durch die pandemische Lage verursacht wird).

Beim Einsatz von Literatur finden sich Gemeinsamkeiten mit der früheren Umfrage: Sachbücher dominieren über Lehrbücher. Ein möglicher Grund ist, dass sie viel schneller auf dem Markt sind.

IT-Infrastruktur. Bei der den Studierenden angebotenen IT-Infrastruktur wurde die „Lehrstuhl-Cloud“ genannt, gefolgt von virtuellen Maschinen, die auf den privaten Rechnern der Studierenden laufen. Uns hat fünf Mal die Antwort erreicht, dass den Studierenden keine Infrastruktur zur Verfügung gestellt wird, d. h., die Studierenden richten sich ihre IT-Umgebung autark ein.

Bei den verwendeten Softwareprodukten herrscht Vielfalt, insbesondere findet sich Vieles aus dem Apache-Portfolio. Python wurde mehrfach genannt, Jupyter Notebooks nur einmal, R oder Julia wurden nicht erwähnt.

In den Freitextkommentaren wurde angegeben, dass Hadoop als System immer weniger relevant ist, während Cloud-Technologien weiterhin an Stellenwert gewinnen. Das spiegelt auch unsere eigene Beobachtung wieder.

3 Diskussion

Unsere Umfrage zeigt, dass die Data-Engineering-Lehre vergleichsweise stark in die Breite geht, in die Bachelorstudiengänge hinein, und auch in Studiengängen jenseits der Kern-Informatik. Da Data Science immer eine Anwendungsdomäne benötigt (bzw. einen „Bindestrich“), scheint dies nur natürlich.

Betrachten wir die Rückmeldungen im Kontext der Empfehlungen der GI für Data-Science-Studiengänge [1] (im Folgeheft werden diese in einem eigenen Artikel vorgestellt), so fällt auf, dass keine Lehrinhalte zu Statistik genannt wurden. Hier können wir vermuten, dass diese Inhalte nicht von den Kollegen und Kolleginnen mit Datenbank-Expertise gelehrt werden. Andere zentrale Inhalte, wie etwa Ethik im Umgang mit Daten, vermuten wir ebenso in anderen Lehrveranstaltungen.

Zwar scheint „Cloud-Technologie“ als Lehrinhalt weiterhin präsent, doch werden kommerzielle Cloud-Dienste für die Lehre selten genutzt — in unserer Umfrage zur verwendeten IT-Infrastruktur wurde diese Option nur einmal genannt. In der früheren Umfrage zum Thema „Cloud“ war diese Option noch prominenter vertreten.

Wir vermuten als einen Grund die anhaltende Schwierigkeit, kostenpflichtige Cloud-Dienste in die Lehre zu integrieren. Der Erfahrung des Autorenteams nach hat sich in Sachen Rechtssicherheit und praktikable Rechnungslegung nicht viel getan: Die Probleme, die 2014 beschrieben wurden [3], sind an vielen Hochschulen weiterhin ungelöst. Hier sehen wir dringenden Handlungsbedarf, um zu ermöglichen, dass Cloud-Dienste in der Hochschullehre niederschwellig integrierbar sind.