viadee Berater Dr. Timm Euler war am 2. November 2017 eingeladen, in der Big Data-Vorlesung von Prof. Dr. Norman Lahme-Hütig an der FH Münster einen Gastvortrag zum Thema „Apache Spark“ zu halten.
Etwa 20 Zuhörer und Zuhörerinnen aus dem Studiengang Wirtschaftsinformatik informierten sich dabei über praktische Fragestellungen und Lösungsmöglichkeiten der parallelen Programmierung im Big Data-Umfeld.
Mit Spark, einer frei verfügbaren Technologie aus dem Hadoop-Ökosystem, lassen sich SQL-basierte Datenabfragen und Analyseprogramme auf Basis moderner Programmiersprachen wie Java, Scala oder Python performant auf riesige Datenmengen anwenden. Spark wird daher auch zunehmend im Data Warehousing, etwa für ETL, genutzt, um die Skalierung durch verteilte Rechner zu nutzen. „Besonders interessant ist, dass das gleiche Programm sowohl im klassischen Umfeld als auch im verteilten Cluster ausgeführt werden kann – so müssen ETL-Strecken für die Parallelisierung nicht neu programmiert werden“, erklärte Euler. Zudem können SQL-Abfragen direkt auf Spark ausgeführt werden, so dass die Einstiegshürde niedrig ist.
Um einen größeren Cluster richtig auszunutzen und Performance-Engpässe zu vermeiden, sollte man aber doch ein wenig mehr über die Hintergründe und die Arbeitsweise von Spark wissen, so dass dieser Bereich im Vortrag ausführlich behandelt wurde. Mit einem Programmierbeispiel wurden die Teilnehmer dann motiviert, in den praktischen Übungen zur Vorlesung ihr Wissen anzuwenden.
Die Vorbereitung des Vortrags hat auch unserem viadee-Kollegen, der solche Gelegenheiten schon des Öfteren genutzt hat, viel Spaß gemacht: „Ich bin während meines Studiums immer gerne zu Vorträgen aus der Praxis gegangen und freue mich, heute regelmäßig auf diese Weise etwas zurückgeben zu können“, so Timm Euler.
Keinen Beitrag verpassen – viadee Blog abonnieren