Die SDIL-Plattform ist eine leistungsstarke in-memory Computing-Infrastruktur, die Forschungsprojekten kostenfrei durch unsere Projektpartner zur Verfügung gestellt wird.

Sie wird vom Steinbuch Centre for Computing (SCC) am KIT betrieben und bietet modernste Software und Hardware.

Die SDIL-Infrastruktur beinhaltet im Einzelnen:

SDIL Platform Overview

SAP HANA

SAP HANA ist eine revolutionäre Plattform, die es Kunden ermöglicht, große Datenmengen in Echtzeit zu analysieren, flexible Analysemodelle zu erstellen sowie Anwendungen in Echtzeit zu entwickeln und in Betrieb zu nehmen. Die SAP HANA in-memory Appliance steht Ihnen auf der SDIL-Plattform zur Verfügung.

Zusätzlich haben wir die Application Function Library (AFL) auf unseren HANA-Instanzen installiert. Diese Funktionen können direkt in Projekten verwendet werden und beschleunigen die Entwicklung, da die Implementierung komplexer Algorithmen so vermieden werden kann. AFL-Operationen laufen im Kern der SAP HANA in-memory Datenbank und verfügen somit über eine herausragende Performance. Das AFL-Paket besteht aus folgenden Komponenten:

  • Die Predictive Analysis Library (PAL) ist eine Sammlung von Funktionen innerhalb der AFL. Sie beinhaltet gebräuchliche parametrisierbare Algorithmen hauptsächlich zur Verwendung in Modellen zur Vorhersage und im Datamining. Die PAL bietet unter anderem Algorithmen zur Clusteranalyse (K-means), Abhängigkeitsanalyse, C4.5 Entscheidungsbäume, lineare Regression oder exponentiellen Glättung. Weiterführende Informationen erhalten Sie im offiziellen SAP HANA PAL Handbuch (SAP HANA PAL Library Documentation).

  • Die Business Function Library (BFL) ist eine weitere Sammlung von Funktionen innerhalb der AFL. Diese Funktionen dienen insbesondere der Analyse von Finanzmarkt-Daten. Weiterführende Informationen erhalten Sie im offiziellen SAP HANA BFL Handbuch (SAP HANA BFL Library Documentation).

System: SAP HANA
Kerne: 320 (4 Server mit jeweils 80 Kernen)
RAM: 4TB (jeder Server mit 1TB RAM)
Speicherplatz: 80TB (jeder Server mit 20TB Festplattenspeicherplatz)
Netzwerk: 10Gbit/s Ethernet
Software
SAP HANA Database System
Predictive Analysis Library
Business Function Library
sap-hana-platform

Weitere Informationen

Terracotta BigMemory Max

Terracotta BigMemory Max ist eine in-memory Datenmanagement-Plattform entwickelt von der Software AG für Echtzeit-Massendaten-Anwendungen. Sie unterstützt verteilte in-memory Datenspeicher-Topologien. Dies erlaubt es, Daten in verschiedenen verteilten Caches und in-memory Speicherbereichen zu verwalten. BigMemory Max Cluster verwenden dabei Terracotta Server Arrays, um Daten, die auf mehreren Anwendungsknoten verteilt sind, zu verwalten.

BigMemory Max ist auf der SDIL-Plattform installiert und verfügbar. Momentan ist ein einzelner Terracotta-Server aktiv und konfiguriert. Dieser verwaltet Clients, koordiniert verteilte Objekte und persistiert Daten.

System: Software AG Terracotta
Kerne: ( * auf Anfrage * )
RAM: ( * auf Anfrage * )
Speicherplatz: ( * auf Anfrage * )
Software
BigMemory Max

Weitere Informationen

IBM Open Platform mit Hadoop und Spark

Mit der IBM Open Platform verfügt die SDIL-Plattform über ein Cluster von IBM Power8-Knoten mit Apache Hadoop. Dieses umfasst unter anderem Spark als dezentrale in-memory Berechnungsengine, MapReduce, Hbase, Hive und Pig. Als Basis dient unser zentrales SpectrumScale-Cluster-Dateisystem.

IBM SPSS Modeler

Der SPSS Modeler ist eine Daten- und Text-Mining-Plattform von IBM. Sie stellt zahlreiche Algorithmen unter anderem aus dem Bereichen Text-Mining, Entitätenanalyse, Entscheidungsmanagement und -optimierung zur Verfügung und erlaubt so die effiziente Entwicklung vorausschauender Modelle und die Durchführung verschiedenster Formen von Datenanalysen. (SPSS Modeler User Guide)

IBM SPSS Analytic Server

Mit unserer Installation des IBM SPSS Analytic Servers lassen sich Datenanalysen des SPSS Modelers mit der IBM Open Platform und Apache Hadoop integrieren. So wird vermieden, große Datenmengen zwischen den Systemen verschieben zu müssen. Nutzer erhalten die optimale Leistung für Analysen auf großen Datenmengen ohne komplexen Code schreiben zu müssen.

System: IBM Watson Foundation Power 8
Kerne: 140 (7 Server mit jeweils 20 Kernen)
RAM: 4TB
Speicherplatz: 300TB
Netzwerk: 40Gbit/s Ethernet
Software
IBM Open Platform with Hadoop/Spark
SPSS Modeler
SPSS Analytic Server
DB2 with BLU Acceleration
ibm-platform

Weitere Informationen

Virtualisierung und Ressourcen-Management

HTCondor

Um die SDIL-Rechenressourcen effizienter nutzen zu können und Beeinflussungen durch verschiedene Nutzer zu vermeiden, verwenden wir das HTCondor Batchsystem. Dieses verwaltet verfügbare Ressourcen und garantiert Nutzern exklusiven Zugriff auf angeforderte Ressourcen. Des weiteren verhindert HTCondor die Überlastung unserer Rechenknoten durch zu viele parallel laufende Rechnungen. Nutzer können Informationen über momentan laufende Rechnungen oder historische Informationen über eine API abfragen.

System: HTCondor
Kerne: 32 x 4 = 128
RAM: 1TB
Netzwerk: 1Gbit/s Ethernet
Software
RapidMiner
Python
R
Matlab

SDIL Sicherheit und Datenschutz

Die SDIL-Plattform wird durch mehrere gestaffelte Firewalls geschützt. Der Zugriff ist ausschließlich über spezielle Login-Maschinen möglich und nur Nutzern erlaubt, die vorher in unserem Identitäten-Management-System registriert wurden. Die Hardware selbst wird in einem abgetrennten Server-Raum mit dedizierter Zugangskontrolle betrieben.

Jede Datenverarbeitung erfolgt unter Einhaltung deutschen Datenschutzrechts. Der Zugriff auf Datenquellen ist nur möglich, wenn dieser im Vorfeld durch den Datenanbieter explizit genehmigt wurde.

Zum Schutz vor Datenverlust führen wir regelmäßige verschlüsselte Sicherungen in unserer Bandbibliothek durch. Nach Beendigung eines SDIL-Projektes werden die Daten des Projekts von der Plattform gelöscht.

Datenspeicher für Projekte

Nachdem Sie Ihren Benutzeraccount für SDIL registriert haben, können Sie Daten in die Plattform laden und verarbeiten. Für das Kopieren in die Plattform stehen die SFTP- und SCP-Protokolle zur Verfügung. Alle Nutzer erhalten ein dediziertes, privates Verzeichnis für Ihre Dateien. Für Projekte, in denen mehrere Nutzer gemeinsam arbeiten, stellen wir Projektverzeichnisse zur Verfügung, auf die nur Mitglieder des Projektes Zugriff haben.

Um Ihnen die Möglichkeit zu geben, versehentlich gelöschte oder veränderte Dateien wiederherzustellen, bieten wir verschlüsselte Dateisystem-Snapshots. Diese sind sowohl für Nutzer- als auch Projektverzeichnisse verfügbar.

Weiterführende Informationen

Für weiterführende Informationen zur Nutzung der SDIL-Plattform steht Ihnen unserer Nutzerhandbuch zur Verfügung. Die Übungen zeigen an einzelnen Beispielen, wie die Plattform mit unserer Software für Ihre Datenanalyse verwendet werden kann: