Eine Anomalie wird im Allgemeinen als Abweichung von der Norm und vom erwarteten Verhalten definiert. Solche Anomalien weisen häufig auf Vorfälle und Konstellationen hin, die sofortige Aufmerksamkeit und Reaktion erfordern. In einem sozialen Netzwerk kann eine Anomalie auf spontane Anziehungskräfte wie Demonstrationen hinweisen. Ihre frühzeitige Erkennung ist entscheidend für die weitere Steuerung. In Bezug auf Graphendaten können Anomalien als Teilgraphen modelliert werden, bei denen die Knoten signifikant von den Normattributwerten und Kantenverteilungen abweichen. Bei dynamischen Graphen können auch historische Verhältnisse berücksichtigt werden.
Bestehende Methoden zur Erkennung von Anomalien in Graphendaten basieren größtenteils auf einer statistischen Analyse des Graphen. Einige Methoden sind in der Lage, heterogene Graphen auszuwerten, in denen unterschiedliche Knotentypen unterschiedlich behandelt und ausgewertet werden. Dies ist besonders vorteilhaft, um komplexe Datenstrukturen mit einer Vielzahl unterschiedlicher Entitäten zu verarbeiten.
Andere Methoden haben sich auf eine einheitliche Bewertung der festgestellten Anomalien spezialisiert, um die Ergebnisse zwischen den einzelnen Anomalien besser vergleichen und deren Schwere abschätzen zu können. Dies ist wichtig für die Interpretation der Ergebnisse, da der Benutzer eine festgestellte Anomalie mit anderen zuvor ausgewerteten Anomalien vergleichen kann. Der Benutzer kann dadurch den Schweregrad der Anomalie beurteilen und entscheiden, wie vorzugehen ist.
Bisher gibt es keine Methode, die beide Aspekte kombiniert: Eine Methode, um festgestellte Anomalien in heterogenen Diagrammen einheitlich auszuwerten. Beide Aspekte sind jedoch in vielen Anwendungen erforderlich, um aussagekräftige Ergebnisse zu erzielen. Darüber hinaus gibt es im Bereich der Erkennung und Auswertung von Anomalien nur wenige Verfahren, die für den Echtzeitbetrieb ausgelegt sind. Dies ist bei der kontinuierlichen Überwachung von Datensätzen und insbesondere bei Anomalien, die eine rechtzeitige Behandlung erfordern, von entscheidender Bedeutung.
Ziel des Projektes ist es, eine Methode für dynamische heterogene Graphen zu entwickeln, mit der Anomalien kontinuierlich erkannt und ausgewertet werden können. Dabei sollte das Verfahren für den Echtzeit-Service ausgelegt sein und permanent mit einem Strom neuer Daten versorgt werden. Darüber hinaus sollte die Methode skalierbar sein und große Datenmengen verarbeiten können. Dazu ist nicht nur ein speziell an dieses Problem angepasster Algorithmus erforderlich, sondern es werden auch Index- und Datenstrukturen unterstützt, die einen effizienten Zugriff auf historische Daten ermöglichen. Die Anwendbarkeit und Praktikabilität des Verfahrens sollte im Verlauf des Projekts anhand einer prototypischen Implementierung beurteilt werden, für die wir die SDIL-Plattform nutzen wollen.
Data Innovation Community
Smart Infrastructure
Ansprechpartner
Simon Sudrich, KIT, sudrich@teco.edu
Zeitraum
Dezember 2017 – April 2018