Assoziationsregeln für Hochdimensionale Stammdaten

Es gibt mehrere Herangehensweisen für Assoziationsregeln in großen Datensätzen. Als typische Anwendungsgebiete gelten die Warenkorb-Analyse, medizinische Diagnostik, biomedizinische Literatur, Proteinsequenzen, Volkszählungsdaten, logistische Regression und Betrugserkennung. Es gibt allerding kaum bekannte Ansätze für Assoziationsregeln im Bereich der Stammdaten (engl. Master Data).

Stammdaten sind jedoch ein Schlüsselfaktor für Unternehmen heutzutage. Sie sind die einzige Quelle für Geschäftsobjekte im gesamten Unternehmen. Die Qualität der Stammdaten ist von entscheidender Bedeutung für die Organisationen, da Geschäftsentscheidungen von ihr abhängen. Deshalb ist mehr Einsatz erforderlich, um eine hohe Qualität der Stammdaten zu gewährleisten. Normalerweise nutzen Organisationen regelbasierte Ansätze, um Mängel in den Stammdaten zu ermitteln. Eine Definition dieser Regeln ist für Organisationen aber einerseits außerordentlich teuer, und andererseits eingeschränkt durch die Verfügbarkeit von Ressourcen mit entsprechender Fachkompetenz.

Das Ziel dieses Projekt war es, mittels vorgeschlagener Validierungsregeln zu bewerten, inwiefern die Anwendung von Ansätze wie denen der Assoziationsregeln den Experten für Stammdaten als mögliche Unterstützung dienen können.

Herausforderungen

Die Vision dieses Projekts ist es, die Anwendbarkeit von Assoziationsregel-Mining-Techniken einzuführen, um Validierungsregeln aus hochdimensionalen Daten im Allgemeinen zu identifizieren und den Ansatz für Stammdaten im Besonderen anzupassen. Für den Bereich Stammdaten erwarten wir von diesem Projekt hinsichtlich Komplexität und Diversität einen optimierten Assoziationsregel-Mining-Algorithmus. Dieser Algorithmus kann dann als Ansatz zur Stammdatenanalyse für verschiedene Branchenanwendungen verallgemeinert werden.

Vision

Im Allgemeinen ist es erforderlich, frühere Arbeiten zum Assoziationsregel-Mining auszuwerten und die besonderen Herausforderungen beim Arbeiten mit Stammdaten zu spezifizieren. Das Forschungsziel dieses Projekts lässt sich in drei Fragen unterteilen:

  1. Wie kann man häufig auftretende Sets effizient erkennen und aus den häufig auftretenden Itemsets Assoziationsregeln generieren?
  2. Wie validiere und bewerte ich die resultierenden Assoziationsregeln mit entsprechend definierten Metriken?
  3. Wie können die resultierenden Assoziationsregeln als effiziente Filterung für eine Entscheidungsunterstützung durch den Domain-Experten verwendet werden? Im Fall der möglichen Generierung von Tausenden von Regeln, ist es möglicherweise schwierig, die Analysen der Ergebnisse von einem Domänenexperten durchzuführen.

Ergebnis

Das kürzlich abgeschlossene SDIL-Projekt nutzte regelbasierte Ansätze in Kombination mit überwachtem maschinellem Lernen, um interessante Muster in einem einzigartigen industriellen Datensatz zu entdecken, die von SAP innerhalb des SDIL bereitgestellt wurden. Lesen Sie den Artikel über die Projektergebnisse unter: http://www.sdil.de/downloads/sdic-2016-konferenzband.pdf#page=48

Projektpartner

KIT, SAP

Ansprechpartner

Dr. Peter Neumayer, peter.neumayer@sap.com

Zeitraum

Jan 2016 – Aug 2016