Erstellung einer Datenarchitektur

Dieser Fachartikel der Autoren Mag. Christian Gasperi und Markus Rotter, MA ist Teil der Artikelserie zum Thema "Datadriven to Success - mit der richtigen Datenstrategie zum Erfolg”.

Nachdem die Datenstrategie erfolgreich erstellt wurde, ist es an der Zeit die dazu gehörige Datenarchitektur aufzubauen. Der hier vorgestellete Lösungsansatz stellt eine zukunkftsorientierte und modulare Umsetzung dar. Das heißt, dass im Technical Layer beliebig viele Sourcen hinzugefügt und entfernt werden können, dies ist mit dem Digital Playground, eine genauere Erläuterung folgt später im Artikel, möglich. In der unten dargestellten Abbildung 1 orientieren wir uns an TOGAF.

Der Aufbau

Datenarchitektur

Abbildung 1: Datenarchitektur

Im Technical Layer befinden sich alle Quellsysteme, die relevante Daten liefern können. Dabei kann es sich um aggregierte/nicht aggregierte, strukturierte und unstrukturierte Daten handeln. Im Prinzip ist es unwesentlich wo die Sätze ihren Ursprung haben. Hilfreich bei dem Aufbau einer Architektur ist, wenn ein gut gefülltes und organisiertes DWH vorhanden ist. Denn hier wurden schon Transformationen und Business Logik auf den Daten hinterlegt und diese können somit schnell zur Verfügung gestellt werden. Es empfiehlt sich am Anfang diese Daten in den Playground zu laden. In weiterer Folge kann dieser um weitere Daten (zum Beispiel: das ERP-System, ein CRM-System, ein Tabellenkalkulationsblatt, etc.) angereichert werden, um so unter anderem ein schnelles Prototyping zu ermöglichen. Als letzten Schritt empfehlen wir den Aufbau eines Data Lakes in der Cloud, um hier eine schnelle Skalierung zu ermöglichen.

Welche Daten relevant sind, müssen und können die einzelnen Fachbereiche bestimmen, idealerweise erfolgt dies in einer gemeinsamen Übereinstimmung, hierfür könnte man ein Business Intelligence Competency Center (BICC) verwenden. Genauere Informationen was ein BICC ist, können Sie unserem Artikel Effektiv Steuern mit einem Business Intelligence Competency Center nachlesen.

Zwischen dem Technical Layer und dem Application Layer liegt der Digital Playground. Er liegt deshalb zwischen diesen beiden Layern, weil er den Übergang der Daten zwischen den beiden Ebenen darstellt. Mit einem einfachen Frontend soll es einem datenversierten Anwender/Keyuser, ohne tiefgehendes informatisches Wissen möglich sein, Daten aus den Vorsystemen zu extrahieren. Dies hat den Vorteil, dass die Ressourcen der IT nur da eingesetzt werden, wo sie auch wirklich benötigt werden.

Datenvirtualisierung

Der oben beschriebene Vorgang der Extraktion von Daten aus Vorsystemen in den Digital Playground ist in der IT-Welt besser bekannt als Datenvirtualisierung.

Was versteht man nun aber unter Datenvirtualisierung?

Es ist ein Ansatz des Datenmanagements um eine einheitliche Sicht auf Daten zu erhalten, ohne sich dabei mit den technischen Finessen wie die Art der Datenbank, physische Speicherung, Art der Datenhaltung, Datentypen etc. auseinander setzen zu müssen. Dabei steht im Vordergrund, die Datensätze aus dem Vorsystem in real-time bzw. nahe real-time zu erhalten. Anders als der klassische ETL (Extract-Transform-Load) Ansatz in einem DWH, werden die Daten nicht in einer anderen Datenbank/Dateisystem etc. abgelegt, sondern bleiben an Ort und Stelle. Dabei ist eine Transformation der Daten nicht zwingend ausgeschlossen. Das Hauptziel ist aber alle Daten qualitätsgesichert und fehlerfrei unternehmensweit durch eine Quelle (Single-Source-of-truth) den unterschiedlichen Anwendern zur Verfügung zu stellen.

Damit die Anwender genauere Informationen über die entstandenen Daten der Datenvirtualisierung erhalten, ist es wichtig sogenannte Metadaten zur Verfügung zu stellen. Metadaten sind im Prinzip nichts anderes als nähere Informationen zu den Daten. Daten einzeln betrachtet stellen keinen Mehrwert dar. Der Mehrwert entsteht durch den Zusammenhang (die Semantik).

Des Weiteren müssen die zur Verfügung gestellten Informationen/Datensätze einen gewissen Qualitätsstandard entsprechen. Diese Standards werden in jedem Unternehmen eigenständig entwickelt und müssen laufend angepasst werden. Wir reden hier von unserem Rahmenwerk in der Abbildung 1, nämlich dem Metadatenkatalog (bzw. dem Datenkatalog) und der Data Governance.

Data Governance

Ein in der Praxis bisweilen oftmals vernachlässigter Aspekt ist, dass die (Stamm)datenqualität direkten Einfluss auf das Arbeiten mit Daten hat. Umso wichtiger ist es demnach ein Bewusstsein für die Notwendigkeit einer Ablöse des „Garbage In – Garbage Out“-Paradigmas zu schaffen und entsprechende Maßnahmen zu implementieren. Eine Möglichkeit hierzu stellt die Data Governance dar. Der Begriff leitet sich vom französischen „gouverne“ ab, was unter anderem mit „steuern“ übersetzt werden kann. Dabei ist die Einführung von Maßnahmen und Standards zur Qualitätssicherung im Umgang mit Daten zu verstehen. Wir gehen an dieser Stelle bewusst nicht tiefer ins Detail, da dies den Rahmen des Artikels sprengen würde. In aller Kürze geht es um folgende Aspekte:

  1. Daten -> Damit sind die Daten gemeint, die man auch bewusst als Anlagegut (engl. Asset) betrachten kann. Hier sollen relevante Daten identifiziert, standardisiert und in Wert gesetzt werden.
  2. Rollen -> Es gibt Anwender (Users), Verwalter (Stewards und Manager) und Besitzer (Owners). Sollten Sie bereits entsprechende KeyuserInnen in Ihrem Unternehmen verankert haben (siehe unser Artikel "Effektiv sowie Effizient Arbeiten durch Keyuser") könnten diese die Rolle der Stewards übernehmen.
  3. Prozesse -> Sämtliche Prozesse mit dem Umgang mit Daten müssen bekannt sein. Dies ist ein wesentlicher Baustein für eine Datenstrategie (siehe unser Artikel „Erstellung einer Datenstrategie“). Ebenso fallen auch die organisatorischen Prozesse innerhalb der Data Governance in diesen Bereich.
  4. Sicherheit und Einhaltung -> Die Integrität und Zugriffe werden durch entsprechende Maßnahmen und Standards gesichert. Hier bekommt die/der „Chief Information Security Officer“ (CISO) eine tragende Rolle. Die Datenschutzgrundverordnung (DSGVO) muss hierbei zusätzlich zur Einhaltung (Compliance) dieser Standards berücksichtigt werden.
  5. Architektur -> Eine passende Architektur stellt die optimale technische Umsetzung der oben genannten Aspekte sicher.

Metadatenkatalog

Die bereits erwähnten Metadaten werden zum Objekt gespeichert und zentral verwaltet (Metadatenkatalog). Die Sammlung etwaiger mehrerer Metadatenkataloge stellt den Datenkatalog dar. Diese Sammlung unterstützt die/den AnwenderIn schnell an die gewünschten Informationen zu kommen, indem ein umfassendes Nachschlagewerk über die Bedeutung der Daten in allen Metadatenkatalogen geboten wird bzw. die Suche nach Informationen effizienter gestaltet.

Zur Verdeutlichung der Zusammenhänge wird ein einfaches Beispiel in Form der KFZ-Zulassungspapiere gewählt. Hier finden sich Informationen zur/zum FahrzeughalterIn, Marke, Farbe, Motorisierung, etc. Diese Daten sind die Metadaten. Die Zulassung an sich kann in diesem Kontext als der Metadatenkatalog gesehen werden. Wenn Sie nun nähere Information zum Fahrzeug wollen, so müssen sie einen weiteren/anderen Metadatenkatalog ansehen, den Typenschein. Eine Kartei die Ihnen sagt, welche Information Sie im Typenschein und welche Sie in der Zulassung finden, ist ihr Datenkatalog.

Es liegt also auf der Hand, dass die Nutzung eines Datenkataloges einen zentralen Erfolgsfaktor in der Inwertsetzung von Daten darstellt.

Im Application Layer befinden sich die verschiedenen Softwareprodukte, die ausschließlich auf den Digital Playground zugreifen. Ein direktes Schreiben auf den Technical Layer ist nicht erlaubt. Jedoch können neu gewonnen Informationen in den Playground zurückgeschrieben werden, die dann wiederrum allen anderen Anwendern zur Verfügung gestellt werden können.

Im Business Layer finden sich die Fachprozesse wieder, welche die Applikationen nutzen bzw. die beiden anderen Layer im Rahmen der Anforderungen durch die Strategie auch prägen.

Schlussbetrachtung

Die hier dargestellte drei schichtige Architektur stellt eine beispielhafte Umsetzung dar und ist bewusst sehr generisch gehalten. Denn die Anforderungen und Herausforderungen sind von Unternehmen zu Unternehmen heterogen. Dies muss sich in einer angepassten Datenarchitektur wieder spiegeln, denn das Rahmenwerk hat nur ein Ziel, die Geschäftsprozesse bestmöglich zu unterstützen. Die daraus resultierende datengesteuerte Strategie bzw. ein datengesteuerter Entscheidungsprozess im Unternehmen sollten einen Erfolgsfaktor für das Unternehmen darstellen.

Über die Autoren

Mag. Christian Gasperi Markus Rotter, MA

Mag. Christian Gasperi ist seit den 2000ern in der IT tätig und hat in dieser Zeit Erfahrungen mit Business Intelligence, Datawarehousing, Geoinformatik, Datenbanken, IT-Architektur, Systemarchitektur, Projektmanagement und lateraler Mitarbeiterführung gemacht. Markus Rotter, MA ist seit den 2000ern in der IT tätig und hat in dieser Zeit Erfahrungen mit IT-Management, Business Intelligence, Datawarehousing, Datenbanken, Systemadministration, IT-Architekturen, Mitarbeiterführung und Projektmanagement gemacht.
Homepage Homepage
Xing Profil Xing Profil

 

Zurück

Übersicht der Artikel

Dieser Beitrag stellt die wichtigsten Erkenntnisse des BARC Trend Monitors 2019 vor.

Weiterlesen

Dieser Artikel beschreibt ein mögliches Konzept für ein Datawarehouse, welches sich an den Prinzipien der Bimodalität und der logischen Integration orientiert.

Weiterlesen

Dieser Artikel beschreibt einen Ansatz. um ein IT-Service zu definieren und zu dokumentieren.

Weiterlesen

Dieser Artikel stellt eine Möglichkeit drojekte im Reporting- und Analyticsumfeld umzusetzen dar.

Weiterlesen