Was ist dimensionale Modellierung im Data Warehouse?

Dimensionale Modellierung

Dimensionale Modellierung (DM) ist eine Datenstrukturtechnik, die für die Datenspeicherung in einem Data Warehouse optimiert ist. Der Zweck der dimensionalen Modellierung ist die Optimierung der Datenbank für einen schnelleren Abruf von Daten. Das Konzept der dimensionalen Modellierung wurde von Ralph Kimball entwickelt und besteht aus „Fakten-“ und „Dimensionstabellen“.

Ein dimensionales Modell in einem Data Warehouse ist darauf ausgelegt, numerische Informationen wie Werte, Salden, Zählungen, Gewichte usw. zu lesen, zusammenzufassen und zu analysieren. Im Gegensatz dazu sind Relationenmodelle für das Hinzufügen, Aktualisieren und Löschen von Daten in einem Online-Transaktionssystem in Echtzeit optimiert.

Diese dimensionalen und relationalen Modelle haben ihre eigene Art der Datenspeicherung, die spezifische Vorteile hat.

Beim relationalen Modell wird beispielsweise durch Normalisierung und ER-Modelle die Redundanz der Daten reduziert. Im Gegensatz dazu ordnet das dimensionale Modell im Data Warehouse die Daten so an, dass es einfacher ist, Informationen abzurufen und Berichte zu erstellen.

Dimensionale Modelle werden daher in Data-Warehouse-Systemen verwendet und eignen sich nicht für relationale Systeme.

In diesem Lernprogramm, werden Sie lernen-

  • Elemente des dimensionalen Datenmodells
  • Fakt
  • Dimension
  • Attribute
  • Faktentabelle
  • Dimensionstabelle
  • Arten von Dimensionen im Data Warehouse
  • Schritte der dimensionalen Modellierung
  • Schritt 1) Identifizieren des Geschäftsprozesses
  • Schritt 2) Identifizieren des Korns
  • Schritt 3) Identifizieren der Dimensionen
  • Schritt 4) Identifizieren des Fakts
  • Schritt 5) Erstellen des Schemas
  • Regeln für die dimensionale Modellierung
  • Vorteile der dimensionalen Modellierung

Elemente des dimensionalen Datenmodells

Fakt

Fakten sind die Messungen/Metriken oder Fakten aus Ihrem Geschäftsprozess. Für einen Geschäftsprozess im Bereich Vertrieb wäre eine Messung die vierteljährliche Umsatzzahl

Dimension

Dimensionen liefern den Kontext, in dem ein Geschäftsprozessereignis stattfindet. Einfach ausgedrückt: Sie geben an, wer, was und wo ein Faktum ist. Im Geschäftsprozess „Verkauf“ würden die Dimensionen für den Fakt „Quartalsumsatz“ wie folgt lauten:

  • Wer – Kundennamen
  • Wo – Standort
  • Was – Produktname

Mit anderen Worten, eine Dimension ist ein Fenster zur Anzeige von Informationen in den Fakten.

Attribute

Die Attribute sind die verschiedenen Merkmale der Dimension in der dimensionalen Datenmodellierung.

In der Dimension Standort können die Attribute

  • Bundesland
  • Land
  • Postleitzahl usw.

Attribute werden zum Suchen, Filtern oder Klassifizieren von Fakten verwendet. Dimensionstabellen enthalten Attribute

Faktentabelle

Eine Faktentabelle ist eine Primärtabelle in der Dimensionsmodellierung.

Eine Faktentabelle enthält

  1. Maße/Fakten
  2. Fremdschlüssel zur Dimensionstabelle

Dimensionstabelle

  • Eine Dimensionstabelle enthält Dimensionen eines Fakts.
  • Sie werden über einen Fremdschlüssel mit der Faktentabelle verbunden.
  • Dimensionstabellen sind de-normalisierte Tabellen.
  • Die Dimensionsattribute sind die verschiedenen Spalten in einer Dimensionstabelle
  • Dimensionen bieten mit Hilfe ihrer Attribute beschreibende Merkmale der Fakten
  • Es gibt keine feste Grenze für die Anzahl der Dimensionen
  • Die Dimension kann auch eine oder mehrere hierarchische Beziehungen enthalten

Arten von Dimensionen im Data Warehouse

Nachfolgend sind die Arten von Dimensionen im Data Warehouse aufgeführt:

  • Conformed Dimension
  • Outrigger Dimension
  • Shrunken Dimension
  • Role-Playing Dimension
  • Dimension to Dimension Table
  • Junk Dimension
  • Degenerate Dimension
  • Swappable Dimension
  • Step Dimension

Schritte der dimensionalen Modellierung

Die Genauigkeit bei der Erstellung Ihrer dimensionalen Modellierung bestimmt den Erfolg Ihrer Data Warehouse-Implementierung. Hier sind die Schritte zur Erstellung eines Dimensionsmodells

  1. Geschäftsprozess identifizieren
  2. Grain (Detailebene) identifizieren
  3. Dimensionen identifizieren
  4. Fakten identifizieren
  5. Stern aufbauen

Das Modell sollte das Warum beschreiben, Wieviel, Wann/Wo/Wer und Was Ihres Geschäftsprozesses

Schritt 1) Identifizieren Sie den Geschäftsprozess

Bestimmen Sie den eigentlichen Geschäftsprozess, den ein Datenhaus abdecken soll. Das kann Marketing, Vertrieb, Personalwesen usw. sein, je nach den Datenanalyseanforderungen des Unternehmens. Die Auswahl des Geschäftsprozesses hängt auch von der Qualität der für diesen Prozess verfügbaren Daten ab. Dies ist der wichtigste Schritt des Datenmodellierungsprozesses, und ein Fehler in diesem Bereich hätte kaskadenartige und irreparable Schäden zur Folge.

Um den Geschäftsprozess zu beschreiben, kann man einfachen Text verwenden oder die grundlegende Business Process Modelling Notation (BPMN) oder die Unified Modelling Language (UML) nutzen.

Schritt 2) Identifizieren des Grains

Das Grain beschreibt den Detaillierungsgrad des Geschäftsproblems/der Lösung. Es ist der Prozess der Identifizierung der niedrigsten Informationsebene für jede Tabelle in Ihrem Data Warehouse. Wenn eine Tabelle Verkaufsdaten für jeden Tag enthält, dann sollte sie eine tägliche Granularität haben. Wenn eine Tabelle Umsatzdaten für jeden Monat enthält, dann hat sie eine monatliche Granularität.

In dieser Phase beantworten Sie Fragen wie

  1. Müssen wir alle verfügbaren Produkte oder nur einige wenige Produkttypen speichern? Diese Entscheidung hängt von den Geschäftsprozessen ab, die für das Datawarehouse ausgewählt wurden
  2. Speichern wir die Informationen über den Produktverkauf auf monatlicher, wöchentlicher, täglicher oder stündlicher Basis? Diese Entscheidung hängt von der Art der von den Führungskräften angeforderten Berichte ab
  3. Wie wirken sich die beiden oben genannten Entscheidungen auf die Datenbankgröße aus?

Beispiel für Getreide:

Der Geschäftsführer eines multinationalen Konzerns möchte die Umsätze für bestimmte Produkte an verschiedenen Standorten auf Tagesbasis ermitteln.

Das Korn ist also „Produktverkaufsinformationen nach Standort auf Tagesbasis“.

Schritt 3) Identifizieren Sie die Dimensionen

Dimensionen sind Substantive wie Datum, Filiale, Bestand usw. Diese Dimensionen sind der Ort, an dem alle Daten gespeichert werden sollen. Zum Beispiel kann die Datumsdimension Daten wie Jahr, Monat und Wochentag enthalten.

Beispiel für Dimensionen:

Der Geschäftsführer eines multinationalen Konzerns möchte die Umsätze für bestimmte Produkte an verschiedenen Standorten auf Tagesbasis ermitteln.

Dimensionen: Produkt, Ort und Zeit

Attribute: Für Produkt: Produktschlüssel (Fremdschlüssel), Name, Typ, Spezifikationen

Hierarchien: Für Ort: Land, Bundesland, Stadt, Adresse, Name

Schritt 4) Identifizieren des Fakts

Dieser Schritt ist mit den Geschäftsanwendern des Systems verknüpft, da sie hier Zugang zu den im Data Warehouse gespeicherten Daten erhalten. Die meisten Zeilen der Faktentabelle sind numerische Werte wie Preis oder Kosten pro Einheit usw.

Beispiel für Fakten:

Der CEO eines multinationalen Konzerns möchte die Umsätze für bestimmte Produkte an verschiedenen Standorten auf Tagesbasis ermitteln.

Das Faktum ist hier die Summe der Verkäufe nach Produkt, Ort und Zeit.

Schritt 5) Schema erstellen

In diesem Schritt implementieren Sie das Dimensionsmodell. Ein Schema ist nichts anderes als die Datenbankstruktur (Anordnung der Tabellen). Es gibt zwei gängige Schemata

  1. Sternschema

Die Sternschema-Architektur ist einfach zu entwerfen. Es wird Sternschema genannt, weil das Schema einem Stern ähnelt, mit Punkten, die strahlenförmig von einem Zentrum ausgehen. Das Zentrum des Sterns besteht aus der Faktentabelle, und die Punkte des Sterns sind Dimensionstabellen.

Die Faktentabellen in einem Sternschema haben die dritte Normalform, während Dimensionstabellen de-normalisiert sind.

  1. Schneeflockenschema

Das Schneeflockenschema ist eine Erweiterung des Sternschemas. In einem Schneeflockenschema sind die einzelnen Dimensionen normalisiert und mit weiteren Dimensionstabellen verbunden.

Regeln für die dimensionale Modellierung

Nachfolgend sind die Regeln und Prinzipien der dimensionalen Modellierung aufgeführt:

  • Laden Sie atomare Daten in dimensionale Strukturen.
  • Bauen Sie dimensionale Modelle um Geschäftsprozesse herum auf.
  • Stellen Sie sicher, dass jede Faktentabelle eine zugehörige Datums-Dimensionstabelle hat.
  • Stellen Sie sicher, dass alle Fakten in einer einzelnen Faktentabelle die gleiche Detailtiefe haben.
  • Es ist wichtig, Berichtsbezeichnungen und Filterbereichswerte in Dimensionstabellen zu speichern
  • Sie müssen sicherstellen, dass Dimensionstabellen einen Ersatzschlüssel verwenden
  • Ständig Anforderungen und Realitäten abwägen, um eine Geschäftslösung zur Unterstützung der Entscheidungsfindung zu liefern

Vorteile der dimensionalen Modellierung

  • Die Standardisierung von Dimensionen ermöglicht eine einfache Berichterstattung über verschiedene Geschäftsbereiche hinweg.
  • Dimensionstabellen speichern die Historie der Dimensionsinformationen.
  • Es ist möglich, völlig neue Dimensionen einzuführen, ohne die Faktentabelle wesentlich zu stören.
  • Dimensionen speichern auch Daten so, dass es einfacher ist, die Informationen aus den Daten abzurufen, sobald die Daten in der Datenbank gespeichert sind.
  • Im Vergleich zum normalisierten Modell sind Dimensionstabellen einfacher zu verstehen.
  • Informationen werden in übersichtliche und einfache Geschäftskategorien gruppiert.
  • Das dimensionale Modell ist für das Unternehmen sehr verständlich. Dieses Modell basiert auf Geschäftsbegriffen, so dass das Unternehmen weiß, was jeder Fakt, jede Dimension oder jedes Attribut bedeutet.
  • Dimensionale Modelle sind deformalisiert und für schnelle Datenabfragen optimiert. Viele relationale Datenbankplattformen erkennen dieses Modell und optimieren Abfrageausführungspläne, um die Leistung zu verbessern.
  • Dimensionale Modellierung im Data Warehouse schafft ein Schema, das für hohe Leistung optimiert ist. Es bedeutet weniger Joins und hilft bei der Minimierung der Datenredundanz.
  • Das dimensionale Modell trägt auch zur Steigerung der Abfrageleistung bei. Es ist stärker denormalisiert und daher für Abfragen optimiert.
  • Dimensionale Modelle können sich bequem an Änderungen anpassen. Dimensionstabellen können um weitere Spalten ergänzt werden, ohne dass bestehende Business Intelligence-Anwendungen, die diese Tabellen verwenden, beeinträchtigt werden.

Was ist ein mehrdimensionales Datenmodell im Data Warehouse?

Mehrdimensionales Datenmodell im Data Warehouse ist ein Modell, das Daten in Form von Datenwürfeln darstellt. Es ermöglicht die Modellierung und Ansicht der Daten in mehreren Dimensionen und wird durch Dimensionen und Fakten definiert. Das mehrdimensionale Datenmodell ist im Allgemeinen um ein zentrales Thema herum kategorisiert und wird durch eine Faktentabelle dargestellt.

Zusammenfassung:

  • Ein dimensionales Modell ist eine Datenstrukturtechnik, die für Data-Warehousing-Tools optimiert ist.
  • Fakten sind die Messungen/Metriken oder Fakten aus Ihrem Geschäftsprozess.
  • Dimensionen liefern den Kontext, der ein Geschäftsprozessereignis umgibt.
  • Attribute sind die verschiedenen Merkmale der Dimensionsmodellierung.
  • Eine Faktentabelle ist eine primäre Tabelle in einem Dimensionsmodell.
  • Eine Dimensionstabelle enthält Dimensionen eines Fakts.
  • Es gibt drei Arten von Fakten 1. Additiv 2. Nicht-additiv 3. Semi-additiv.
  • Typen von Dimensionen sind Konforme, Outrigger, Schrumpfende, Rollenspiel, Dimension zu Dimensionstabelle, Junk, Degenerierte, Swappable und Step Dimensions.
  • Fünf Schritte der dimensionalen Modellierung sind 1. Identifizieren Sie den Geschäftsprozess 2. Identifiziere Grain (Detaillierungsgrad) 3. Identifizieren von Dimensionen 4. Identifiziere Fakten 5. Build Star
  • Für die dimensionale Modellierung im Data Warehouse muss sichergestellt werden, dass jede Faktentabelle eine zugehörige Datumsdimensionstabelle hat.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.