Wat is dimensionale modellering in een data warehouse?

Dimensional Modeling

Dimensional Modeling (DM) is een gegevensstructuurtechniek die is geoptimaliseerd voor gegevensopslag in een Data Warehouse. Het doel van dimensionele modellering is het optimaliseren van de database voor het sneller terugvinden van gegevens. Het concept van Dimensionele Modellering werd ontwikkeld door Ralph Kimball en bestaat uit “feit” en “dimensie” tabellen.

Een dimensioneel model in een data warehouse is ontworpen om numerieke informatie zoals waarden, balansen, tellingen, gewichten, enz. in een data warehouse te lezen, samen te vatten en te analyseren. Relatiemodellen daarentegen zijn geoptimaliseerd voor het toevoegen, bijwerken en verwijderen van gegevens in een real-time Online Transactie Systeem.

Deze dimensionale en relationele modellen hebben hun eigen unieke manier van gegevensopslag die specifieke voordelen heeft.

Bijv. in het relationele model verminderen normalisatie en ER-modellen de redundantie in de gegevens. Het dimensionale model in het data warehouse daarentegen ordent de gegevens op een zodanige wijze dat het gemakkelijker is informatie op te vragen en rapporten te genereren.

Dimensionale modellen worden dus gebruikt in data warehouse-systemen en passen niet goed bij relationele systemen.

In deze tutorial, zult u leren-

  • Elementen van dimensioneel gegevensmodel
  • Feit
  • Dimensie
  • Attributen
  • Feittabel
  • Dimensietabel
  • Soorten dimensies in gegevensmagazijn
  • Stappen van dimensioneel modelleren
  • Stap 1) Identificeer het bedrijfsproces
  • Stap 2) Identificeer de grain
  • Stap 3) Identificeer de Dimensies
  • Stap 4) Identificeer het Feit
  • Stap 5) Bouw Schema
  • Regels voor Dimensioneel Modelleren
  • Voordelen van Dimensioneel Modelleren

Elementen van Dimensioneel Data Model

Feit

Facten zijn de metingen/metrieken of feiten uit uw bedrijfsproces. Voor een Verkoopproces zou een meting het kwartaalverkoopaantal zijn

Dimensie

Dimensie verschaft de context rond een bedrijfsprocesgebeurtenis. In eenvoudige termen, ze geven wie, wat, waar van een feit. In het bedrijfsproces Verkoop, voor het feit kwartaalverkoop aantal, dimensies zou zijn

  • Wie – Klant Namen
  • Waar – Locatie
  • Wat – Product Naam

Met andere woorden, een dimensie is een venster om informatie in de feiten te bekijken.

Attributen

De Attributen zijn de verschillende kenmerken van de dimensie in dimensionele datamodellering.

In de dimensie Locatie kunnen de attributen

  • State
  • Country
  • Zipcode enz.

Attributen worden gebruikt om feiten te zoeken, te filteren, of te classificeren. Dimensietabellen bevatten Attributen

Feittabel

Een feitentabel is een primaire tabel in dimensiemodellering.

Een feitentabel bevat

  1. Metingen/facten
  2. Voormalige sleutel tot dimensietabel

Dimensietabel

  • Een dimensietabel bevat dimensies van een feit.
  • Ze zijn verbonden met de feitentabel via een foreign key.
  • Dimensietabellen zijn gedenormaliseerde tabellen.
  • De dimensie-attributen zijn de verschillende kolommen in een dimensietabel
  • Dimensies bieden beschrijvende kenmerken van de feiten met behulp van hun attributen
  • Geen vaste limiet gesteld voor het aantal dimensies
  • De dimensie kan ook een of meer hiërarchische relaties bevatten

Soorten dimensies in Data Warehouse

Volgende zijn de Soorten dimensies in Data Warehouse:

  • Gevormde dimensie
  • Outrigger-dimensie
  • Gevormde dimensie
  • Rol-dimensie
  • Rol-dimensie
  • Rol-dimensie
  • Dimensie
  • .spelen dimensie

  • Dimensie naar Dimensionentabel
  • Junk dimensie
  • Degenereerbare dimensie
  • Swappable dimensie
  • Step dimensie

Stappen van Dimensioneel Modelleren

De nauwkeurigheid in het creëren van uw Dimensioneel modelleren bepaalt het succes van uw data warehouse implementatie. Hier zijn de stappen om Dimensioneel Model te maken

  1. Identificeer Bedrijfsproces
  2. Identificeer Korrel (niveau van detail)
  3. Identificeer Dimensies
  4. Identificeer Feiten
  5. Bouw Ster

Het model moet het Waarom beschrijven, Hoeveel, Wanneer/Waar/Wie en Wat van uw bedrijfsproces

Stap 1) Identificeer het bedrijfsproces

Het identificeren van het feitelijke bedrijfsproces dat een datarehouse zou moeten bestrijken. Dit kan Marketing, Verkoop, HR, enz. zijn, volgens de gegevensanalysebehoeften van de organisatie. De keuze van het bedrijfsproces hangt ook af van de kwaliteit van de gegevens die voor dat proces beschikbaar zijn. Het is de belangrijkste stap van het Data Modelling proces, en een mislukking hier zou cascade en onherstelbare defecten hebben.

Om het bedrijfsproces te beschrijven, kunt u gewone tekst gebruiken of de basis Business Process Modelling Notation (BPMN) of Unified Modelling Language (UML).

Stap 2) Identificeer de korrel

De korrel beschrijft het niveau van detail voor het bedrijfsprobleem/de oplossing. Het is het proces van het identificeren van het laagste niveau van informatie voor elke tabel in uw data warehouse. Als een tabel verkoopgegevens bevat voor elke dag, dan moet het dagelijkse korrelgrootte zijn. Als een tabel totale verkoopgegevens voor elke maand bevat, dan heeft het maandelijkse granulariteit.

In deze fase beantwoordt u vragen als

  1. Moeten we alle beschikbare producten opslaan of slechts een paar soorten producten? Deze beslissing hangt af van de bedrijfsprocessen die voor Datawarehouse zijn geselecteerd
  2. Slaan we de verkoopinformatie van producten op maandelijkse, wekelijkse, dagelijkse of uurlijkse basis op? Deze beslissing hangt af van de aard van de rapporten die door leidinggevenden worden gevraagd
  3. Hoe beïnvloeden de bovenstaande twee keuzes de databasegrootte?

Voorbeeld van Grain:

De CEO van een MNC wil de verkopen voor specifieke producten op verschillende locaties per dag vinden.

Dus, de korrel is “productverkoopinformatie per locatie per dag”.

Stap 3) Identificeer de dimensies

Dimensies zijn zelfstandige naamwoorden zoals datum, winkel, inventaris, enz. Deze dimensies zijn de plaatsen waar alle gegevens moeten worden opgeslagen. Bijvoorbeeld, de datumdimensie kan gegevens bevatten zoals een jaar, maand en weekdag.

Voorbeeld van dimensies:

De CEO van een MNC wil de verkopen voor specifieke producten op verschillende locaties op dagbasis vinden.

Dimensies: Product, Plaats en Tijd

Attributen: Voor Product: Productsleutel (Foreign Key), Naam, Type, Specificaties

Hiërarchieën: Voor Locatie: Land, Staat, Stad, Straatadres, Naam

Stap 4) Identificeer het Feit

Deze stap wordt in verband gebracht met de zakelijke gebruikers van het systeem, omdat dit de plaats is waar zij toegang krijgen tot de gegevens die in het data warehouse zijn opgeslagen. De meeste rijen in de feitentabel zijn numerieke waarden, zoals prijs of kosten per eenheid, enz.

Voorbeeld van feiten:

De CEO van een MNC wil de verkopen voor specifieke producten op verschillende locaties op dagbasis vinden.

Het feit hier is Som van de verkoop per product per locatie per tijd.

Stap 5) Bouw Schema

In deze stap implementeert u het Dimension Model. Een schema is niets anders dan de databasestructuur (ordening van tabellen). Er zijn twee populaire schema’s

  1. Star Schema

De architectuur van het sterrenschema is eenvoudig te ontwerpen. Het wordt een sterrenschema genoemd omdat het schema lijkt op een ster, met punten die uitstralen vanuit een centrum. Het centrum van de ster bestaat uit de feitentabel, en de punten van de ster zijn dimensietabellen.

De feitentabellen in een sterschema zijn derde normale vorm, terwijl de dimensietabellen de-normaal zijn.

  1. Snowflake Schema

Het snowflake-schema is een uitbreiding van het sterrenschema. In een snowflake-schema zijn alle dimensies genormaliseerd en verbonden met meer dimensietabellen.

Regels voor dimensionale modellering

Volgende zijn de regels en principes van dimensionale modellering:

  • Laad atomaire gegevens in dimensionale structuren.
  • Bouw dimensionale modellen rond bedrijfsprocessen.
  • Zorg ervoor dat elke feitentabel een bijbehorende datumdimensietabel heeft.
  • Zorg ervoor dat alle feiten in een enkele feitentabel op dezelfde korrel of detailniveau zijn.
  • Het is essentieel om rapportlabels en filterdomeinwaarden op te slaan in dimensietabellen
  • Zorg ervoor dat dimensietabellen een surrogaatsleutel gebruiken
  • Geef voortdurend evenwicht tussen vereisten en realiteiten om bedrijfsoplossing te leveren ter ondersteuning van hun besluitvorming

Voordelen van dimensionale modellering

  • Standaardisatie van dimensies maakt eenvoudige rapportage over gebieden van het bedrijf mogelijk.
  • Dimensionale tabellen slaan de historie van de dimensionale informatie op.
  • Het maakt het mogelijk om geheel nieuwe dimensie te introduceren zonder grote verstoringen van de fact tabel.
  • Dimensionale ook om gegevens op te slaan op een zodanige wijze dat het gemakkelijker is om de informatie op te halen uit de gegevens zodra de gegevens zijn opgeslagen in de database.
  • Vergeleken met het genormaliseerde model dimensionale tabel zijn gemakkelijker te begrijpen.
  • Informatie is gegroepeerd in duidelijke en eenvoudige bedrijfscategorieën.
  • Het dimensionale model is zeer begrijpelijk voor de business. Dit model is gebaseerd op bedrijfstermen, zodat de business weet wat elk feit, dimensie of attribuut betekent.
  • Dimensionale modellen zijn gedeformaliseerd en geoptimaliseerd voor snelle query’s op gegevens. Veel relationele databaseplatforms herkennen dit model en optimaliseren de plannen voor de uitvoering van query’s om de prestaties te helpen.
  • Dimensionale modellering in datawarehouse creëert een schema dat is geoptimaliseerd voor hoge prestaties. Het betekent minder joins en helpt bij het minimaliseren van redundantie van gegevens.
  • Het dimensionale model helpt ook om query prestaties te verbeteren. Het is meer gedenormaliseerd dus het is geoptimaliseerd voor query’s.
  • Dimensionale modellen kunnen gemakkelijk veranderingen verwerken. Dimension tabellen kunnen meer kolommen toegevoegd zonder gevolgen voor de bestaande business intelligence toepassingen met behulp van deze tabellen.

Wat is een multi-dimensionaal gegevensmodel in een data warehouse?

Multi-dimensionaal gegevensmodel in een data warehouse is een model dat gegevens weergeeft in de vorm van gegevenskubussen. Het maakt het mogelijk om de gegevens in meerdere dimensies te modelleren en te bekijken en het wordt gedefinieerd door dimensies en feiten. Multidimensionale gegevens model is over het algemeen gecategoriseerd rond een centraal thema en vertegenwoordigd door een feit tabel.

Samenvatting:

  • Een dimensioneel model is een gegevensstructuurtechniek die is geoptimaliseerd voor Data warehousing tools.
  • Facts zijn de metingen/metrieken of feiten uit uw bedrijfsproces.
  • Dimension biedt de context rond een bedrijfsprocesgebeurtenis.
  • Attributen zijn de verschillende kenmerken van de dimensie modellering.
  • Een feitentabel is een primaire tabel in een dimensioneel model.
  • Een dimensie tabel bevat dimensies van een feit.
  • Er zijn drie soorten feiten 1. Additief 2. Niet-additief 3. Semi-additief .
  • Types van Dimensies zijn Conformed, Outrigger, Shrunken, Role-playing, Dimension to Dimension Table, Junk, Degenerate, Swappable en Step Dimensions.
  • Vijf stappen van dimensionaal modelleren zijn 1. Identificeer Bedrijfsproces 2. Identify Grain (niveau van detail) 3. Identificeer Dimensies 4. Identificeer Feiten 5. Build Star
  • Voor Dimensionele modellering in data warehouse, is er een noodzaak om ervoor te zorgen dat elke feit tabel een bijbehorende datum dimensie tabel heeft.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.