Hvad er dimensionel modellering i datawarehouse?

Dimensional Modeling

Dimensional Modeling (DM) er en datastrukturteknik, der er optimeret til datalagring i et datawarehouse. Formålet med dimensionel modellering er at optimere databasen med henblik på hurtigere hentning af data. Begrebet dimensionel modellering blev udviklet af Ralph Kimball og består af “fact”- og “dimension”-tabeller.

En dimensionel model i datawarehouse er designet til at læse, sammenfatte, analysere numeriske oplysninger som værdier, balancer, tællinger, vægte osv. i et datawarehouse. I modsætning hertil er relationsmodeller optimeret til tilføjelse, opdatering og sletning af data i et online-transaktionssystem i realtid.

Disse dimensionelle og relationelle modeller har deres unikke måde at lagre data på, som har specifikke fordele.

For eksempel reducerer normalisering og ER-modeller i den relationelle tilstand redundans i data. Tværtimod arrangerer den dimensionelle model i datawarehouse data på en sådan måde, at det er lettere at hente oplysninger og generere rapporter.

Da dimensionelle modeller anvendes derfor i datawarehouse-systemer og passer ikke godt til relationelle systemer.

I denne vejledning, vil du lære-

  • Elementer af dimensionel datamodel
  • Fakta
  • Dimension
  • Attributter
  • Fakta tabel
  • Dimensionstabel
  • Typer af dimensioner i datawarehouse
  • Trin for dimensionel modellering
  • Trin 1) Identificer forretningsprocessen
  • Trin 2) Identificer kornet
  • Trin 3) Identificer dimensionerne
  • Trin 4) Identificer fakta
  • Trin 5) Opbyg skema
  • Regler for dimensionel modellering
  • Fordele ved dimensionel modellering

Elementer i dimensionel datamodel

Fakta

Fakta er målinger/metri eller fakta fra din forretningsproces. For en forretningsproces for salg ville en måling være kvartalsvise salgstal

Dimension

Dimensionen giver konteksten omkring en forretningsprocesbegivenhed. De angiver i enkle vendinger, hvem, hvad og hvor en kendsgerning er. I forretningsprocessen Salg ville dimensioner for faktuelle kvartalsvise salgstal være

  • Hvem – Kundenavne
  • Hvor – Beliggenhed
  • Hvad – Produktnavn

Med andre ord er en dimension et vindue til at få vist oplysninger i fakta.

Attributter

Attributterne er de forskellige egenskaber ved dimensionen i dimensionel datamodellering.

I dimensionen Location kan attributterne være

  • State
  • Country
  • Zipcode etc.

Attributterne bruges til at søge, filtrere eller klassificere fakta. Dimensionstabeller indeholder Attributter

Faktatabel

En faktabelle er en primær tabel i dimensionsmodellering.

En faktatabel indeholder

  1. Målinger/fakta
  2. Fremme nøgle til dimensionstabel

Dimensionstabel

  • En dimensionstabel indeholder dimensioner af en kendsgerning.
  • De er knyttet til faktabellen via en fremmednøgle.
  • Dimensionstabeller er de-normaliserede tabeller.
  • Dimensionens attributter er de forskellige kolonner i en dimensionstabel
  • Dimensioner tilbyder beskrivende egenskaber ved fakta ved hjælp af deres attributter
  • Ingen fastsat grænse for givet for antallet af dimensioner
  • Dimensionen kan også indeholde en eller flere hierarkiske relationer

Typer af dimensioner i Data Warehouse

Følgende er typerne af dimensioner i Data Warehouse:

  • Conformed Dimension
  • Outrigger Dimension
  • Shrunken Dimension
  • Role-playing Dimension
  • Dimension to Dimension Table
  • Junk Dimension
  • Degenerate Dimension
  • Swappable Dimension
  • Step Dimension

Trin i dimensionel modellering

Nøjagtigheden i oprettelsen af din dimensionelle modellering er afgørende for, om din datawarehouse-implementering bliver en succes. Her er trinene til at oprette Dimensionsmodel

  1. Identificer forretningsproces
  2. Identificer korn (detaljeringsgrad)
  3. Identificer dimensioner
  4. Identificer fakta
  5. Bygger stjerne

Modellen skal beskrive hvorfor, Hvor meget, Hvornår/hvor/hvor/hvem og hvad i din forretningsproces

Trin 1) Identificer forretningsprocessen

Identificering af den faktiske forretningsproces, som et datarehus skal dække. Dette kan være marketing, salg, HR osv. alt efter organisationens behov for dataanalyse. Valget af forretningsproces afhænger også af kvaliteten af de data, der er tilgængelige for den pågældende proces. Det er det vigtigste trin i datamodelleringsprocessen, og en fejl her vil medføre kaskader af uoprettelige fejl.

For at beskrive forretningsprocessen kan du bruge almindelig tekst eller bruge grundlæggende Business Process Modelling Notation (BPMN) eller Unified Modelling Language (UML).

Trin 2) Identificer kornet

Kornet beskriver detaljeringsniveauet for forretningsproblemet/løsningen. Det er processen med at identificere det laveste informationsniveau for enhver tabel i dit datawarehouse. Hvis en tabel indeholder salgsdata for hver dag, skal det være daglig granularitet. Hvis en tabel indeholder samlede salgsdata for hver måned, skal den have månedlig granularitet.

I denne fase besvarer du spørgsmål som

  1. Har vi brug for at gemme alle tilgængelige produkter eller kun nogle få typer af produkter? Denne beslutning er baseret på de forretningsprocesser, der er valgt til Datawarehouse
  2. Skal vi gemme produktsalgsoplysningerne på månedlig, ugentlig, daglig eller timelønnet basis? Denne beslutning afhænger af arten af de rapporter, som cheferne efterspørger
  3. Hvordan påvirker de to ovenstående valg databasestørrelsen?

Eksempel på korn:

Den administrerende direktør i et multinationalt selskab ønsker at finde salget for specifikke produkter på forskellige steder på daglig basis.

Så kornet er “oplysninger om produktsalg pr. sted pr. dag”.

Trin 3) Identificer dimensionerne

Dimensioner er navneord som dato, butik, lager, lagerbeholdning osv. Disse dimensioner er de steder, hvor alle dataene skal gemmes. Datadimensionen kan f.eks. indeholde data som år, måned og ugedag.

Eksempel på dimensioner:

Den administrerende direktør i et multinationalt selskab ønsker at finde salget for specifikke produkter på forskellige steder på daglig basis.

Dimensioner: Produkt, sted og tid

Attributter: Produkt, sted og tid

Attributter: For Produkt: Produktnøgle (fremmednøgle), Navn, Type, Specifikationer

Hierarkier: For Location::: For Location: Country, State, City, Street Address, Name

Trin 4) Identify the Fact

Dette trin er sammen med systemets forretningsbrugere, fordi det er her, de får adgang til de data, der er lagret i datawarehouset. De fleste af faktabellens rækker er numeriske værdier som pris eller omkostninger pr. enhed osv.

Eksempel på fakta:

Den administrerende direktør i et multinationalt selskab ønsker at finde salget for specifikke produkter på forskellige steder på daglig basis.

Fakten her er Summen af salget pr. produkt pr. sted pr. tid.

Trin 5) Opbyg skema

I dette trin implementerer du dimensionsmodellen. Et skema er intet andet end databasestrukturen (arrangement af tabeller). Der findes to populære skemaer

  1. Stjerneskema

Stjerneskemaets arkitektur er let at designe. Den kaldes et stjerneskema, fordi skemaet ligner en stjerne med punkter, der stråler ud fra et centrum. Stjernens centrum består af faktatabellen, og stjernens punkter er dimensionstabeller.

Faktatabellerne i et stjerneskema, som er tredje normalform, mens dimensionstabellerne er de-normaliserede.

  1. Snowflake Schema

Snowflake-skemaet er en udvidelse af stjerneskemaet. I et snowflake-skema er hver dimension normaliseret og forbundet med flere dimensionstabeller.

Regler for dimensionel modellering

Følgende er reglerne og principperne for dimensionel modellering:

  • Lad atomare data ind i dimensionelle strukturer.
  • Byg dimensionelle modeller op omkring forretningsprocesser.
  • Nødvendigt at sikre, at hver faktatabel har en tilknyttet datadimensionstabel.
  • Sørg for, at alle fakta i en enkelt faktatabel er på samme korn eller detaljeringsniveau.
  • Det er vigtigt at gemme rapportlabels og filterdomæneværdier i dimensionstabeller
  • Nødvendigt at sikre, at dimensionstabellerne bruger en surrogatnøgle
  • Løbende balancere krav og realiteter for at levere en forretningsløsning, der understøtter deres beslutningstagning

Fordele ved dimensionelmodellering

  • Standardisering af dimensioner giver mulighed for nem rapportering på tværs af forretningsområder.
  • Dimensionstabeller gemmer historikken for de dimensionelle oplysninger.
  • Det giver mulighed for at indføre helt nye dimensioner uden større forstyrrelser i faktatabellen.
  • Dimensionelle også til at gemme data på en sådan måde, at det er lettere at hente informationerne fra dataene, når dataene er gemt i databasen.
  • I forhold til den normaliserede model er dimensionelle tabeller lettere at forstå.
  • Informationer er grupperet i klare og enkle forretningskategorier.
  • Den dimensionelle model er meget forståelig for forretningen. Denne model er baseret på forretningstermer, så forretningen ved, hvad hver enkelt kendsgerning, dimension eller attribut betyder.
  • Dimensionelle modeller er deformaliseret og optimeret med henblik på hurtig dataafspørgsel. Mange relationelle databaseplatforme genkender denne model og optimerer forespørgselsudførelsesplaner for at hjælpe med at forbedre ydeevnen.
  • Dimensionel modellering i datawarehouse skaber et skema, som er optimeret til høj ydeevne. Det betyder færre joins og hjælper med minimeret dataredundans.
  • Den dimensionelle model er også med til at øge forespørgselsydelsen. Den er mere denormaliseret, derfor er den optimeret til forespørgsler.
  • Dimensionelle modeller kan komfortabelt rumme ændringer. Dimensionstabeller kan få tilføjet flere kolonner til dem uden at påvirke eksisterende business intelligence-applikationer, der bruger disse tabeller.

Hvad er flerdimensionel datamodel i datawarehouse?

Multidimensionel datamodel i datawarehouse er en model, der repræsenterer data i form af datakuber. Den gør det muligt at modellere og vise data i flere dimensioner, og den er defineret af dimensioner og fakta. Multidimensionel datamodel er generelt kategoriseret omkring et centralt tema og repræsenteret af en faktatabel.

Summary:

  • En dimensionel model er en datastrukturteknik, der er optimeret til Data warehousing-værktøjer.
  • Fakta er målinger/metri eller fakta fra din forretningsproces.
  • Dimensionen giver konteksten omkring en forretningsprocesbegivenhed.
  • Attributter er de forskellige egenskaber ved dimensionsmodelleringen.
  • En faktatabel er en primær tabel i en dimensionsmodel.
  • En dimensionstabel indeholder dimensioner af en kendsgerning.
  • Der er tre typer af kendsgerninger 1. Additive 2. Ikke-additive 3. Semi-additive .
  • Typer af dimensioner er konforme, Outrigger, Shrunken, Rollespil, Dimension til dimensionstabel, Junk, Degenerate, Swappable og Step Dimensions.
  • De fem trin i dimensionel modellering er 1. Identificer forretningsprocessen 2. Identificer Grain (detaljeringsgrad) 3. Identificer dimensioner 4. Identificer fakta 5. Build Star
  • For Dimensional modellering i datawarehouse er der behov for at sikre, at hver faktatabel har en tilknyttet datadimensionstabel.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.