Vad är dimensionell modellering i datalagret?

Dimensionell modellering

Dimensionell modellering (DM) är en datastrukturteknik som är optimerad för datalagring i ett datalager. Syftet med dimensionell modellering är att optimera databasen för att snabbare hämta data. Begreppet dimensionell modellering utvecklades av Ralph Kimball och består av fakta- och dimensionstabeller.

En dimensionell modell i datalagret är utformad för att läsa, sammanfatta, analysera numerisk information som värden, balanser, räkningar, vikter etc. i ett datalagret. Relationsmodeller är däremot optimerade för att lägga till, uppdatera och ta bort data i ett online-transaktionssystem i realtid.

Dessa dimensionella och relationella modeller har sitt unika sätt att lagra data som har specifika fördelar.

I det relationella läget minskar till exempel normalisering och ER-modeller redundans i data. Tvärtom ordnar den dimensionella modellen i datalagret data på ett sådant sätt att det är lättare att hämta information och generera rapporter.

Dimensionella modeller används därför i datalagersystem och passar inte bra för relationella system.

I den här handledningen, kommer du att lära dig-

  • Element i en dimensionell datamodell
  • Fakta
  • Dimension
  • Attribut
  • Faktabell
  • Dimensionstabell
  • Typer av dimensioner i datalager
  • Stegen i den dimensionella modelleringen
  • Steg 1) Identifiera affärsprocessen
  • Steg 2) Identifiera korn.
  • Steg 3) Identifiera dimensionerna
  • Steg 4) Identifiera fakta
  • Steg 5) Bygg schema
  • Regler för dimensionell modellering
  • Fördelar med dimensionell modellering

Element i en dimensionell datamodell

Fakta

Fakta är mätningar/mätetal eller fakta från din affärsprocess. För en affärsprocess för försäljning skulle ett mått vara kvartalsvisa försäljningssiffror

Dimension

Dimensionen ger sammanhanget kring en affärsprocesshändelse. Enkelt uttryckt ger de vem, vad och var ett faktum är. I affärsprocessen Försäljning skulle dimensionerna för faktan Kvartalsförsäljningsnummer vara

  • Vem – Kundnamn
  • Var – Plats
  • Vad – Produktnamn

Med andra ord är en dimension ett fönster som gör det möjligt att visa informationen i fakta.

Attribut

Attributen är dimensionens olika egenskaper vid dimensionell datamodellering.

I dimensionen Location kan attributen vara

  • State
  • Country
  • Zipcode etc.

Attributen används för att söka, filtrera eller klassificera fakta. Dimensionstabeller innehåller attribut

Fakttabell

En faktatabell är en primär tabell i dimensionsmodellering.

En faktatabell innehåller

  1. Mått/fakta
  2. Förändrad nyckel till dimensionstabell

Dimensionstabell

  • En dimensionstabell innehåller dimensioner för ett faktum.
  • De är kopplade till faktatabellen via en främmande nyckel.
  • Dimensionstabeller är avnormaliserade tabeller.
  • Dimensionens attribut är de olika kolumnerna i en dimensionstabell
  • Dimensioner erbjuder beskrivande egenskaper hos fakta med hjälp av deras attribut
  • Ingen fastställd gräns för givet för antal dimensioner
  • Dimensionen kan också innehålla en eller flera hierarkiska relationer

Typer av dimensioner i datalager

Följande är typerna av dimensioner i datalager:

  • Konform dimension
  • Outrigger dimension
  • Shrunken dimension
  • Roll-spela dimension
  • Dimension till dimensionstabell
  • Junk Dimension
  • Degenerate Dimension
  • Swappable Dimension
  • Step Dimension

Steps of Dimensional Modelling

Den noggrannhet som krävs för att skapa en dimensionell modellering är avgörande för hur framgångsrik implementeringen av datalagret blir. Här är stegen för att skapa dimensionsmodellen

  1. Identifiera affärsprocess
  2. Identifiera korn (detaljnivå)
  3. Identifiera dimensioner
  4. Identifiera fakta
  5. Bygg stjärna

Modellen ska beskriva varför, Hur mycket, När/Var/Vem och Vad i din affärsprocess

Steg 1) Identifiera affärsprocessen

Identifiera den faktiska affärsprocessen som ett dataregister ska täcka. Det kan vara marknadsföring, försäljning, HR osv. beroende på organisationens behov av dataanalys. Valet av affärsprocess beror också på kvaliteten på de data som finns tillgängliga för den processen. Det är det viktigaste steget i datamodelleringsprocessen, och ett misslyckande här skulle leda till oåterkalleliga och irreparabla fel.

För att beskriva affärsprocessen kan man använda vanlig text eller använda grundläggande Business Process Modelling Notation (BPMN) eller Unified Modelling Language (UML).

Steg 2) Identifiera korn

Korn beskriver detaljnivån för affärsproblemet/lösningen. Det är processen att identifiera den lägsta informationsnivån för varje tabell i ditt datalager. Om en tabell innehåller försäljningsdata för varje dag bör den ha en daglig granularitet. Om en tabell innehåller totala försäljningsuppgifter för varje månad har den månadsgranularitet.

I det här skedet svarar du på frågor som

  1. Behövs det lagra alla tillgängliga produkter eller bara några få typer av produkter? Detta beslut baseras på de affärsprocesser som valts för Datawarehouse
  2. Lagrar vi produktförsäljningsinformationen månadsvis, veckovis, dagligen eller timvis? Detta beslut beror på vilken typ av rapporter som cheferna begär
  3. Hur påverkar de två ovanstående valen databasens storlek?

Exempel på korn:

Den verkställande direktören på ett multinationellt företag vill hitta försäljningen av specifika produkter på olika platser varje dag.

Det handlar alltså om ”information om produktförsäljning per plats och per dag”.

Steg 3) Identifiera dimensionerna

Dimensioner är substantiv som datum, butik, lager osv. Dessa dimensioner är var alla data ska lagras. Datumdimensionen kan till exempel innehålla data som år, månad och veckodag.

Exempel på dimensioner:

Vd:n på ett multinationellt företag vill hitta försäljningen av specifika produkter på olika platser på daglig basis.

Dimensioner: Produkt, plats och tid

Attribut: För produkt: Produktnyckel (främmande nyckel), namn, typ, specifikationer

Hierarkier: För plats: Land, stat, stad, gatuadress, namn

Steg 4) Identifiera faktan

Detta steg är kopplat till systemets affärsanvändare eftersom det är här de får tillgång till data som lagras i datalagret. De flesta rader i faktatabellen är numeriska värden som pris eller kostnad per enhet osv.

Exempel på fakta:

Vd:n på ett multinationellt företag vill ta reda på försäljningen för specifika produkter på olika platser på daglig basis.

Fakten här är Summan av försäljningen per produkt per plats per tid.

Steg 5) Bygg schema

I det här steget implementerar du dimensionsmodellen. Ett schema är inget annat än databasstrukturen (arrangemang av tabeller). Det finns två populära scheman

  1. Stjärnskema

Stjärnskemaarkitekturen är lätt att utforma. Den kallas stjärnschema eftersom schemat liknar en stjärna, med punkter som strålar ut från ett centrum. Stjärnans centrum består av faktatabellen och stjärnans punkter är dimensionstabeller.

Fakttabellerna i ett stjärnschema som är tredje normalformen medan dimensionstabellerna är de-normaliserade.

  1. Snowflake Schema

Snowflake schemat är en utvidgning av stjärnschemat. I ett snöflingeschema normaliseras varje dimension och ansluts till fler dimensionstabeller.

Regler för dimensionell modellering

Nedan följer regler och principer för dimensionell modellering:

  • Lad in atomdata i dimensionella strukturer.
  • Bygg dimensionella modeller kring affärsprocesser.
  • Nödvändigt att se till att varje faktatabell har en tillhörande datumdimensionstabell.
  • Säkerställ att alla fakta i en enskild faktatabell har samma korn- eller detaljnivå.
  • Det är viktigt att lagra rapportlappar och filterdomänvärden i dimensionstabeller
  • Måste se till att dimensionstabellerna använder en surrogatnyckel
  • Kontinuerligt balansera krav och realiteter för att leverera en affärslösning som stöd för deras beslutsfattande

Fördelar med dimensionell modellering

  • Standardisering av dimensioner gör det möjligt att enkelt rapportera över olika delar av verksamheten.
  • Dimensionstabeller lagrar den dimensionella informationens historik.
  • Det gör det möjligt att införa helt nya dimensioner utan större störningar i faktatabellen.
  • Dimensionella också för att lagra data på ett sådant sätt att det är lättare att hämta information från data när datan väl är lagrad i databasen.
  • Vid jämförelse med den normaliserade modellen är dimensionella tabeller lättare att förstå.
  • Informationen är grupperad i tydliga och enkla affärskategorier.
  • Den dimensionella modellen är mycket begriplig för verksamheten. Modellen bygger på affärstermer, så att verksamheten vet vad varje faktum, dimension eller attribut betyder.
  • Dimensionella modeller är avformaliserade och optimerade för snabb dataförfrågan. Många plattformar för relationsdatabaser känner igen den här modellen och optimerar utförandeplanerna för frågor för att hjälpa till med prestandan.
  • Dimensionell modellering i datalager skapar ett schema som är optimerat för hög prestanda. Det innebär färre joins och bidrar till minimerad dataredundans.
  • Den dimensionella modellen bidrar också till att öka frågeprestandan. Den är mer denormaliserad därför är den optimerad för sökning.
  • Dimensionella modeller kan bekvämt hantera förändringar. Dimensionstabeller kan få fler kolumner tillagda utan att befintliga Business Intelligence-applikationer som använder dessa tabeller påverkas.

Vad är flerdimensionell datamodell i datalagret?

Multidimensionell datamodell i datalagret är en modell som representerar data i form av datakuber. Den gör det möjligt att modellera och visa data i flera dimensioner och den definieras av dimensioner och fakta. Multidimensionell datamodell kategoriseras i allmänhet kring ett centralt tema och representeras av en faktatabell.

Sammanfattning:

  • En dimensionell modell är en datastrukturteknik som är optimerad för datalagringsverktyg.
  • Fakta är mätningar/mätetal eller fakta från din affärsprocess.
  • Dimensionen ger sammanhanget kring en affärsprocesshändelse.
  • Attribut är de olika egenskaperna hos dimensionsmodelleringen.
  • En faktatabell är en primär tabell i en dimensionell modell.
  • En dimensionstabell innehåller dimensioner av ett faktum.
  • Det finns tre typer av fakta 1. Additiva 2. Icke-additiva 3. Semi-additiva .
  • Typer av dimensioner är konformt, outrigger, krympt, rollspel, dimension till dimensionstabell, skräp, degenererat, utbytbart och stegdimensioner.
  • Fem steg för dimensionell modellering är 1. Identifiera affärsprocessen 2. Identifiera Grain (detaljnivå) 3. Identifiera dimensioner 4. Identifiera fakta 5. Build Star
  • För dimensionell modellering i datalagret måste man se till att varje faktatabell har en tillhörande datumdimensionstabell.

Lämna ett svar

Din e-postadress kommer inte publiceras.