Co je to dimenzionální modelování v datovém skladu?

Dimenzionální modelování

Dimenzionální modelování (DM) je technika datové struktury optimalizovaná pro ukládání dat v datovém skladu. Účelem dimenzionálního modelování je optimalizovat databázi pro rychlejší vyhledávání dat. Koncepci dimenzionálního modelování vyvinul Ralph Kimball a skládá se z tabulek „faktů“ a „dimenzí“.

Dimenzionální model v datovém skladu je určen ke čtení, shrnutí, analýze číselných informací, jako jsou hodnoty, stavy, počty, váhy atd. v datovém skladu. Naproti tomu relační modely jsou optimalizovány pro přidávání, aktualizaci a mazání dat v online transakčním systému v reálném čase.

Tyto dimenzionální a relační modely mají svůj jedinečný způsob ukládání dat, který má specifické výhody.

V relačním režimu například normalizace a ER modely snižují redundanci dat. Naopak dimenzionální model v datovém skladu uspořádává data tak, aby bylo snazší vyhledávat informace a vytvářet sestavy.

Dimenzionální modely se tedy používají v systémech datových skladů a nehodí se pro relační systémy.

V tomto výukovém programu, se naučíte.

  • Prvky dimenzionálního datového modelu
  • Fakta
  • Dimenze
  • Atributy
  • Tabulka faktů
  • Tabulka dimenzí
  • Typy dimenzí v datovém skladu
  • Kroky dimenzionálního modelování
  • Krok 1) Identifikace obchodního procesu
  • Krok 2) Identifikace zrna
  • Krok 3) Identifikace dimenzí
  • Krok 4) Identifikace faktů
  • Krok 5) Sestavení schématu
  • Pravidla pro dimenzionální modelování
  • Výhody dimenzionálního modelování

Prvky dimenzionálního datového modelu

Fakta

Fakty jsou měření/metriky nebo skutečnosti z vašeho obchodního procesu. Pro obchodní proces Prodej by měřením bylo čtvrtletní číslo prodeje

Dimenze

Dimenze poskytuje kontext kolem události obchodního procesu. Zjednodušeně řečeno udávají kdo, co, kde dané skutečnosti. V obchodním procesu Prodej by pro skutečnost čtvrtletní prodejní číslo dimenze byly

  • Kdo – Jména zákazníků
  • Kde – Místo
  • Co – Název výrobku

Jinými slovy, dimenze je okno pro zobrazení informací ve skutečnostech.

Atributy

Atributy jsou různé charakteristiky dimenze při dimenzionálním modelování dat.

V dimenzi Location mohou být atributy

  • State
  • Country
  • Zipcode atd.

Atributy slouží k vyhledávání, filtrování nebo klasifikaci faktů. Tabulky dimenzí obsahují atributy

Tabulka faktů

Tabulka faktů je primární tabulkou při modelování dimenzí.

Tabulka faktů obsahuje

  1. Měření/fakta
  2. Cizí klíč k tabulce dimenzí

Tabulka dimenzí

  • Tabulka dimenzí obsahuje dimenze faktu.
  • K tabulce faktů jsou připojeny prostřednictvím cizího klíče.
  • Tabulky dimenzí jsou nenormalizované tabulky.
  • Atributy dimenze jsou různé sloupce v tabulce dimenze
  • Dimenze nabízí popisné charakteristiky faktů pomocí jejich atributů
  • Není stanoven žádný limit daný pro počet dimenzí
  • Dimenze může také obsahovat jeden nebo více hierarchických vztahů

Typy dimenzí v datovém skladu

Následují typy dimenzí v datovém skladu:

  • Konformní dimenze
  • Outrigger Dimension
  • Shrunken Dimension
  • Role-playing Dimension
  • Dimension to Dimension Table
  • Junk Dimension
  • Degenerate Dimension
  • Swapable Dimension
  • Step Dimension

Kroky dimenzionálního modelování

Přesnost při vytváření dimenzionálního modelování rozhoduje o úspěchu implementace datového skladu. Zde jsou kroky pro vytvoření dimenzionálního modelu

  1. Identifikujte obchodní proces
  2. Identifikujte zrno (úroveň detailu)
  3. Identifikujte dimenze
  4. Identifikujte fakta
  5. Sestavte hvězdu

Model by měl popisovat proč, Kolik, Kdy/Kde/Komu a Co vašeho podnikového procesu

Krok 1) Identifikace podnikového procesu

Identifikace skutečného podnikového procesu, který by měl datový sklad pokrývat. Může to být marketing, prodej, personalistika atd. podle potřeb organizace v oblasti analýzy dat. Výběr Business procesu závisí také na kvalitě dat, která jsou pro tento proces k dispozici. Jedná se o nejdůležitější krok procesu datového modelování, jehož selhání by zde mělo kaskádovité a nenapravitelné vady.

K popisu obchodního procesu můžete použít prostý text nebo základní notaci pro modelování obchodních procesů (BPMN) či jednotný modelovací jazyk (UML).

Krok 2) Určení zrna

Zrno popisuje úroveň podrobnosti obchodního problému/řešení. Jedná se o proces identifikace nejnižší úrovně informací pro jakoukoli tabulku v datovém skladu. Pokud tabulka obsahuje údaje o prodeji za každý den, pak by měla mít denní granularitu. Pokud tabulka obsahuje celkové údaje o prodeji za každý měsíc, pak má měsíční granularitu.

V této fázi odpovídáte na otázky typu

  1. Potřebujeme uložit všechny dostupné produkty, nebo jen několik typů produktů? Toto rozhodnutí vychází z obchodních procesů vybraných pro Datawarehouse
  2. Ukládáme informace o prodeji výrobků na měsíční, týdenní, denní nebo hodinové bázi? Toto rozhodnutí závisí na povaze zpráv požadovaných vedoucími pracovníky
  3. Jak výše uvedené dvě volby ovlivňují velikost databáze

Příklad zrna:

Vedoucí pracovník MNC chce denně zjišťovat prodeje konkrétních výrobků v různých lokalitách.

Takže zrnko je „informace o prodeji výrobků podle lokalit po jednotlivých dnech“.

Krok 3) Určete rozměry

Rozměry jsou podstatná jména jako datum, sklad, zásoby atd. Tyto dimenze jsou místem, kde by měla být uložena všechna data. Například dimenze datum může obsahovat údaje jako rok, měsíc a den v týdnu.

Příklad dimenzí:

Ředitel MNC chce zjistit denní prodeje konkrétních výrobků na různých místech.

Dimenze: Produkt, místo a čas

Atributy: Pro výrobek: V případě výrobku se jedná o tzv:

Hierarchie: Klíč produktu (cizí klíč), Název, Typ, Specifikace

Hierarchie: Pro umístění:

Krok 4) Identifikace faktu

Tento krok je spoluzodpovědný za obchodní uživatele systému, protože právě zde získávají přístup k datům uloženým v datovém skladu. Většina řádků tabulky faktů jsou číselné hodnoty jako cena nebo náklady na jednotku atd.

Příklad faktů:

Ředitel jisté MNC chce zjistit denní prodeje konkrétních výrobků na různých místech.

Faktem je zde součet prodejů podle výrobků v jednotlivých lokalitách podle času.

Krok 5) Sestavte schéma

V tomto kroku implementujete model dimenzí. Schéma není nic jiného než struktura databáze (uspořádání tabulek). Existují dvě oblíbená schémata

  1. Hvězdicové schéma

Hvězdicová architektura schématu se snadno navrhuje. Nazývá se hvězdicové schéma, protože schéma připomíná hvězdu, jejíž body vyzařují ze středu. Střed hvězdy tvoří tabulka faktů a body hvězdy jsou dimenzionální tabulky.

Tabulky faktů ve hvězdicovém schématu, které je třetí normální formou, zatímco dimenzionální tabulky jsou de-normalizované.

  1. Schéma sněhové vločky

Schéma sněhové vločky je rozšířením schématu hvězdy. Ve schématu sněhové vločky jsou jednotlivé dimenze normalizovány a propojeny s více dimenzionálními tabulkami.

Pravidla pro dimenzionální modelování

Následují pravidla a zásady dimenzionálního modelování:

  • Načítejte atomická data do dimenzionálních struktur.
  • Vytvářejte dimenzionální modely kolem obchodních procesů.
  • Zajistěte, aby každá tabulka faktů měla přidruženou tabulku dimenze dat.
  • Zajistěte, aby všechna fakta v jedné tabulce faktů byla na stejné zrnitosti nebo úrovni podrobnosti.
  • V tabulkách dimenzí je nutné ukládat štítky sestav a hodnoty domén filtrů
  • Je třeba zajistit, aby tabulky dimenzí používaly náhradní klíč
  • Přetržitě vyvažovat požadavky a skutečnosti, aby bylo možné dodat podnikové řešení na podporu jejich rozhodování

Výhody dimenzionálního modelování

  • Standardizace dimenzí umožňuje snadné vykazování v různých oblastech podniku.
  • Dimenzionální tabulky uchovávají historii dimenzionálních informací.
  • Umožňuje zavést zcela novou dimenzi bez větších zásahů do tabulky faktů.
  • Dimenzionální také ukládat data takovým způsobem, aby bylo snazší získat informace z dat, jakmile jsou data uložena v databázi.
  • V porovnání s normalizovaným modelem jsou dimenzionální tabulky přehlednější.
  • Informace jsou seskupeny do přehledných a jednoduchých obchodních kategorií.
  • Dimenzionální model je pro podnikatele velmi srozumitelný. Tento model je založen na obchodních termínech, takže byznys ví, co který fakt, dimenze nebo atribut znamená.
  • Dimenzionální modely jsou deformované a optimalizované pro rychlé dotazování na data. Mnoho relačních databázových platforem tento model rozpoznává a optimalizuje plány provádění dotazů, aby napomohly výkonu.
  • Dimenzionální modelování v datovém skladu vytváří schéma, které je optimalizováno pro vysoký výkon. Znamená méně spojů a pomáhá s minimalizací redundance dat.
  • Dimenzionální model také pomáhá zvýšit výkonnost dotazů. Je více denormalizovaný, proto je optimalizovaný pro dotazování.
  • Dimenzionální modely se mohou pohodlně přizpůsobit změnám. Do dimenzionálních tabulek lze přidávat další sloupce, aniž by to ovlivnilo stávající aplikace business intelligence, které tyto tabulky používají.

Co je vícerozměrný datový model v datovém skladu?

Vícerozměrný datový model v datovém skladu je model, který reprezentuje data ve formě datových kostek. Umožňuje modelovat a zobrazovat data ve více dimenzích a je definován dimenzemi a fakty. Vícerozměrný datový model je obvykle roztříděn kolem ústředního tématu a reprezentován tabulkou faktů.

Souhrn:

  • Dimenzionální model je technika struktury dat optimalizovaná pro nástroje datových skladů.
  • Fakty jsou měření/metriky nebo fakta z vašeho obchodního procesu.
  • Dimenze poskytuje kontext kolem události obchodního procesu.
  • Atributy jsou různé charakteristiky modelování dimenze.
  • Tabulka faktů je primární tabulka v dimenzionálním modelu.
  • Tabulka dimenzí obsahuje rozměry faktu.
  • Existují tři typy faktů. 1. Tabulka faktů je primární tabulka v dimenzionálním modelu.
  • Tabulka dimenzí je primární tabulka v dimenzionálním modelu. Aditivní 2. Neaditivní 3. Semi-aditivní .
  • Typy dimenzí jsou konformní, vybočující, zmenšené, hrající roli, dimenze k dimenzní tabulce, nevyžádané, degenerované, zaměnitelné a stupňovité dimenze.
  • Pět kroků modelování rozměrů je 1. Identifikace obchodního procesu 2. Identifikace zrna (úrovně podrobnosti) 3. Identifikace dimenzí 4. Identifikace faktů 5. Sestavení hvězdy
  • Pro dimenzionální modelování v datovém skladu je třeba zajistit, aby každá tabulka faktů měla přiřazenou tabulku dimenze dat.

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.