Mi a dimenziós modellezés az adattárházban?

Dimenziós modellezés

A dimenziós modellezés (DM) egy adattárházban történő adattárolásra optimalizált adatszerkezeti technika. A dimenzionális modellezés célja az adatbázis optimalizálása az adatok gyorsabb visszakeresése érdekében. A dimenziós modellezés koncepcióját Ralph Kimball dolgozta ki, és “tény” és “dimenzió” táblákból áll.

A dimenzionális modell az adattárházban numerikus információk, például értékek, mérlegek, számok, súlyok stb. olvasására, összegzésére, elemzésére szolgál. Ezzel szemben a relációs modelleket az adatok hozzáadására, frissítésére és törlésére optimalizálják egy valós idejű online tranzakciós rendszerben.

A dimenzionális és relációs modelleknek megvan a maguk egyedi adattárolási módja, amely sajátos előnyökkel jár.

A relációs módban például a normalizálás és az ER-modellek csökkentik az adatok redundanciáját. Ezzel szemben az adattárházban a dimenzionális modell úgy rendezi az adatokat, hogy könnyebb legyen az információk lekérdezése és a jelentések készítése.

Ezért a dimenziós modelleket adattárházi rendszerekben használják, és nem illeszkednek jól a relációs rendszerekhez.

Ebben a bemutatóban, megtanulja…

  • A dimenziós adatmodell elemei
  • Tény
  • Dimenzió
  • Attribútumok
  • Ténytábla
  • Dimenziós táblázat
  • Dimenziók típusai az adattárházban
  • A dimenziós modellezés lépései
  • 1. lépés) Az üzleti folyamat azonosítása
  • 2. lépés) A szemcse azonosítása.
  • 3. lépés) A dimenziók azonosítása
  • 4. lépés) A tény azonosítása
  • 5. lépés) A séma felépítése
  • A dimenziós modellezés szabályai
  • A dimenziós modellezés előnyei

A dimenziós adatmodell elemei

Tény

A tények az üzleti folyamat mérései/mérései vagy tényei. Egy értékesítési üzleti folyamat esetében a mérés a negyedéves értékesítési szám lenne

Dimenzió

A dimenzió az üzleti folyamat eseményét körülvevő kontextust biztosítja. Egyszerűbben fogalmazva, megadják, hogy ki, mit, hol egy tényt. Az értékesítési üzleti folyamatban a negyedéves értékesítési szám tény esetében a dimenziók a következők lennének:

  • Ki – Ügyfél neve
  • Hol – Helyszín
  • Mi – Termék neve

Más szóval, a dimenzió egy ablak a tényekben lévő információk megtekintéséhez.

Attribútumok

Az attribútumok a dimenzió különböző jellemzői a dimenziós adatmodellezésben.

A Location dimenzióban az attribútumok lehetnek

  • State
  • Country
  • Zipcode stb.

Az attribútumok a tények keresésére, szűrésére vagy osztályozására szolgálnak. A dimenziós táblák attribútumokat tartalmaznak

Ténytábla

A ténytábla a dimenziómodellezés elsődleges táblája.

Egy ténytábla

  1. Mértékek/tények
  2. A dimenziós tábla idegen kulcsa

Dimenziós tábla

  • A dimenziós tábla egy tény dimenzióit tartalmazza.
  • Egy idegen kulcson keresztül kapcsolódik a tény táblához.
  • A dimenziós táblák de-normalizált táblák.
  • A dimenzióattribútumok a dimenziós tábla különböző oszlopai
  • A dimenziók a tények leíró jellemzőit kínálják az attribútumaik segítségével
  • A dimenziók számának nincs meghatározott korlátja
  • A dimenzió tartalmazhat egy vagy több hierarchikus kapcsolatot is

A dimenziók típusai az adattárházban

A következők a dimenziók típusai az adattárházban:

  • Conformált dimenzió
  • Outrigger dimenzió
  • Szűrt dimenzió
  • Rol.játszó dimenzió
  • Dimenzió a dimenziós táblába
  • Selejtezhető dimenzió
  • Degenerált dimenzió
  • Swappable Dimension
  • Step Dimension

A dimenziós modellezés lépései

A dimenziós modellezés elkészítésének pontossága meghatározza az adattárház megvalósításának sikerét. Íme a Dimenziós modell létrehozásának lépései

  1. Identify Business Process
  2. Identify Grain (részletezettségi szint)
  3. Identify Dimensions
  4. Identify Facts
  5. Build Star

A modellnek le kell írnia a Miért, Mennyit, Mikor/Hol/Ki és Mit az üzleti folyamat

1. lépés) Az üzleti folyamat azonosítása

A tényleges üzleti folyamat azonosítása, amelyet egy adattárháznak le kell fednie. Ez lehet marketing, értékesítés, HR stb. a szervezet adatelemzési igényeinek megfelelően. Az üzleti folyamat kiválasztása az adott folyamathoz rendelkezésre álló adatok minőségétől is függ. Ez az adatmodellezési folyamat legfontosabb lépése, és ha itt hibázik, az kaszkádszerű és helyrehozhatatlan hibákat okozhat.

Az üzleti folyamat leírásához használhatunk egyszerű szöveget, vagy használhatunk alapvető üzleti folyamatmodellezési jelölést (BPMN) vagy egységes modellezési nyelvet (UML).

2. lépés) A szemcse azonosítása

A szemcse az üzleti probléma/megoldás részletességi szintjét írja le. Ez az adattárház bármely táblájához tartozó legalacsonyabb szintű információ azonosításának folyamata. Ha egy tábla minden napra vonatkozóan tartalmaz értékesítési adatokat, akkor napi szemcseméretűnek kell lennie. Ha egy tábla minden hónapra vonatkozóan teljes értékesítési adatokat tartalmaz, akkor havi szemcseméretű.

Ebben a szakaszban olyan kérdésekre ad választ, mint

  1. Az összes elérhető terméket vagy csak néhány terméktípust kell tárolnunk? Ez a döntés az Adattárházhoz kiválasztott üzleti folyamatokon alapul
  2. Havi, heti, napi vagy óránkénti bontásban tároljuk a termékeladási információkat? Ez a döntés a vezetők által kért jelentések jellegétől függ
  3. Hogyan befolyásolja a fenti két választás az adatbázis méretét?

Példa Gabona:

Egy MNC vezérigazgatója napi szinten szeretné megtalálni az egyes termékek eladásait a különböző helyszíneken.

A gabona tehát a “termékeladási információk helyenként, napra lebontva”.

3. lépés) A dimenziók azonosítása

A dimenziók olyan főnevek, mint dátum, üzlet, készlet stb. Ezekben a dimenziókban kell tárolni az összes adatot. A dátum dimenzió például olyan adatokat tartalmazhat, mint az év, a hónap és a hétköznap.

Példa a dimenziókra:

Egy MNC vezérigazgatója szeretné megtalálni az egyes termékek eladásait a különböző helyszíneken napi szinten.

Dimenziók:

Attribútumok: Termék, hely és idő

Attribútumok: Termék, hely és idő: A termékhez: Termék kulcs (idegen kulcs), név, típus, specifikációk

Hierarchiák: A hely esetében: Ország, állam, város, utca cím, név

4. lépés) A tény azonosítása

Ez a lépés a rendszer üzleti felhasználóihoz társul, mivel itt kapnak hozzáférést az adattárházban tárolt adatokhoz. A ténytábla sorainak többsége numerikus érték, például ár vagy egységenkénti költség stb.

Példa a ténytáblákra:

Egy MNC vezérigazgatója szeretné megtalálni az egyes termékek eladásait a különböző helyszíneken napi szinten.

A tény itt az Eladások összege termékenként és helyenként és időben.

5. lépés) Séma felépítése

Ezzel a lépéssel megvalósítjuk a dimenziómodellt. A séma nem más, mint az adatbázis szerkezete (táblák elrendezése). Két népszerű séma létezik

  1. csillagséma

A csillagséma felépítése könnyen tervezhető. Azért nevezik csillagsémának, mert a diagram egy csillaghoz hasonlít, amelynek a középpontjából sugárirányban pontok indulnak ki. A csillag középpontja a ténytáblából áll, a csillag pontjai pedig a dimenziótáblák.

A ténytáblák a csillagsémában, amely harmadik normálforma, míg a dimenziótáblák de-normalizáltak.

  1. Hópehelyséma

A hópehelyséma a csillagséma kiterjesztése. A hópehely sémában az egyes dimenziók normalizálva vannak, és több dimenziós táblához kapcsolódnak.

A dimenziós modellezés szabályai

A következőkben a dimenziós modellezés szabályai és elvei következnek:

  • Az atomi adatok dimenziós struktúrákba való betöltése.
  • A dimenziós modellek üzleti folyamatok köré építése.
  • Szükséges biztosítani, hogy minden ténytáblához legyen egy kapcsolódó dátum dimenziós tábla.
  • Egyetlen ténytáblában lévő összes tény azonos szemcseméretű vagy részletezettségi szintű legyen.
  • Elkerülhetetlen, hogy a jelentéscímkéket és a szűrőtartomány értékeit dimenziós táblákban tárolja
  • Szükséges biztosítani, hogy a dimenziós táblák helyettesítő kulcsot használjanak
  • Folyamatosan egyensúlyban kell tartani a követelményeket és a valóságot, hogy az üzleti megoldást nyújtson a döntéshozataluk támogatására

A dimenziós modellezés előnyei

  • A dimenziók szabványosítása egyszerű jelentéstételt tesz lehetővé az üzleti területek között.
  • A dimenziós táblák tárolják a dimenziós információk előzményeit.
  • Ez lehetővé teszi teljesen új dimenziók bevezetését a ténytábla nagyobb megszakítása nélkül.
  • A dimenziók az adatok olyan módon történő tárolását is lehetővé teszik, hogy az adatokból könnyebb legyen az információ visszakeresése, ha az adatok már az adatbázisban vannak tárolva.
  • A normált modellhez képest a dimenziós táblák könnyebben érthetők.
  • Az információk világos és egyszerű üzleti kategóriákba vannak csoportosítva.
  • A dimenzionális modell nagyon jól érthető az üzleti élet számára. Ez a modell üzleti kifejezéseken alapul, így az üzlet tudja, hogy az egyes tények, dimenziók vagy attribútumok mit jelentenek.
  • A dimenziós modellek deformalizáltak és optimalizáltak a gyors adatlekérdezéshez. Számos relációs adatbázis-platform felismeri ezt a modellt, és optimalizálja a lekérdezések végrehajtási terveit, hogy segítse a teljesítményt.
  • A dimenziós modellezés az adattárházban olyan sémát hoz létre, amely nagy teljesítményre optimalizált. Kevesebb egyesítést jelent, és segít az adatredundancia minimalizálásában.
  • A dimenziós modell a lekérdezések teljesítményének növelésében is segít. Jobban denormalizált, ezért optimalizált a lekérdezéshez.
  • A dimenziós modellek kényelmesen alkalmazkodnak a változásokhoz. A dimenziós táblákhoz több oszlopot lehet hozzáadni anélkül, hogy ez befolyásolná az ezeket a táblákat használó meglévő üzleti intelligenciaalkalmazásokat.

Mi a többdimenziós adatmodell az adattárházban?

A többdimenziós adatmodell az adattárházban olyan modell, amely az adatokat adatkockák formájában ábrázolja. Lehetővé teszi az adatok több dimenzióban történő modellezését és megtekintését, és dimenziók és tények határozzák meg. A többdimenziós adatmodell általában egy központi téma köré kategorizálódik, és egy ténytáblával reprezentálják.

Summary:

  • A dimenzionális modell az adattárházi eszközökhöz optimalizált adatszerkezeti technika.
  • A tények az üzleti folyamat mérései/metrikái vagy tényei.
  • A dimenzió az üzleti folyamat eseményét körülvevő kontextust biztosítja.
  • Az attribútumok a dimenziómodellezés különböző jellemzői.
  • A ténytábla a dimenziós modell elsődleges táblája.
  • A dimenziótábla a tény dimenzióit tartalmazza.
  • A tényeknek három típusa van: 1. A ténytábláknak három típusa van. Additív 2. Nem additív 3. Félig additív .
  • A dimenziók típusai a konformált, a kiugró, a zsugorított, a szerepjátékos, a dimenzió a dimenziótáblába, a szemét, a degenerált, a cserélhető és a lépcsős dimenziók.
  • A dimenziómodellezés öt lépése a következő 1. Az üzleti folyamat azonosítása 2. A szemcse (részletezettségi szint) azonosítása 3. Dimenziók azonosítása 4. Tények azonosítása 5. Csillag építése
  • Az adattárházban történő dimenziós modellezéshez biztosítani kell, hogy minden ténytáblához legyen egy kapcsolódó dátumdimenziós tábla.

.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.