- Modelarea dimensională
- Elemente ale modelului de date dimensionale
- Fapte
- Dimensiune
- Atribute
- Fact Table
- Tabel de dimensiuni
- Tipuri de dimensiuni în depozitul de date
- Etapele modelării dimensionale
- Pasul 1) Identificarea procesului de afaceri
- Pasul 2) Identificați granulația
- Pasul 3) Identificarea dimensiunilor
- Pasul 4) Identificarea faptei
- Pasul 5) Construiți schema
- Reguli pentru modelarea dimensională
- Beneficiile modelării dimensionale
- Ce este modelul de date multidimensionale în depozitul de date?
- Summary:
Modelarea dimensională
Modelarea dimensională (DM) este o tehnică de structură de date optimizată pentru stocarea datelor într-un depozit de date. Scopul modelării dimensionale este de a optimiza baza de date pentru o regăsire mai rapidă a datelor. Conceptul de modelare dimensională a fost dezvoltat de Ralph Kimball și constă în tabele „fact” și „dimension”.
Un model dimensional în depozitul de date este conceput pentru a citi, rezuma, analiza informații numerice cum ar fi valori, solduri, numărători, greutăți etc. într-un depozit de date. În schimb, modelele de relații sunt optimizate pentru adăugarea, actualizarea și ștergerea de date într-un sistem de tranzacții online în timp real.
Aceste modele dimensionale și relaționale au modul lor unic de stocare a datelor care are avantaje specifice.
De exemplu, în modul relațional, normalizarea și modelele ER reduc redundanța în date. Dimpotrivă, modelul dimensional din depozitul de date aranjează datele în așa fel încât este mai ușor să se recupereze informații și să se genereze rapoarte.
În consecință, modelele dimensionale sunt utilizate în sistemele de depozit de date și nu se potrivesc bine pentru sistemele relaționale.
În acest tutorial, veți învăța…
- Elemente ale modelului dimensional de date
- Fapt
- Dimensiune
- Atribute
- Tabel de fapt
- Tabel de dimensiune
- Tipuri de dimensiuni în depozitul de date
- Etape ale modelării dimensionale
- Pasul 1) Identificarea procesului de afaceri
- Pasul 2) Identificarea grăunților
- Pasul 3) Identificarea dimensiunilor
- Pasul 4) Identificarea faptelor
- Pasul 5) Construirea schemei
- Reguli pentru modelarea dimensională
- Beneficii ale modelării dimensionale
Elemente ale modelului de date dimensionale
Fapte
Factele sunt măsurătorile/metricele sau faptele din procesul de afaceri. Pentru un proces de afaceri Vânzări, o măsurătoare ar fi numărul vânzărilor trimestriale
Dimensiune
Dimensiunea oferă contextul care înconjoară un eveniment din procesul de afaceri. În termeni simpli, acestea oferă cine, ce, unde dintr-un fapt. În procesul de afaceri Vânzări, pentru faptul număr trimestrial de vânzări, dimensiunile ar fi
- Cine – Numele clienților
- Unde – Locația
- Ce – Numele produsului
Cu alte cuvinte, o dimensiune este o fereastră pentru a vizualiza informațiile din fapte.
Atribute
Atributele sunt diferitele caracteristici ale dimensiunii în modelarea dimensională a datelor.
În dimensiunea locație, atributele pot fi
- Stat
- Țară
- Cod poștal etc.
Atributele sunt utilizate pentru a căuta, filtra sau clasifica faptele. Tabelele de dimensiuni conțin atribute
Fact Table
Un fact table este un tabel primar în modelarea dimensiunilor.
Un tabel de date conține
- Măsuri/facte
- Cheie externă a tabelului de dimensiuni
Tabel de dimensiuni
- Un tabel de dimensiuni conține dimensiuni ale unui fapt.
- Ele sunt alăturate la tabela de date prin intermediul unei chei străine.
- Tabele dimensionale sunt tabele de-normalizate.
- Atributele dimensiunilor sunt diferitele coloane dintr-o tabelă de dimensiuni
- Dimensiunile oferă caracteristici descriptive ale faptelor cu ajutorul atributelor acestora
- Nu există o limită stabilită pentru numărul de dimensiuni
- Dimensiunile pot conține, de asemenea, una sau mai multe relații ierarhice
Tipuri de dimensiuni în depozitul de date
În continuare sunt prezentate tipurile de dimensiuni în depozitul de date:
- Dimensiunea conformată
- Dimensiunea de declanșare
- Dimensiunea de scădere
- Dimensiunea de rol
- Dimensiunea de rol.playing Dimension
- Dimension to Dimension Table
- Junk Dimension
- Degenerate Dimension
- Swappable Dimension
- Step Dimension
Etapele modelării dimensionale
Precizia în crearea modelării dimensionale determină succesul implementării depozitului de date. Iată care sunt pașii de creare a modelului dimensional
- Identificați procesul de afaceri
- Identificați granulația (nivelul de detaliu)
- Identificați dimensiunile
- Identificați faptele
- Constituiți Steaua
Modelul trebuie să descrie De ce, Cât, Când/De unde/Cine și Ce al procesului dvs. de afaceri
Pasul 1) Identificarea procesului de afaceri
Identificarea procesului de afaceri real pe care ar trebui să îl acopere o datarehouse. Acesta ar putea fi Marketing, Vânzări, Resurse umane etc., în funcție de nevoile de analiză a datelor ale organizației. Selectarea procesului de afaceri depinde, de asemenea, de calitatea datelor disponibile pentru procesul respectiv. Aceasta este cea mai importantă etapă a procesului de modelare a datelor, iar un eșec în acest sens ar avea defecte în cascadă și ireparabile.
Pentru a descrie procesul de afaceri, puteți utiliza text simplu sau puteți folosi notele de bază Business Process Modelling Notation (BPMN) sau Unified Modelling Language (UML).
Pasul 2) Identificați granulația
Granulația descrie nivelul de detaliu pentru problema/soluția de afaceri. Este procesul de identificare a celui mai mic nivel de informații pentru orice tabel din depozitul dumneavoastră de date. Dacă un tabel conține date de vânzări pentru fiecare zi, atunci ar trebui să aibă o granularitate zilnică. Dacă un tabel conține date privind vânzările totale pentru fiecare lună, atunci acesta are granularitate lunară.
În timpul acestei etape, răspundeți la întrebări precum
- Trebuie să stocăm toate produsele disponibile sau doar câteva tipuri de produse? Această decizie se bazează pe procesele de afaceri selectate pentru Datawarehouse
- Înmagazinăm informațiile privind vânzările de produse pe o bază lunară, săptămânală, zilnică sau orară? Această decizie depinde de natura rapoartelor solicitate de directori
- Cum influențează cele două alegeri de mai sus dimensiunea bazei de date?
Exemplu de Grain:
Directorul general al unei companii multinaționale dorește să afle zilnic vânzările pentru anumite produse în diferite locații.
Deci, grâul este „informații despre vânzările de produse în funcție de locație pe zi”.
Pasul 3) Identificarea dimensiunilor
Dimensiunile sunt substantive cum ar fi data, magazinul, inventarul, etc. Aceste dimensiuni reprezintă locul în care ar trebui să fie stocate toate datele. De exemplu, dimensiunea dată poate conține date precum anul, luna și ziua săptămânii.
Exemplu de dimensiuni:
Directorul general al unei companii multinaționale dorește să afle vânzările zilnice pentru anumite produse în diferite locații.
Dimensiuni: Produs, locație și timp
Atribute: Pentru produs: Product key (Foreign Key), Name, Type, Specifications
Hierarhii: Pentru locație: Country, State, City, Street Address, Name
Pasul 4) Identificarea faptei
Acest pas este coasociat cu utilizatorii de afaceri ai sistemului, deoarece acesta este locul în care aceștia au acces la datele stocate în depozitul de date. Majoritatea rândurilor din tabelul de fapte sunt valori numerice, cum ar fi prețul sau costul pe unitate, etc.
Exemplu de fapte:
Directorul general al unei companii multinaționale dorește să afle vânzările zilnice pentru anumite produse în diferite locații.
Faptul aici este Suma vânzărilor pe produs, pe locație, pe timp.
Pasul 5) Construiți schema
În acest pas, implementați modelul de dimensiuni. O schemă nu este altceva decât structura bazei de date (aranjarea tabelelor). Există două scheme populare
- Schema în stea
Arhitectura schemei în stea este ușor de proiectat. Se numește schemă stea deoarece diagrama seamănă cu o stea, cu puncte care radiază de la un centru. Centrul stelei este format din tabela de fapte, iar punctele stelei sunt tabelele de dimensiuni.
Tabele de fapte într-o schemă stea care este a treia formă normală, în timp ce tabelele dimensionale sunt denormalizate.
- Schema fulgului de zăpadă
Schema fulgului de zăpadă este o extensie a schemei stea. Într-o schemă în formă de fulg de zăpadă, fiecare dimensiune este normalizată și conectată la mai multe tabele de dimensiuni.
Reguli pentru modelarea dimensională
În continuare sunt prezentate regulile și principiile de modelare dimensională:
- Încărcați date atomice în structuri dimensionale.
- Construiți modele dimensionale în jurul proceselor de afaceri.
- Trebuie să vă asigurați că fiecare tabel de date are asociat un tabel de dimensiuni de date.
- Asigurați-vă că toate faptele dintr-un singur tabel de date sunt la aceeași granulație sau nivel de detaliu.
- Este esențial să se stocheze etichetele rapoartelor și valorile domeniului de filtrare în tabelele de dimensiuni
- Este necesar să se asigure că tabelele de dimensiuni utilizează o cheie surogat
- Continuă să echilibreze cerințele și realitățile pentru a furniza o soluție de afaceri care să sprijine procesul decizional al acestora
Beneficiile modelării dimensionale
- Standardizarea dimensiunilor permite o raportare ușoară în toate domeniile afacerii.
- Tabele dimensionale stochează istoricul informațiilor dimensionale.
- Permite introducerea unor dimensiuni complet noi fără perturbări majore ale tabelului de fapte.
- Tabele dimensionale, de asemenea, să stocheze datele în așa fel încât să fie mai ușor de recuperat informațiile din date odată ce datele sunt stocate în baza de date.
- În comparație cu modelul normalizat, tabelele dimensionale sunt mai ușor de înțeles.
- Informațiile sunt grupate în categorii de afaceri clare și simple.
- Modelul dimensional este foarte ușor de înțeles de către întreprindere. Acest model se bazează pe termeni de afaceri, astfel încât afacerea știe ce înseamnă fiecare fapt, dimensiune sau atribut.
- Modelele dimensionale sunt deformalizate și optimizate pentru o interogare rapidă a datelor. Multe platforme de baze de date relaționale recunosc acest model și optimizează planurile de execuție a interogărilor pentru a ajuta la performanță.
- Modelarea dimensională în depozitul de date creează o schemă care este optimizată pentru o performanță ridicată. Aceasta înseamnă mai puține îmbinări și ajută la reducerea la minimum a redundanței datelor.
- Modelul dimensional ajută, de asemenea, la creșterea performanței interogărilor. Este mai denormalizat, prin urmare, este optimizat pentru interogare.
- Modelurile dimensionale pot acomoda confortabil schimbările. Tabelelor dimensionale li se pot adăuga mai multe coloane fără a afecta aplicațiile de business intelligence existente care utilizează aceste tabele.
Ce este modelul de date multidimensionale în depozitul de date?
Modelul de date multidimensionale în depozitul de date este un model care reprezintă datele sub formă de cuburi de date. Acesta permite modelarea și vizualizarea datelor în mai multe dimensiuni și este definit prin dimensiuni și fapte. Modelul de date multidimensionale este, în general, clasificat în jurul unei teme centrale și este reprezentat de un tabel de fapte.
Summary:
- Un model dimensional este o tehnică de structură a datelor optimizată pentru instrumentele de stocare a datelor.
- Factele sunt măsurătorile/metricele sau faptele din procesul dvs. de afaceri.
- Dimensiunile oferă contextul care înconjoară un eveniment din procesul de afaceri.
- Atributele sunt diversele caracteristici ale modelării dimensiunilor.
- Un tabel de fapte este un tabel primar într-un model dimensional.
- Un tabel de dimensiuni conține dimensiunile unui fapt.
- Există trei tipuri de fapte: 1. Fact. Additive 2. Non-additive 3. 4. Semi-aditiv .
- Tipurile de dimensiuni sunt dimensiuni conformate, outrigger, micșorate, de rol, dimensiuni în tabelul de dimensiuni, junk, degenerate, interschimbabile și step.
- Cinci etape ale modelării dimensionale sunt: 1. Identificarea procesului de afaceri 2. 2. Identificați Granulația (nivelul de detaliu) 3. 3. Identificarea dimensiunilor 4. Identificați faptele 5. Build Star
- Pentru modelarea dimensională în depozitul de date, este necesar să se asigure că fiecare tabel de fapte are asociat un tabel de dimensiuni de date.