Czym jest modelowanie wymiarowe w hurtowni danych?

Modelowanie wymiarowe

Modelowanie wymiarowe (DM) jest techniką struktury danych zoptymalizowaną do przechowywania danych w hurtowni danych. Celem modelowania wymiarowego jest optymalizacja bazy danych w celu szybszego wyszukiwania danych. Koncepcja modelowania wymiarowego została opracowana przez Ralpha Kimballa i składa się z tabel „faktów” i „wymiarów”.

Model wymiarowy w hurtowni danych jest przeznaczony do odczytywania, podsumowywania, analizowania informacji numerycznych, takich jak wartości, bilanse, liczniki, wagi itp. w hurtowni danych. W przeciwieństwie do tego, modele relacyjne są zoptymalizowane do dodawania, aktualizacji i usuwania danych w Online Transaction System w czasie rzeczywistym.

Te modele wymiarowe i relacyjne mają swój unikalny sposób przechowywania danych, który ma specyficzne zalety.

Na przykład, w trybie relacyjnym, normalizacja i modele ER zmniejszają nadmiarowość w danych. Przeciwnie, model wymiarowy w hurtowni danych porządkuje dane w taki sposób, że łatwiej jest wyszukać informacje i wygenerować raporty.

Stąd, modele wymiarowe są używane w systemach hurtowni danych i nie pasują dobrze do systemów relacyjnych.

W tym poradniku, dowiesz się-

  • Elementy wymiarowego modelu danych
  • Fakt
  • Wymiar
  • Atrybuty
  • Tabela faktów
  • Tabela wymiarów
  • Typy wymiarów w hurtowni danych
  • Kroki modelowania wymiarowego
  • Krok 1) Zidentyfikuj proces biznesowy
  • Krok 2) Zidentyfikuj ziarno
  • Krok 3) Zidentyfikuj wymiary
  • Krok 4) Zidentyfikuj fakt
  • Krok 5) Zbuduj schemat
  • Reguły modelowania wymiarowego
  • Korzyści z modelowania wymiarowego

Elementy modelu danych wymiarowych

Fakt

Fakty są pomiarami/metrykami lub faktami z twojego procesu biznesowego. Dla procesu biznesowego sprzedaży, pomiar byłby kwartalną liczbą sprzedaży

Wymiar

Wymiar zapewnia kontekst wokół zdarzenia procesu biznesowego. Mówiąc prościej, podają kto, co, gdzie jest faktem. W procesie biznesowym Sprzedaż, dla faktu Kwartalny numer sprzedaży, wymiarami byłyby

  • Kto – Nazwy klientów
  • Gdzie – Lokalizacja
  • Co – Nazwa produktu

Innymi słowy, wymiar jest oknem do przeglądania informacji w faktach.

Atrybuty

Atrybuty to różne cechy wymiaru w modelowaniu danych wymiarowych.

W wymiarze Location, atrybutami mogą być

  • State
  • Country
  • Zipcode etc.

Atrybuty są używane do wyszukiwania, filtrowania lub klasyfikowania faktów. Tabele wymiarów zawierają atrybuty

Tabela faktów

Tabela faktów jest tabelą podstawową w modelowaniu wymiarów.

Tabela faktów zawiera

  1. Miary/fakty
  2. Klucz obcy do tabeli wymiarów

Tabela wymiarów

  • Tabela wymiarów zawiera wymiary faktu.
  • Są one połączone z tabelą faktów za pomocą klucza obcego.
  • Tabele wymiarów są tabelami zdenormalizowanymi.
  • Atrybuty wymiarów to różne kolumny w tabeli wymiarów
  • Wymiary oferują charakterystykę opisową faktów za pomocą ich atrybutów
  • Brak ustalonego limitu liczby wymiarów
  • Wymiar może również zawierać jedną lub więcej relacji hierarchicznych

Typy wymiarów w hurtowni danych

Następujące typy wymiarów w hurtowni danych:

  • Conformed Dimension
  • Outrigger Dimension
  • Shrunken Dimension
  • Role-playing Dimension
  • Dimension to Dimension Table
  • Junk Dimension
  • Degenerate Dimension
  • Swappable Dimension
  • Step Dimension

Kroki modelowania wymiarowego

Dokładność w tworzeniu modelu wymiarowego decyduje o sukcesie wdrożenia hurtowni danych. Oto kroki tworzenia Modelu Wymiarowego

  1. Identyfikuj Proces Biznesowy
  2. Identyfikuj Ziarno (poziom szczegółowości)
  3. Identyfikuj Wymiary
  4. Identyfikuj Fakty
  5. Buduj Gwiazdę

Model powinien opisywać Dlaczego, Ile, Kiedy/Gdzie/Kto i Co Twojego procesu biznesowego

Krok 1) Zidentyfikuj Proces Biznesowy

Zidentyfikowanie rzeczywistego procesu biznesowego, który powinna obejmować hurtownia danych. Może to być Marketing, Sprzedaż, HR, itp. zgodnie z potrzebami organizacji w zakresie analizy danych. Wybór procesu biznesowego zależy również od jakości danych dostępnych dla tego procesu. Jest to najważniejszy krok w procesie Modelowania Danych, a porażka w tym zakresie spowodowałaby kaskadowe i nieodwracalne wady.

Do opisu procesu biznesowego można użyć zwykłego tekstu lub wykorzystać podstawową notację Business Process Modelling Notation (BPMN) lub Unified Modelling Language (UML).

Krok 2) Zidentyfikuj ziarno

Ziarno opisuje poziom szczegółowości dla problemu/rozwiązania biznesowego. Jest to proces identyfikowania najniższego poziomu informacji dla każdej tabeli w hurtowni danych. Jeśli tabela zawiera dane o sprzedaży dla każdego dnia, to powinna mieć ziarnistość dzienną. Jeśli tabela zawiera dane o całkowitej sprzedaży dla każdego miesiąca, to powinna mieć granularność miesięczną.

Na tym etapie odpowiadasz na pytania takie jak

  1. Czy musimy przechowywać wszystkie dostępne produkty, czy tylko kilka typów produktów? Ta decyzja zależy od procesów biznesowych wybranych dla Datawarehouse
  2. Czy przechowujemy informacje o sprzedaży produktów w cyklu miesięcznym, tygodniowym, dziennym czy godzinowym? Ta decyzja zależy od charakteru raportów wymaganych przez kierownictwo
  3. Jak powyższe dwa wybory wpływają na rozmiar bazy danych?

Przykład ziarna:

CEO w MNC chce znaleźć sprzedaż dla konkretnych produktów w różnych lokalizacjach na bazie dziennej.

Więc ziarno to „informacje o sprzedaży produktów według lokalizacji na dzień”.

Krok 3) Zidentyfikuj wymiary

Wymiary to rzeczowniki takie jak data, sklep, zapas, itp. Te wymiary są, gdzie wszystkie dane powinny być przechowywane. Na przykład, wymiar daty może zawierać dane, takie jak rok, miesiąc i dzień tygodnia.

Przykład wymiarów:

Prezes w MNC chce znaleźć sprzedaż dla określonych produktów w różnych lokalizacjach na bazie dziennej.

Wymiary: Produkt, Lokalizacja i Czas

Atrybuty: Dla Produktu: Klucz produktu (klucz obcy), Nazwa, Typ, Specyfikacja

Hierarchie: Dla Location: Country, State, City, Street Address, Name

Krok 4) Zidentyfikuj fakt

Ten krok jest współ- kojarzony z użytkownikami biznesowymi systemu, ponieważ to właśnie tutaj uzyskują oni dostęp do danych przechowywanych w hurtowni danych. Większość wierszy tabeli faktów to wartości liczbowe, takie jak cena lub koszt jednostkowy, itp.

Przykład tabeli faktów:

CEO w MNC chce znaleźć sprzedaż dla określonych produktów w różnych lokalizacjach na bazie dziennej.

Faktem jest tutaj Suma sprzedaży według produktu według lokalizacji według czasu.

Krok 5) Zbuduj Schemat

W tym kroku implementujesz Model Wymiaru. Schemat to nic innego jak struktura bazy danych (układ tabel). Istnieją dwa popularne schematy

  1. Schemat gwiaździsty

Architektura schematu gwiaździstego jest łatwa do zaprojektowania. Nazywana jest schematem gwiazdy, ponieważ schemat przypomina gwiazdę, z punktami rozchodzącymi się promieniście od centrum. Centrum gwiazdy składa się z tabeli faktów, a punkty gwiazdy to tabele wymiarów.

Tabele faktów w schemacie gwiazdy, który jest trzecią postacią normalną, podczas gdy tabele wymiarów są zdenormalizowane.

  1. Schemat płatka śniegu

Schemat płatka śniegu jest rozszerzeniem schematu gwiazdy. W schemacie płatka śniegu każdy wymiar jest znormalizowany i połączony z większą liczbą tabel wymiarów.

Reguły modelowania wymiarowego

Poniżej podano reguły i zasady modelowania wymiarowego:

  • Załaduj dane atomowe do struktur wymiarowych.
  • Buduj modele wymiarowe wokół procesów biznesowych.
  • Zapewnij, że każda tabela faktów ma powiązaną tabelę wymiarów daty.
  • Zapewnij, że wszystkie fakty w pojedynczej tabeli faktów są na tym samym ziarnie lub poziomie szczegółowości.
  • Niezbędne jest przechowywanie etykiet raportów i wartości domen filtrów w tabelach wymiarów
  • Należy zapewnić, że tabele wymiarów używają klucza zastępczego
  • Ciągle balansować wymagania i realia, aby dostarczyć rozwiązanie biznesowe wspierające podejmowanie decyzji

Korzyści z modelowania wymiarowego

  • Standaryzacja wymiarów pozwala na łatwe raportowanie w różnych obszarach działalności.
  • Tablice wymiarów przechowują historię informacji wymiarowych.
  • Pozwalają na wprowadzenie całkowicie nowego wymiaru bez większych zakłóceń w tabeli faktów.
  • Wymiarowe również do przechowywania danych w taki sposób, że łatwiej jest odzyskać informacje z danych, gdy dane są już przechowywane w bazie danych.
  • W porównaniu do znormalizowanego modelu tabele wymiarowe są łatwiejsze do zrozumienia.
  • Informacje są pogrupowane w jasne i proste kategorie biznesowe.
  • Model wymiarowy jest bardzo zrozumiały dla biznesu. Model ten jest oparty na terminach biznesowych, dzięki czemu biznes wie, co oznacza każdy fakt, wymiar lub atrybut.
  • Modele wymiarowe są zdeformalizowane i zoptymalizowane do szybkiego odpytywania danych. Wiele platform relacyjnych baz danych rozpoznaje ten model i optymalizuje plany wykonania zapytań, aby pomóc w wydajności.
  • Modelowanie wymiarowe w hurtowni danych tworzy schemat, który jest zoptymalizowany pod kątem wysokiej wydajności. Oznacza to mniej złączeń i pomaga zminimalizować redundancję danych.
  • Model wymiarowy pomaga również zwiększyć wydajność zapytań. Jest on bardziej zdenormalizowany, dlatego jest zoptymalizowany pod kątem zapytań.
  • Modele wymiarowe mogą wygodnie dostosowywać się do zmian. Tabele wymiarowe mogą mieć więcej kolumn dodanych do nich bez wpływu na istniejące aplikacje business intelligence używające tych tabel.

Co to jest wielowymiarowy model danych w hurtowni danych?

Wielowymiarowy model danych w hurtowni danych jest modelem, który reprezentuje dane w postaci kostek danych. Pozwala on na modelowanie i przeglądanie danych w wielu wymiarach i jest definiowany przez wymiary i fakty. Wielowymiarowy model danych jest zazwyczaj skategoryzowany wokół centralnego tematu i reprezentowany przez tabelę faktów.

Podsumowanie:

  • Model wymiarowy to technika struktury danych zoptymalizowana dla narzędzi hurtowni danych.
  • Fakty to pomiary/metryki lub fakty z twojego procesu biznesowego.
  • Wymiar zapewnia kontekst otaczający zdarzenie procesu biznesowego.
  • Atrybuty są różnymi cechami modelowania wymiaru.
  • Tabela faktów jest podstawową tabelą w modelu wymiarowym.
  • Tabela wymiarów zawiera wymiary faktu.
  • Istnieją trzy rodzaje faktów 1. Addytywne 2. Nieaddytywne 3. Półdodatnie .
  • Typami wymiarów są: Conformed, Outrigger, Shrunken, Role-playing, Dimension to Dimension Table, Junk, Degenerate, Swappable i Step Dimensions.
  • Pięć kroków modelowania wymiarowego to 1. Zidentyfikuj proces biznesowy 2. Zidentyfikuj Ziarno (poziom szczegółowości) 3. Zidentyfikuj wymiary 4. Zidentyfikuj fakty 5. Build Star
  • W przypadku modelowania wymiarowego w hurtowni danych istnieje potrzeba zapewnienia, że każda tabela faktów ma powiązaną tabelę wymiarów dat.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.