データウェアハウスにおける次元モデリングとは?

Dimensional Modeling

Dimensional Modeling (DM) はデータウェアハウスのデータ保存に最適化したデータ構造技術である。 ディメンショナル・モデリングの目的は、データをより速く検索できるようにデータベースを最適化することである。 次元モデリングの概念はラルフ・キンボールによって開発され、「ファクト」テーブルと「ディメンション」テーブルで構成されています。

データウェアハウスにおける次元モデルは、データウェアハウス内の値、残高、回数、重さなどの数値情報を読み取り、要約し、分析するために設計されたものである。 これに対して、リレーションモデルは、リアルタイムのオンライン・トランザクション・システムにおけるデータの追加、更新、削除に最適化されたモデルである。

これらのディメンジョンモデルとリレーショナルモデルには、それぞれ特有の利点を持つデータ保存の方法がある。

たとえば、リレーショナル・モードでは、正規化とERモデルによってデータの冗長性を減らすことができる。 逆に、データウェアハウスにおける次元モデルは、情報の検索やレポートの作成が容易になるようにデータを配置する。

したがって、ディメンショナルモデルはデータウェアハウスシステムで使用され、リレーショナルシステムにはあまり適していません。

このチュートリアルでは、次のことを学びます。 を学ぶことができます。

  • 次元データモデルの要素
  • ファクト
  • ディメンション
  • 属性
  • ファクト表
  • 次元表
  • データウェアハウスにおける次元の種類
  • 次元モデリングのステップ
  • ステップ1)ビジネスプロセスの特定 ステップ2)粒の特定
  • Step 3) Dimensions
  • Step 4) Fact
  • Step 5) Build Schema
  • Dimensional Modellingのルール
  • Dimensional Modelingのメリット

Elements of Dimensional Data Model

Fact

Factsとはビジネスプロセスからの計測/評価値や事実のことです。 販売ビジネスプロセスでは、測定値は、四半期の売上番号になります

Dimension

次元は、ビジネスプロセスのイベントを取り巻くコンテキストを提供します。 簡単に言うと、ある事実の「誰」「何」「どこ」を示すものです。 販売ビジネスプロセスでは、四半期ごとの販売数というファクトに対して、ディメンションは

  • Who – 顧客名
  • Where – 場所
  • What – 製品名

言い換えれば、ディメンションはファクト内の情報を見るためのウィンドウに相当します。

Attributes

属性とは、ディメンション・データ・モデリングにおけるディメンションの諸特性である。

Location ディメンジョンでは、属性は

  • State
  • Country
  • Zipcode などです。

属性は、検索、フィルタ、または分類にファクトを使用します。 ディメンジョンテーブルには属性が含まれます

ファクトテーブル

ファクトテーブルは、ディメンジョンモデリングの主テーブルです。

ファクト・テーブルには

  1. Measurements/facts
  2. Foreign key to dimension table

Dimension Table

  • 次元テーブルにはファクトの次元が含まれます。
  • これらは、外部キーによってファクト・テーブルに結合されます。
  • 次元テーブルは、非正規化テーブルです。
  • ディメンション属性は、ディメンション・テーブルのさまざまな列です。
  • ディメンションは、属性を使用してファクトの記述的な特性を提供します。
    • Conformed Dimension
    • Outrigger Dimension
    • Shrunken Dimension
    • Role->Data WarehouseのDimensionの種類は以下の通りです。Dimension to Dimension Table
    • Junk Dimension
    • Degenerate Dimension
    • Swappable Dimension
    • Step Dimension

Steps of Dimensional Modelling

データウェアハウス実装は次元モデリングの作成精度により成功が決定されます。 以下は、ディメンションモデル

  1. ビジネスプロセスの特定
  2. 粒度(詳細度)の特定
  3. ディメンションの特定
  4. 事実の特定
  5. スターの構築

モデルは、なぜを記述しなければなりません。 ビジネスプロセスのHow much, When/Where/Who and What

Step 1) Identify the Business Process

Datarehouse がカバーすべき実際のビジネスプロセスを特定することです。 これは、組織のデータ分析ニーズに従って、マーケティング、販売、人事などである可能性があります。 ビジネスプロセスの選択は、そのプロセスで利用可能なデータの品質にも依存します。 これはデータモデリングプロセスの最も重要なステップであり、ここで失敗すると、取り返しのつかない欠陥が連鎖的に発生することになります。

ビジネスプロセスを記述するには、プレーンテキストを使用するか、基本的なビジネスプロセスモデリング表記法(BPMN)または統一モデリング言語(UML)を使用することができます。

ステップ 2) 粒度の特定

粒度は、ビジネス上の問題/ソリューションの詳細レベルを記述するものです。 これは、データウェアハウス内の任意のテーブルの情報の最小レベルを識別するプロセスです。 もし、あるテーブルが毎日の売上データを含んでいるならば、それは日次の粒度であるべきです。 もし、あるテーブルが各月の総売上データを含んでいるならば、それは月次粒度である。

この段階では、

  1. 利用可能なすべての製品を格納する必要があるのか、それとも数種類の製品だけを格納する必要があるのか、といった質問に答えます。 この決定は、データウェアハウスに選択されたビジネスプロセスに基づいています
  2. 商品の販売情報を月単位、週単位、日単位、時間単位で保存するか? この決定は、エグゼクティブが要求するレポートの性質に依存します
  3. 上記の2つの選択は、データベースサイズにどのように影響しますか

Grainの例。

ある MNC の CEO は、さまざまな場所での特定の製品の売上を日次で調べたいと考えています。

そこで、穀物は “日別の場所による製品の販売情報 “です。

ステップ3)ディメンションを特定する

ディメンションとは、日付、店舗、在庫などの名詞のことです。 これらのディメンションは、すべてのデータが格納されるべき場所です。 たとえば、日付ディメンジョンには、年、月、曜日のようなデータが含まれる場合があります。

ディメンジョンの例。

ある多国籍企業のCEOは、さまざまな場所での特定の製品の売上を日次で調べたいと考えています。

次元。 製品、場所、時間

属性。 Productについて。 Product key (Foreign Key)、Name、Type、Specifications

Hierarchies: Locationの場合。 国、州、市、住所、名前

ステップ4)ファクトの特定

このステップは、システムのビジネスユーザーと共同で行われるもので、データウェアハウスに格納されているデータにアクセスする場所だからです。 ファクトテーブルの行のほとんどは、価格や単位あたりのコストなどの数値です。

ファクトの例です。

あるMNCのCEOは、さまざまな場所での特定の製品の売上を日次で調べたいと考えています。

ここでのファクトは、製品別、場所別、時間別の売上高の合計です。

ステップ5)スキーマの構築

このステップでは、ディメンションモデルを実装します。 スキーマとは、データベースの構造(テーブルの配置)にほかならない。 よく使われるスキーマは2つある

  1. Star Schema

スタースキーマのアーキテクチャは設計が簡単である。 図が星に似ていて、中心から放射状に点が伸びているので、スタースキーマと呼ばれる。 星の中心はファクト・テーブルで構成され、星の点は次元テーブルです。

スター・スキーマのファクト・テーブルは第3正規形であり、次元テーブルは非正規化されています。

  1. Snowflake Schema

雪片スキーマはスタースキーマの拡張版である。 スノーフレーク・スキーマでは、各次元は正規化され、より多くの次元テーブルに接続される。

次元モデリングのルール

次元モデリングのルールと原則は次のとおりです。

  • 原子データを次元構造にロードします。
  • ビジネス・プロセスを中心に次元モデルを構築します。
  • すべてのファクト・テーブルに関連する日付次元テーブルがあるようにする必要があります。
  • 単一のファクト・テーブルのすべてのファクトが同じ粒子または詳細レベルであるようにします。
  • レポート・ラベルおよびフィルタ・ドメイン値をディメンジョン・テーブルに格納することが不可欠である。
  • ディメンジョン・テーブルでサロゲート・キーを確実に使用する必要がある。

ディメンジョン・モデリングの利点

  • ディメンションを標準化すると、ビジネス領域全体で簡単にレポートを作成することができます。
  • ディメンション・テーブルには、ディメンション情報の履歴が保存されます。
  • ファクト・テーブルを大きく崩すことなく、まったく新しい次元を導入できます。
  • 次元は、データがデータベースに格納されると、そのデータから情報を取得することが容易になるようにデータを格納することもできます。
  • 正規化モデル次元テーブルと比較すると、理解しやすくなっています。
  • 情報は、明確かつ単純なビジネスカテゴリにグループ化されています。
  • 次元モデルは、ビジネスで非常に理解しやすい。 このモデルはビジネス用語に基づいているため、ビジネスは各ファクト、ディメンジョン、または属性が何を意味するかを知っています。
  • 次元モデルは非正規化され、高速なデータ照会に最適化されています。 多くのリレーショナル データベース プラットフォームはこのモデルを認識し、パフォーマンスを向上させるためにクエリ実行プランを最適化します。
  • データウェアハウスにおける次元モデリングは、高いパフォーマンスを実現するために最適化されたスキーマを作成します。 これは、より少ない結合を意味し、データの冗長性を最小化するのに役立ちます。
  • 次元モデルは、クエリのパフォーマンスも向上させることができます。 より非正規化されているため、クエリに最適化されています。
  • 次元モデルは変化に快適に対応することができる。 ディメンション・テーブルは、これらのテーブルを使用する既存のビジネス・インテリジェンス・アプリケーションに影響を与えることなく、より多くの列を追加することができる。

データウェアハウスにおける多次元データモデルとは?

データウェアハウスにおける多次元データモデルは、データをデータキューブの形で表現したモデルです。 データを多次元でモデル化し、表示することができ、ディメンションとファクトによって定義されます。 多次元データモデルは、一般的に中心的なテーマを中心に分類され、ファクトテーブルで表現される。

サマリー。

  • 次元モデルは、データウェアハウス ツールに最適化されたデータ構造手法です。
  • ファクトは、ビジネス プロセスからの測定値/メトリックまたは事実です。
  • 属性は、ディメンション・モデリングのさまざまな特性です。
  • ファクト・テーブルは、ディメンション・モデル内の主テーブルです。 加法的なもの 2. 非加算 3.
  • 次元の種類は、Conformed、Outrigger、Shrunken、Role-playing、Dimension to Dimension Table、Junk、Degenerate、Swapable、Step Dimensionsである。
  • ディメンジョンモデリングの5つのステップとは、1. ビジネスプロセスを特定する 2. グレイン(詳細度)の特定 3. 次元の特定 4. 事実の特定 5. 5441>
  • データウェアハウスで次元モデリングを行うには、すべてのファクトテーブルに関連する日付次元テーブルがあることを確認する必要があります。

コメントを残す

メールアドレスが公開されることはありません。