- El modelado dimensional
- Elementos del Modelo de Datos Dimensional
- Hecho
- Dimensión
- Atributos
- Tabla de hechos
- Tabla de dimensiones
- Tipos de dimensiones en Data Warehouse
- Pasos del Modelado Dimensional
- Paso 1) Identificar el Proceso de Negocio
- Paso 2) Identificar el Grano
- Paso 3) Identificar las Dimensiones
- Paso 4) Identificar el Hecho
- Paso 5) Construir Esquema
- Reglas para el modelado dimensional
- Beneficios del modelado dimensional
- ¿Qué es el modelo de datos multidimensional en el almacén de datos?
- Resumen:
El modelado dimensional
El modelado dimensional (DM) es una técnica de estructura de datos optimizada para el almacenamiento de datos en un almacén de datos. El propósito del modelado dimensional es optimizar la base de datos para una recuperación más rápida de los datos. El concepto de Modelado Dimensional fue desarrollado por Ralph Kimball y consiste en tablas de «hechos» y «dimensiones».
Un modelo dimensional en el almacén de datos está diseñado para leer, resumir y analizar información numérica como valores, balances, recuentos, pesos, etc. en un almacén de datos. En cambio, los modelos de relación están optimizados para la adición, actualización y eliminación de datos en un sistema de transacciones en línea en tiempo real.
Estos modelos dimensionales y relacionales tienen su forma única de almacenamiento de datos que tiene ventajas específicas.
Por ejemplo, en el modo relacional, la normalización y los modelos ER reducen la redundancia de los datos. Por el contrario, el modelo dimensional en el almacén de datos ordena los datos de tal manera que es más fácil recuperar la información y generar informes.
Por lo tanto, los modelos dimensionales se utilizan en los sistemas de almacén de datos y no es un buen ajuste para los sistemas relacionales.
En este tutorial, usted aprenderá-
- Elementos del modelo de datos dimensional
- Hecho
- Dimensión
- Atributos
- Tabla de hechos
- Tabla de dimensiones
- Tipos de dimensiones en el almacén de datos
- Pasos del modelado dimensional
- Paso 1) Identificar el proceso de negocio
- Paso 2) Identificar el grano.
- Paso 3) Identificar las Dimensiones
- Paso 4) Identificar el Hecho
- Paso 5) Construir el Esquema
- Reglas para el Modelado Dimensional
- Beneficios del Modelado Dimensional
Elementos del Modelo de Datos Dimensional
Hecho
Los hechos son las mediciones/métricas o hechos de su proceso de negocio. Para un proceso de negocio de Ventas, una medida sería el número de ventas trimestrales
Dimensión
La dimensión proporciona el contexto que rodea a un evento del proceso de negocio. En términos simples, dan quién, qué, dónde de un hecho. En el proceso de negocio de Ventas, para el hecho número de ventas trimestrales, las dimensiones serían
- Quién – Nombres de clientes
- Dónde – Ubicación
- Qué – Nombre del producto
En otras palabras, una dimensión es una ventana para ver la información de los hechos.
Atributos
Los Atributos son las distintas características de la dimensión en el modelado de datos dimensionales.
En la dimensión Ubicación, los atributos pueden ser
- Estado
- País
- Código Postal etc.
Los atributos se utilizan para buscar, filtrar o clasificar los hechos. Las tablas de dimensiones contienen atributos
Tabla de hechos
Una tabla de hechos es una tabla primaria en el modelado de dimensiones.
Una tabla de hechos contiene
- Medidas/hechos
- Clave externa de la tabla de dimensiones
Tabla de dimensiones
- Una tabla de dimensiones contiene dimensiones de un hecho.
- Se unen a la tabla de hechos a través de una clave foránea.
- Las tablas de dimensiones son tablas desnormalizadas.
- Los atributos de las dimensiones son las distintas columnas de una tabla de dimensiones
- Las dimensiones ofrecen características descriptivas de los hechos con la ayuda de sus atributos
- No se ha establecido un límite determinado para el número de dimensiones
- La dimensión también puede contener una o más relaciones jerárquicas
Tipos de dimensiones en Data Warehouse
Los siguientes son los tipos de dimensiones en Data Warehouse:
- Dimensión Conformada
- Dimensión Desencadenante
- Dimensión Hundida
- Dimensión de Rol-jugando Dimensión
- Dimensión a la Tabla de Dimensión
- Dimensión Chatarra
- Dimensión Degenerada
- Dimensión Intercambiable
- Dimensión de Paso
Pasos del Modelado Dimensional
La precisión en la creación de su modelado Dimensional determina el éxito de la implementación de su almacén de datos. Estos son los pasos para crear el Modelo Dimensional
- Identificar el Proceso de Negocio
- Identificar el Grano (nivel de detalle)
- Identificar las Dimensiones
- Identificar los Hechos
- Construir la Estrella
El modelo debe describir el Por qué, Cuánto, Cuándo/Dónde/Quién y Qué de su proceso de negocio
Paso 1) Identificar el Proceso de Negocio
Identificar el proceso de negocio real que un datarehouse debe cubrir. Podría ser Marketing, Ventas, RRHH, etc. según las necesidades de análisis de datos de la organización. La selección del proceso de negocio también depende de la calidad de los datos disponibles para ese proceso. Es el paso más importante del proceso de Modelado de Datos, y un fallo aquí tendría defectos en cascada e irreparables.
Para describir el proceso de negocio, se puede utilizar texto plano o utilizar la Notación Básica de Modelado de Procesos de Negocio (BPMN) o el Lenguaje de Modelado Unificado (UML).
Paso 2) Identificar el Grano
El Grano describe el nivel de detalle para el problema/solución de negocio. Es el proceso de identificar el nivel más bajo de información para cualquier tabla en su almacén de datos. Si una tabla contiene datos de ventas para todos los días, entonces debe tener una granularidad diaria. Si una tabla contiene datos de ventas totales para cada mes, entonces tiene granularidad mensual.
Durante esta etapa, se responde a preguntas como
- ¿Necesitamos almacenar todos los productos disponibles o sólo unos pocos tipos de productos? Esta decisión se basa en los procesos de negocio seleccionados para el Datawarehouse
- ¿Almacenamos la información de venta de productos de forma mensual, semanal, diaria o por horas? Esta decisión depende de la naturaleza de los informes solicitados por los ejecutivos
- ¿Cómo afectan las dos opciones anteriores al tamaño de la base de datos?
Ejemplo de Grano:
El director general de una empresa multinacional quiere encontrar las ventas de productos específicos en diferentes lugares sobre una base diaria.
Entonces, el grano es «información de venta de productos por ubicación por día».
Paso 3) Identificar las Dimensiones
Las dimensiones son sustantivos como fecha, tienda, inventario, etc. Estas dimensiones son donde se deben almacenar todos los datos. Por ejemplo, la dimensión de fecha puede contener datos como el año, el mes y el día de la semana.
Ejemplo de Dimensiones:
El director general de una empresa multinacional quiere encontrar las ventas de productos específicos en diferentes lugares a diario.
Dimensiones: Producto, Ubicación y Tiempo
Atributos: Para el Producto: Clave de producto (Foreign Key), Nombre, Tipo, Especificaciones
Jerarquías: Para Ubicación: País, Estado, Ciudad, Dirección, Nombre
Paso 4) Identificar el Hecho
Este paso está co-asociado con los usuarios de negocio del sistema porque es donde acceden a los datos almacenados en el almacén de datos. La mayoría de las filas de la tabla de hechos son valores numéricos como el precio o el coste por unidad, etc.
Ejemplo de hechos:
El director general de una empresa multinacional quiere encontrar las ventas de productos específicos en diferentes lugares sobre una base diaria.
El hecho aquí es Suma de Ventas por producto por ubicación por tiempo.
Paso 5) Construir Esquema
En este paso se implementa el Modelo de Dimensiones. Un esquema no es más que la estructura de la base de datos (arreglo de tablas). Hay dos esquemas populares
- Esquema en estrella
La arquitectura del esquema en estrella es fácil de diseñar. Se llama un esquema de estrella porque el diagrama se asemeja a una estrella, con puntos que irradian desde un centro. El centro de la estrella consiste en la tabla de hechos, y los puntos de la estrella son tablas de dimensiones.
Las tablas de hechos en un esquema de estrella que es la tercera forma normal, mientras que las tablas de dimensiones son de-normalizadas.
- Esquema de copo de nieve
El esquema de copo de nieve es una extensión del esquema de estrella. En un esquema de copo de nieve, cada dimensión se normaliza y se conecta a más tablas de dimensión.
Reglas para el modelado dimensional
Las siguientes son las reglas y principios del modelado dimensional:
- Cargar datos atómicos en estructuras dimensionales.
- Construir modelos dimensionales en torno a los procesos de negocio.
- Asegurarse de que cada tabla de hechos tiene una tabla de dimensión de fecha asociada.
- Asegurarse de que todos los hechos de una misma tabla de hechos tienen el mismo grano o nivel de detalle.
- Es imprescindible almacenar las etiquetas de los informes y los valores de los dominios de filtrado en las tablas de dimensiones
- Debe asegurarse que las tablas de dimensiones utilicen una clave sustituta
- Equilibrar continuamente los requisitos y las realidades para ofrecer una solución empresarial que apoye su toma de decisiones
Beneficios del modelado dimensional
- La estandarización de las dimensiones permite informar fácilmente en todas las áreas del negocio.
- Las tablas de dimensiones almacenan el historial de la información dimensional.
- Permite introducir una dimensión completamente nueva sin grandes interrupciones en la tabla de hechos.
- Las dimensiones también almacenan los datos de tal manera que es más fácil recuperar la información de los datos una vez que los datos se almacenan en la base de datos.
- Comparado con el modelo normalizado las tablas dimensionales son más fáciles de entender.
- La información se agrupa en categorías empresariales claras y sencillas.
- El modelo dimensional es muy comprensible para el negocio. Este modelo se basa en términos de negocio, por lo que el negocio sabe lo que significa cada hecho, dimensión o atributo.
- Los modelos dimensionales están deformados y optimizados para la consulta rápida de datos. Muchas plataformas de bases de datos relacionales reconocen este modelo y optimizan los planes de ejecución de las consultas para ayudar al rendimiento.
- El modelado dimensional en el almacén de datos crea un esquema optimizado para un alto rendimiento. Significa menos uniones y ayuda a minimizar la redundancia de datos.
- El modelo dimensional también ayuda a aumentar el rendimiento de las consultas. Es más desnormalizado por lo tanto está optimizado para la consulta.
- Los modelos dimensionales pueden acomodar cómodamente los cambios. Las tablas dimensionales pueden tener más columnas añadidas sin afectar a las aplicaciones de inteligencia empresarial existentes que utilizan estas tablas.
¿Qué es el modelo de datos multidimensional en el almacén de datos?
El modelo de datos multidimensional en el almacén de datos es un modelo que representa los datos en forma de cubos de datos. Permite modelar y visualizar los datos en múltiples dimensiones y se define por dimensiones y hechos. El modelo de datos multidimensional está generalmente categorizado alrededor de un tema central y representado por una tabla de hechos.
Resumen:
- Un modelo dimensional es una técnica de estructura de datos optimizada para las herramientas de Data warehousing.
- Los hechos son las medidas/métricas o hechos de su proceso de negocio.
- La dimensión proporciona el contexto que rodea a un evento del proceso de negocio.
- Los atributos son las diversas características del modelado de la dimensión.
- Una tabla de hechos es una tabla primaria en un modelo dimensional.
- Una tabla de dimensiones contiene dimensiones de un hecho.
- Hay tres tipos de hechos 1. Aditivos 2. No aditivo 3. Semi-aditivos .
- Los tipos de cotas son Conformes, Voladizos, Encogidos, Roleados, Tabla de cotas a cotas, Chatarra, Degenerados, Intercambiables y Cotas escalonadas.
- Los cinco pasos del modelado dimensional son 1. Identificar el Proceso de Negocio 2. Identificar el Grano (nivel de detalle) 3. Identificar las Dimensiones 4. Identificar Hechos 5. Construir Estrella
- Para el modelado dimensional en el almacén de datos, es necesario asegurarse de que cada tabla de hechos tiene una tabla de dimensión de fecha asociada.