1. Datawarehousing
Entre estos procesos generales podemos encontrar los siguientes:
- Fuentes de Datos
Son los orígenes de datos que pueden ser internos o externos, pueden ser de diferentes naturalezas: archivos, bases de datos, web, video, sonido, etc.
- ETL
Son los procesos de Extracción, Transformación y Carga de Datos, apoyados en herramientas ETL como Integration Services.
- Modelamiento
Es la fase en que se traduce en un modelo dimensional los requerimientos del negocio.
- Datamarts / Datawarehouse
Son los repositorios de datos que almacenan el modelo de datos orientados al negocio.
- Reportes Empresariales
Son herramientas que permiten mostrar datos de negocio a través de reportes estándares pero con distintas capacidades como reportes históricos, en caché, etc.
- OLAP y Datamining
Es la construcción de estructuras multidimensionales y predictivas para el negocio.
- Entrega de la Información
Es la manera de dar al usuario final los reportes de inteligencia de negocios a través de agentes automatizados y formatos y medios requeridos por el usuario de negocio.
2. Datawarehouse
Un Data Warehouse (DWH) es un repositorio central que contiene la información más valiosa de la empresa. Los datos que aquí se almacenan han pasado por un proceso de calidad que asegura su consistencia. Además, el repositorio está construido de tal manera que el acceso sea lo más rápido posible.
La construcción del DataWarehouse se va realizando por etapas que normalmente corresponden a las principales áreas operativas de la empresa. Por ejemplo: Área de Ventas, Área Financiero Contable, Área de Recursos Humanos, etc. Estas áreas reciben el nombre de DataMarts.
Los Data Warehouses (Base de Datos OLAP, On-Line Analytical Processing) son diseñados para cumplir con un conjunto de metas, las cuales son muy diferentes de los objetivos de un sistema transaccional (OLTP, On-Line Transaction Processing). Por ejemplo, una meta de los OLTP es maximizar la concurrencia mediante el uso de locks, dicho objetivo no es pertinente en el diseño de DW donde las operaciones son solo de consulta, es decir del tipo SELECT.
Además de las técnicas de diseño, un desarrollador de Data Warehousing debe focalizarse en entregar un análisis multidimensional y capacidades de reportes ad-hoc (generación de reportes por parte del usuario experto basados en el conocimiento del negocio). Para realizar esto, el diseñador necesita conocer los requerimientos del negocio tan bien como las técnicas de diseño multidimensional.
3. Diseño e implementación de Datawarehouse
"Un Data Warehouse no se puede comprar, se tiene que construir". La construcción, implantación y diseño de un Data Warehouse es un proceso evolutivo.
Este proceso se tiene que apoyar en una metodología específica para este tipo de procesos, si bien es más importante que la elección de la mejor de las metodologías, el realizar un control para asegurar el seguimiento de la misma. En las fases que se establezcan en el alcance del proyecto es fundamental el
incluir una fase de formación en la herramienta utilizada para un máximo aprovechamiento de la aplicación. El seguir los pasos de la metodología y el comenzar el Data Warehouse por un área específica de la empresa, nos permitirá obtener resultados tangibles en un corto espacio de tiempo.
Planteamos aquí la metodología propuesta por SAS Institute: la "Rapid Warehousing Methodology". Dicha metodología es iterativa, y está basada en el desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases.
- Definición de los objetivos
- Definición de los requerimientos de información
- Diseño y modelización
- Implementación
- Revisión
3.1 Clasificación de las Medidas
- Naturales: Son aquellas que se obtienen por agregación de los datos originales.
- Suma : Suma los valores de las columnas
- Cuenta : Conteo de los valores
- Mínima : Valor mínimo
- Máxima : Valor máximo
- Cuenta de Distintos : Valores Diferentes
- Calculadas: Si se derivan de una medida natural
- Cálculos matemáticos
- Expresiones condicionales
- Alertas
3.2 Definición de los objetivos
- Establece claramente la finalidad hacia la cual deben dirigirse los recursos y esfuerzos para dar cumplimiento a los propósitos del proyecto.
- Es preciso “vender la idea” a los usuarios finales (todos los niveles: a la Dirección, Gerencia e incluso al área de Desarrollo) de un Data Warehouse.
- Se definirá el equipo de proyecto
- Se definirá el alcance
- Se definirán cuáles son las funciones que el Data Warehouse realizará como suministrador de información de negocio estratégica para la empresa.
3.3 Definición de los requerimientos de información
- Tal como sucede en todo tipo de proyectos, sobre todo si involucran técnicas novedosas como son las relativas al Data Warehouse, es analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar.
- Será en este punto, en donde detallaremos los pasos a seguir en un proyecto de este tipo en donde el usuario va a jugar un papel tan destacado.
- Analizar las necesidades y hacer comprender las ventajas que este sistema puede reportar.
- Se mantendrán sucesivas entrevistas con los usuarios finales y TI para definir las necesidades de información requerida.
- Se realizará el estudio de los sistemas de información existentes.
- Se definirá la estrategia y arquitectura de implantación del Data Warehouse.
3.4 Diseño y modelización
- Los requerimientos de información identificados durante la anterior fase proporcionarán las bases para realizar el diseño y la modelización del Data Warehouse.
- En esta fase, se identificarán las fuentes de los datos (sistema operacional, fuentes externas, etc.) y las transformaciones necesarias para, a partir de dichas fuentes, obtener el modelo lógico de datos del Data Warehouse.
- Este modelo estará formado por entidades y relaciones que permitirán resolver las necesidades de negocio de la organización.
- El modelo lógico se traducirá posteriormente en el modelo físico de datos que se almacenará en el Data Warehouse y que definirá la arquitectura de almacenamiento del Data Warehouse, adaptándose al tipo de explotación que se realice del mismo.
- La mayor parte de estas definiciones de los datos del Data Warehouse estarán almacenadas en los metadatos y formarán parte del mismo.
3.5 Implementación
La implantación de un Data Warehouse lleva implícitos los siguientes pasos:
- Extracción de los datos del sistema operacional y transformación de los mismos.
- Carga de los datos validados en el Data Warehouse. Esta carga deberá ser planificada con una periodicidad que se adaptará a las necesidades de refresco detectadas durante las fases de diseño del nuevo sistema.
- Explotación del Data Warehouse mediante diversas técnicas dependiendo del tipo de aplicación que se dé a los datos.
- Query & Reporting
- On-line analytical processing (OLAP)
- Executive Information System (EIS) ó Información de gestión
- Decision Support Systems (DSS)
- Visualización de la información
- Data Mining o Minería de Datos, etc.
- La información necesaria para mantener el control sobre los datos se almacena en los metadatos técnicos (cuando describen las características físicas de los datos), metadatos operativos (programación de cargas, etc.) y de negocio (cuando describen cómo se usan esos datos). Dichos metadatos deberán ser accesibles por los usuarios finales que permitirán en todo momento tanto al usuario, como al administrador que deberá además tener la facultad de modificarlos según varíen las necesidades de información.
- Con la finalización de esta fase se obtendrá un Data Warehouse disponible para su uso por parte de los usuarios finales y el departamento de informática.
3.6 Revisión
- La construcción del Data Warehouse no finaliza con la implantación del mismo, sino que es una tarea iterativa en la que se trata de incrementarsu alcance aprendiendo de las experiencias anteriores.
- Después de implantarse, debería realizarse una revisión del Data Warehouse planteando preguntas que permitan, después de los seis o nueve meses posteriores a su puesta en marcha, definir cuáles serían los aspectos a mejorar o potenciar en función de la utilización que se haga del nuevo sistema.
3.7 Diseño de la estructura de cursos de formación
- Con la información obtenida de reuniones con los distintos usuarios se diseñarán una serie de cursos a medida, que tendrán como objetivo el proporcionar la formación estadística necesaria para el mejor aprovechamiento de la funcionalidad incluida en la aplicación.
- Se realizarán prácticas sobre el desarrollo realizado, las cuales permitirán fijar los conceptos adquiridos y servirán como formación a los usuarios.
4. SQL Parallel Datawarehouse
SQL Server 2014 posee las siguientes ediciones:
- Enterprise (64 bits y 32 bits)
- Business Intelligence (64 bits y 32 bits)
- Standard (64 bits y 32 bits)
- Web (64 bits y 32 bits)
- Developer (64 bits y 32 bits)
- Ediciones Express (64 bits y 32 bits)
- Parallel Datawarehouse
Las Ediciones que manejan de mejor manera las soluciones de Business Intelligence son Business Intelligence, Enterprise y Parallel Datawarehouse teniendo como mejor uso las que vienen en arquitectura de 64 bits.
La edición Business Intelligence es más para ambientes departamentales, mientras la versión Enterprise es para ambientes empresariales. Sin embargo, la formance presenta es la versión Parallel Datawarehouse.
SQL Server Parallel Datawarehouse (PDW): Es una solución Appliance del tipo MPP, tecnología que permite el uso de más de 32 microprocesadores.
Entre sus características encontramos las siguientes:
- Viene en dos versiones de hardware bajo plataforma HP y Dell.
- El software viene pre-instalado y afinado para soluciones Business Intelligence.
- Polybase, nuevo motor de procesamiento que permite integrar la data tradicional del Data Warehouse y el “Big Data”. Usa el lenguaje estándar TSQL (en vez de MapReduce) para acceder y unir data Hadoop con data relacional.
- Entre otras características es el bajo precio de almacenamiento frente a otros proveedores de soluciones Business Intelligence.
VIDEOS COMPLEMENTARIOS
Data Warehousing - An Overview
Introduction to Microsoft Parallel Data Warehouse (PDW)
Building BI Solutions with Microsoft SQL Server Parallel Data Warehouse (PDW)
Polybase in the Modern Data Warehouse
LECTURAS COMPLEMENTARIOS
1. Implementación de un modelo básico para el uso de la información Georeferencial en aplicación de BI; caso de estudio: Empresa de Retailhttp://www.google.com.pe/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwj446ubnZjKAhWIDJAKHfP-CxIQFggaMAA&url=http%3A%2F%2Frepositorio.puce.edu.ec%2Fbitstream%2Fhandle%2F22000%2F8084%2FDisertacion_de%2520Grado_Hypatia_Merino.pdf%3Fsequence%3D1%26isAllowed%3Dy&usg=AFQjCNHtuhoZwbTEH6i7qaimkd-qg-Hmkw
2. Parallel Data Warehouse (PWD)
http://www.jamesserra.com/archive/2014/03/parallel-data-warehouse-pdw-benefits-made-simple/
No hay comentarios:
Publicar un comentario