2016

lunes, 21 de noviembre de 2016

DATA MINING


QUE ES DATA MINING

La minería de datos son distintos procesos y métodos cualitativos en donde se trabaja con grandes cantidades de datos haciendo uso o ayudándose con herramientas. 

CARACTERÌSTICAS DE LA MINERÌA DE DATOS 
  • Explorar los datos se encuentra en las profundidades de las bases de datos,
  • En algunos casos, los datos se consolidan en un almacén de datos y en , mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.
  • El entorno de la minería de datos suele tener una arquitectura cliente-servidor.
  • Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados
  • El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación
  • Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
  • Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente.
  • Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.
  • La minería de datos produce cinco tipos de información: Asociaciones, Secuencias, Clasificaciones, Agrupamientos, Pronósticos.
  • Los mineros de datos usan varias herramientas y técnicas.
CONCEPTOS DEL DATA MINING

  • Este proceso se puede definir mediante los seis pasos básicos siguientes:
  • Definir el problema
  • Preparar los datos
  • Explorar los datos
  • Generar modelos
  • Explorar y validar los modelos

Definir el problema






El primer paso del proceso de minería de datos, tal como se resalta en el siguiente diagrama, consiste en definir claramente el problema y considerar formas de usar los datos para proporcionar una respuesta para el mismo.
  • Analizar los requisitos empresariales
  • Definir el ámbito del problema
  • Definir métricas de evaluación del modelo
  • Definir los objetivos concretos del proyecto


PREPARAR LOS DATOS

  • El segundo paso del proceso de minería de datos, como se indica en el siguiente diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir el problema.
  • Para filtrar automáticamente la información:
  • Integration Services en Business Intelligence Development Studio
  • Introducción a Master Data Services (MDS)
  • Data Quality Services
EXPLORAR LOS DATOS

El tercer paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en explorar los datos preparados. 

GENERAR MODELOS

El cuarto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en generar el modelo o modelos de minería de datos. Usará los conocimientos adquiridos en el paso Explorar los datos para definir y crear los modelos.

EXPLORAR Y VALIDAD LOS MODELOS

El quinto paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en explorar los modelos de minería de datos que ha generado y comprobar su eficacia.

IMPLEMENTAR Y ACTUALIZAR LOS MODELOS

El último paso del proceso de minería de datos, como se resalta en el siguiente diagrama, consiste en implementar los modelos que funcionan mejor en un entorno de producción.

Ventajas y desventajas

Ventajas:

  • Los modelos son fáciles de entender.
  • Enormes bases de datos pueden ser analizadas.
  • La minería de datos descubre información que no se esperaba obtener.
  • Los Modelos Son Confiables


Desventajas:
  • Dificultad de recopilación de los dato
  • El preprocesamiento de datos puede llevar demasiado tiempo
  • No está asegurada la obtención de un modelo válido

 Ejemplos de áreas de aplicación de data mining

  • Toma de Decisiones. Ejemplos: banca, finanzas, seguros, marketing, políticas sanitarias
  • o demográficas.
  • Procesos Industriales.
  • Investigación Científica Ejemplos: medicina, epidemiología, bioinformática, psicología.
  • Soporte al Diseño de Bases de Datos.
  • Mejora de Calidad de Datos.
  • Mejora en el área de empresas de Consulting. 

IMPLEMENTACIÒN DE LA MINERÍA DE DATOS

  • Gobiernos: El FBI analizará las bases de datos comerciales para detectar terroristas.
  • Empresariales: Detección de fraudes en las tarjetas de crédito.
  • Universidad
  • Investigación espacial: Proyecto SKYCAT
  • Deporte
  • Medicina
  • Internet: Web Mining 



Procesamiento y Análisis en Línea OLAP




Definiciones y Conceptos OLAP

OLAP (procesamiento analítico en línea / On-Line Analytical Processing) es una solución utilizada en la Inteligencia de negocios cuyo objetivo es agilizar la consulta de grandes cantidades de datos para extraer algún tipo de información útil. 

Tipos de Sistema

1.ROLAP (Procesamiento Analítico Relacional en Línea).
2.MOLAP (procesamiento Analítico multidimensional en Línea).
3.HOLAP (Procesamiento Analítico Híbrido en Línea).

ROLAP OLAP

En estos sistemas los datos se encuentran almacenados en una estructura de datos multidimensional.

MOLAP

Ventajas
  • Mayor rendimiento en el procesamiento de consultas.
  • Posibilita hacer cálculos más complicados.
  • Tamaño limitado para la arquitectura del cubo.
  • No puede acceder a datos que no están en el cubo.
  • No puede explotar el paralelismo las bases de datos.
Desventajas
  • Tamaño limitado para la arquitectura del cubo.
  • No puede acceder a datos que no están en el cubo.
  • No puede explotar el paralelismo las bases de datos. 
HOLAP

En estos sistemas mantienen los registros detallados en la base de datos relacional, mientras que los datos resumidos o agregados se almacenan en una base de datos multidimensional separada.


Comparaciones

ROLAP

Los datos son accedidos directamente desde el Datawarehouse u otra fuente de datos relacional y no son almacenados por separado.

MOLAP

Los datos son pre calculados y luego son almacenados en cubos de datos multidimensionales

HOLAP

Mantiene los volúmenes de datos más grandes en la base de datos relacional y las agregaciones en una base de datos MOLAP separada.

Utilidades de OLAP
  • Tienen acceso a grandes cantidades de datos.
  • Analizan las relaciones entre muchos tipos de elementos empresariales.
  • Involucran datos agregados.
  • Comparan datos agregados a través de periodos jerárquicos.

Utilidades de OLAP
  • Presentan datos en diferentes perspectivas.
  • Involucran cálculos complejos entre elementos de datos.
  • Pueden responder con rapidez a consultas de usuarios.
Beneficios de OLAP
  • Es de fácil uso y acceso flexible para los usuarios.
  • Los datos están organizados en diferentes dimensiones, lo que permite un mejor análisis.
  • Permite encontrar la historia en los datos.
  • Genera ciertas ventajas competitivas.


Requerimientos Funcionales de los Sistemas OLAP
  • Construir un Datawarehouse y/o Datamart.
  • Uso de herramientas de Almacenamiento (bases de datos multidimensionales), Herramientas de Extracción y Colección, Herramientas para Reportes de Usuario Final y Herramientas para Análisis Inteligentes.
Requerimientos Funcionales de los Sistemas OLAP
  • Un servidor que sea altamente escalable.
  • Un segundo servidor para las herramientas de consulta de datos.
Operadores para el manejo de cubos de datos
  • Operadores
  • CUBE
  • ROLLUP
  • DRILLDOWN
  • GROUPING SETS
  • SLICE (Rebanada)
  • PIVOT
  • Dado
  • Ascenso
  • Descenso




DATAMART


Resultado de imagen para DATAMART
Un mercado de datos es un repositorio de datos que está diseñado para servir a una comunidad particular de los trabajadores del conocimiento.

La diferencia entre un almacén de datos y un mercado de datos puede ser confuso porque los dos términos se utilizan a veces incorrectamente como sinónimos. Un almacén de datos es un repositorio central para todos los datos de una organización. El objetivo de un mercado de datos, sin embargo, es para satisfacer las demandas particulares de un grupo específico de usuarios dentro de la organización, tales como la gestión de recursos humanos (HRM). En general, los mercados de datos de una organización son subconjuntos de almacén de datos de la organización.

Frades DATA MART
  • Construccion de data mart
  • Construccion de los procesos de cargas
  • Construccion  de los reportes analiticos
  • Construccion  de los procesos de prueba 



Analisis DATA MART

  • Analizar factores que conduce el negocio
  • Analizar los objetivos del negocio
  • Analizar las necesidades la infomacion alto nivel
  • Recolectar informacion de procesos
  • Identificar areas criticas
  • Identificar roles de personas
  • Revisar infraestructura de la informacion
  • Revisar los planes tacticos y estrategicos
  • Identificar limitaciones y restricciones
  • Recolectar y revisar la documentacion empresa
  • Identificar procesos de alto nivel e indicadores de rendimiento
  • Analizar las fuentes de datos

Tecnologias DATA MART

  • Bussiness intelligence

    1. Data mart
    2. Data warehouse


Herramienta Base datos