Inicio/Profesional/TICs y Computación/Bases y estructuras de datos/Minería de Datos a Través de Ejemplos

Minería de Datos a Través de Ejemplos

$728

Consultar disponibilidad

Autor: PÉREZ, Maria

Páginas: 476

Coedición: Alfaomega, RC Libros

Consultar disponibilidad

ISBN: 9786076221747 Categoría:

Descripción

Con la ayuda de este libro, a través de ejemplos totalmente resueltos, el lector profundizará en el descubrimiento e interpretación de la información contenida en grandes conjuntos de datos. Se trata de exponer, con sencillez y mediante una metodología interactiva, los conceptos de minería de datos e inteligencia de negocios. Este libro analiza las herramientas más habituales y las posibilidades que ofrecen SAS, SAS Enterprise Guide, SAS Enterprise Miner, IBM SPSS e IBM SPSS Modeler.

La minería de datos consiste en analizar e interpretar de forma automática comportamientos, patrones, tendencias, asociaciones, predicciones y otras características del conocimiento inmerso en los datos. Las grandes cantidades de datos de que se disponen en la actualidad nos obligan a extraer de un modo automatizado la información clave contenida en ellos. Para lograrlo, se utilizan herramientas informáticas que soportan técnicas especializadas, estas técnicas constituyen la minería de datos.

Ventajas

  • A través de ejemplos totalmente resueltos a lo largo del libro se irán presentando las diferentes técnicas de minería de datos.

  • Los archivos con los ejemplos se podrán descargar de Libroweb.alfaomega.com.mx

Conozca

  • Los Entornos de Trabajo de IBM SPSS, IBM SPSS MODELER, SAS ENTERPRISE MINER , SAS y SAS Enterprise Guide.

  • Las Fases de: selección, exploración, limpieza, transformación,  análisis  y evaluación aplicadas en minería de datos.

  • Técnicas predictivas:  árboles de decisión.

  • Técnicas descriptivas Análisis clúster y segmentación.

Aprenda

  • Cómo utilizar las diversas herramientas para explorar y analizar los datos de su organización.

  • Cómo realizar el análisis inteligente a través de Redes neuronales

ÍNDICE

Introducción ……………………………………………………………………………………………….1

Capítulo 1. Técnicas de minería de datos y herramientas ………………………………..1

Clasificación de las técnicas de minería de datos y herramientas más comunes .1

Modelado originado por la teoría (técnicas explicativas o de la dependencia) …..3

Modelado originado por los datos (técnicas descriptivas o de la interdependencia).4

El entorno de trabajo de IBM SPSS …………………………………………………………5

Entorno de trabajo de IBM SPSS Modeler ………………………………………………..10

Entorno de trabajo de SAS Enterprise Miner ……………………………………………12

Los entornos de trabajo de SAS y SAS Enterprise Guide …………………………….16

Capítulo 2. Fase de selección en minería de datos. Herramientas ……………23

La fase inicial en minería de datos:selección de la información ………………….23

Selección mediante muestreo estadístico ……………………………………………….25

Muestreo aleatorio simple con IBM SPSS ………………………………………………..29

Muestreo estratificado con IBM SPSS ……………………………………………………..30

Estimaciones y cálculo de errores enel muestreo estratificado ………………….40

Muestreo de conglomerados monoetápico y polietápico con IBM SPSS ………42

Estimaciones y cálculo de errores en el muestreo de conglomerados …………48

La fase de selección en IBM SPSS Modeler ………………………………………………49

Selección de datos con IBM SPSS Modeler ………………………………………………50

Muestreo con IBM SPSS Modeler …………………………………………………………..53

La fase de selección en SAS Enterprise Miner …………………………………………..54

Pestaña Data ……………………………………………………………………………………56

Pestaña Variables ……………………………………………………………………………..57

El perfil del objetivo (Target Profile) …………………………………………………….58

Especificar probabilidades a priori ………………………………………………………59

Pestaña Interval Variables ………………………………………………………………….60

Pestaña Class Variables ……………………………………………………………………..60

Pestaña Notes …………………………………………………………………………………..61

Muestreo en SAS Enterprise Miner …………………………………………………………61

Partición de datos en SAS EnterpriseMiner ……………………………………………..65

El nodo de selección de variables ……………………………………………………………68

Muestreo a travésde SAS ……………………………………………………………………..71

Muestreo aleatorio simple …………………………………………………………………73

Muestreo aleatorio estratificado …………………………………………………………75

Capítulo 3. Fases de exploración y limpieza en minería de datos.Herramientas.77

Análisis exploratorio de datos ………………………………………………………………..77

Limpieza dedatos ………………………………………………………………………………..79

Valores atípicos ………………………………………………………………………………..79

Datos desaparecidos. Imputación ……………………………………………………….81

Análisis exploratorio gráfico y formal con IBM SPSS …………………………………. 85

Procedimient o Explorar ……………………………………………………………………..85

Contraste de aleatoriedad. Procedimiento Prueba de rachas ………………….90

Normalidad. Test de ajuste a una distribución de frecuencias.

Procedimiento prueba de Kolmogorov-Smirnov …………………………………………93

Tratamiento de los datos ausentes con IBM SPSS. Imputación ……………………94

Detección de datos atípicos con IBM SPSS ………………………………………………..101

Detección de valores atípicos en IBM SPSS mediante gráficos de control ……..102

Detección de casos atípicos en IBM SPSS mediante gráficos de caja y bigotes ..104

Análisis exploratorio gráfico y formal con IBM SPSS Modeler ……………………. 105

El nodo Gráfico …………………………………………………………………………………106

El nodo Distribución ………………………………………………………………………….108

El nodo Histograma …………………………………………………………………………..110

La fase de limpieza en IBM SPSS Modeler ………………………………………………..111

El nodo Rellenar para imputación de datos missing ……………………………….112

La fase de Exploración en Enterprise Miner ……………………………………………..112

El nodo Explorador de distribuciones …………………………………………………..113

El nodo de Exploración de Patrones ………………………………………………………..114

Tratamiento de datos atípicos con el nodo Filtro de Outliers de SAS Enterprise Miner.122

Opciones de filtrado automático …………………………………………………………122

Observación y ajuste de los resultados del filtrado ………………………………..123

El nodo Imputación de datos missing …………………………………………………..125

La fase de Exploración en SAS ………………………………………………………………..132

Capítulo 4. Fase de transformación en minería de datos. Herramientas ……135

Transformaciónde datos ………………………………………………………………………135

Transponer, fusionar, agregar,segmentar y ordenar archivos …………………136

Ponderar casos y categorizar y numerizar variables ……………………………….137

Pareamiento o matching……………………………………………………………………137

Transformación de datos mediante técnicas de reducción de la dimensión …139

Análisis factorial y componentes principales ……………………………………………139

Contrastes en el modelo factorial ……………………………………………………….141

Rotación de los factores …………………………………………………………………….143

Interpretación gráfica de los factores y puntuaciones factoriales …………….144

Técnicas de reducción de ladimensión en IBM SPSS …………………………………146

Análisis factorial y componentes principales en IBM SPSS ………………………….147

Transformación de datos en IBM SPSS …………………………………………………….153

Transponer, fusionar, agregar y segmentar archivos. Matching………………153

Ponderar casos …………………………………………………………………………………160

Transformación de datos y técnicas de reducción de la dimensión eIBM SPSS Modeler.161

Matching mediante el nodo Combinar …………………………………………………161

Ajuste de registros con el nodo Equilibrar …………………………………………….163

Estadísticos por subgrupos con el nodo Agregar ……………………………………164

Remover duplicados con el nodo Distinguir ………………………………………….165

Concatenación de archivos con el nodo Añadir ……………………………………..166

Transformación de variables con el nodoDerivar ………………………………….167

Análisis factorial y componentes principales con el nodo Factor/PCA ………169

Transformación de datos y reducción de la dimensión en SAS Enterprise Miner .177

El nodo Transformación de variables …………………………………………………..177

Componentes principales con el nodo Exploración de patrones ………………181

Componentes principales y análisis factorial en SAS y SAS Enterprise Guide ..188

Capítulo 5. Fase de análisis en minería de datos. Técnicas predictivas.Herramientas .197

Fase de análisis en minería de datos ……………………………………………………….197

Modelos de regresión múltiple y de elección discreta. Modelos Logit y Probit. Segmentación .199

Modelos de elección discreta binaria: modelo lineal de probabilidad y regresión logística binaria .200

Modelos de elección múltiple:modelo Logit Multinomial ……………………………………….202

IBM SPSS y los modelos de variable dependiente limitada. Aplicaciones a la segmentación 202

IBM SPSS y la regresión logística binaria ………………………………………………203

IBM SPSS y elmodelo Probit ……………………………………………………………….210

IBM SPSS y el modelo Logit Multinomial ………………………………………………214

SAS y los modelos de el ección discreta ……………………………………………………220

SAS y la regresión logística. PROC LOGISTIC ………………………………………….220

SAS y el modelo Probit : procedimiento Probit ………………………………………227

El modelo de análisis discriminante como técnica de clasificación y segmentación.230

IBM SPSS y el análisis discriminante ………………………………………………………..236

SAS y el análisis discriminante: PROC DISCRIM …………………………………………244

Ejemplo de análisis discriminante con SAS ……………………………………………245

SAS y el análisis discriminante paso a paso: PROC STEPDISC y ejemplo práctico.248

Técnicas predictivas con SAS Enterprise Miner …………………………………………253

Modelo de regresión múltiple con el nodo Regression ………………………………253

El nodo Regression: modelo lineal general GLM ……………………………………….260

Modelos de elección discreta Logit y Probit con el nodo Regression ……………271

Modelos predictivos con IBM SPSS Modeler …………………………………………….273

Modelo de regresión múltiplecon el nodo Regresión Lineal …………………..274

Modelos de elección discretacon el nodo Regresión Logística ………………..281

Capítulo 6. Modelos predictivos con árboles de decisión. Herramientas ……285

Introducción a los árboles de decisión …………………………………………………….285

Características de los árboles de decisión ………………………………………………..287

Tipos de árboles de decisión ………………………………………………………………….289

Árboles CHAID ………………………………………………………………………………….289

Árboles CART ……………………………………………………………………………………290

Árboles QUEST ………………………………………………………………………………….291

IBM SPSS y los árboles de decisión ………………………………………………………….292

Creación de un árbol de decisión: método CHAID …………………………………….294

Métodos CRT y QUEST. Poda de árboles ………………………………………………….300

Árboles de decisión y análisis de riesgos ………………………………………………….304

El proceso de creación de árboles de decisión con IBM SPSS Modeler …………307

Situar los datos en el área de trabajo con un nodo de origen de datos …….308

Enlace del origen de datos con la fuentede datos …………………………………309

Visualización de los datos con el nodo Tabla …………………………………………310

El nodo Tipo y las variables de predicción …………………………………………….311

Nodo de modelado para crear el árbol …………………………………………………313

Trabajar con árboles ………………………………………………………………………….313

Interpretación del árbol……………………………………………………………………..316

Predicción con unmodelo deárbol ……………………………………………………..317

Guardar unmodelo …………………………………………………………………………..317

Nodos para árboles de decisióncon IBM SPSS Modeler …………………………….317

El nodo Crear C5.0 …………………………………………………………………………….318

El nodo Árbol C&R …………………………………………………………………………….319

El proceso de creación de árboles dedecisión con SAS Enterprise Miner …….320

Nodo Input Data Source para leer ficheros de datos y enlazarlos con SAS Enterprise Miner .320

Nodo Input Data Source y los tipos de variables ……………………………………324

Enlace de nodos de un diagrama. El nodo Data Partition ………………………..325

Nodo de modeladopara crear elárbol …………………………………………………328

Profundizando en elnodo Tree ………………………………………………………………332

Capítulo 7. Técnicas descriptivas de minería de datos. Análisis clústery segmentación. Herramientas .343

El análisis clúster como técnica declasificación y segmentación ………………..343

Clústers jerárquicos, secuenciales,aglomerativos y exclusivos (S.A.H.N.) …345

El dendograma en el análisis clúster jerárquico …………………………………….346

Análisis clúster no jerárquico ………………………………………………………………346

IBM SPSS y el análisisclúster jerárquico ………………………………………………….349

IBM SPSS y el análisis clúster no jerárquico ……………………………………………..355

SAS y el análisis clúster jerárquico ………………………………………………………….360

Procedimiento ACECLUS …………………………………………………………………….360

Procedimiento CLÚSTER …………………………………………………………………….361

Procedimiento TREE ………………………………………………………………………….363

SAS y el análisis clúster no jerárquico ……………………………………………………..365

Análisis clúster con Enterprise Miner. El nodo Clustering …………………………..371

Análisis clúster con IBM SPSS Modeler ……………………………………………………377

El nodo Entrenar K-medias: clúster no jerárquico ………………………………….378

El nodo Clúster bietápico: clúster jerárquico …………………………………………382

Capítulo 8. Redes neuronales. Herramientas ………………………………………..383

Introducción ………………………………………………………………………………………..383

Redes neuronales con SAS Enterprise Miner ……………………………………………383

Optimización y ajuste de modelos con redes: nodo Neural Network …………..384

Análisis en componentes principales a través de redes neuronales: nodo Princo mp/ Dmneur al .406

Predicción y análisis discriminante a través de redes neuronales:nodo TwoStage Model .412

Análisis clúster con redes neuronales: nodo SOM/Kohonen ………………………418

Redes neuronales con IBM SPSS Modeler …………………………………………….426

Nodo Entrenar red …………………………………………………………………………….427

Análisis clúster con redes neuronales: nodo Entrenar Kohonen ………………430

Capítulo 9. Fase de evaluación. Comparación de modelos. Herramientas ….433

Fase de evaluación en SAS Enterprise Miner. Nodo Assessment …………………433

Trabajo con el nodo de evaluación …………………………………………………………434

El fichero de datos con las predicciones ……………………………………………….434

Models …………………………………………………………………………………………….434

Options ……………………………………………………………………………………………437

Reports ……………………………………………………………………………………………438

Output …………………………………………………………………………………………….438

Gráficos del nodo Assessment ……………………………………………………………….438

Lift (Gráfico de ganancias) ………………………………………………………………….438

Vista de los datos relativos a los gráficos de ganancias …………………………..441

DIAGNOSTIC (Gráfico de clasificación) ………………………………………………….442

THRESHOLD-BASED (Gráfico de clasificación basado en el umbral) ………….443

Curvas ROC ……………………………………………………………………………………445

Scatter Plot (Gráfico de dispersión) ……………………………………………………..446

Ejemplo de combinación de modelos de árboles con otros modelos …………..446

Capacidad predictiva de un modelo ………………………………………………………..449

Selección de modelos. Ejemplo con IBM SPSS ………………………………………….450

Curvas ROC. Ejemplo con IBM SPSS ………………………………………………………..452

Índice analítico.. ……………………………………………………………………………..455

Título

Ir a Arriba