sábado, 14 de julio de 2012

JVM para Weka

Cuando la Memoria Virtual de JAVA(excepción OutOfMemory) para ejecutar procesos en Weka no es suficiente, se debe modificar el valor del parámetro maxheap que está en el archivo de configuración RunWeka.ini (dentro de la carpeta donde se instala Weka)

 Líneas previas a la línea de configuración
# placeholders ("#bla#" in command gets replaced with content of key "bla")
# Note: "#wekajar#" gets replaced by the launcher class, since that jar gets
# provided as parameter
maxheap=256m

Cambiar por:
maxheap=512m ó maxheap=1024m
dependiendo de la memoria RAM de tu computador

lunes, 2 de julio de 2012

Análisis de correspondencia simple

Descargar archivo completo

Análisis de correspondencia simple

El análisis de correspondencias es una técnica descriptiva para representar tablas de contingencia, es decir, tablas donde recogemos las frecuencias de aparición de dos o más variables cualitativas en un conjunto de elementos. Constituye el equivalente de componentes principales y coordenadas principales para variables cualitativas. La información de partida ahora es una matriz de dimensiones I × J, que representa las frecuencias absolutas observadas de dos variables cualitativas en n elementos. La primera variable se representa por filas, y suponemos que toma I valores posibles, y la segunda se representa por columnas, y toma J valores posibles.

Datos

El número de tipos de empresas creadas según las regiones del Ecuador
    OABAB
Baja
28
9
7
31
Normal
543
211
90
476
Alta
44
22
8
31

Cálculos

...

Análisis de Componentes Principales

Descargue el documento completo para apreciar cálculos y gráficos:
http://es.scribd.com/doc/74949981/Informe-ACP

INTRODUCCIÓN

Cuando se requiere estudiar un fenómeno social o físico de forma estadística es necesario no sólo enfocar cada una de las variables a investigar de forma individual, ya que debido a las diferentes complejidades que puede presentar este fenómeno es necesario que el investigador realice un análisis que considere grupos de variables para interpretar su comportamiento de forma conjunta, esta metodología se denomina Análisis Multivariado.

Una de las técnicas es el Análisis de Componentes Principales (ACP), donde se asume las relaciones lineales entre las variables numéricas.

Una matriz de datos es un arreglo rectangular de números dispuestos en n filas y p columnas que representan n observaciones de las p variables aleatorias observadas. Cuando el tamaño de la población investigada y el número de variables es muy grande se obtiene como resultado una matriz de datos de gran dimensión, lo que constituye un inconveniente que puede ser resuelto utilizando la Técnica Multivariada Componentes Principales, cuyo objetivo es la reducción e interpretación de los datos.

Una Componente Principal es una combinación lineal de p variables aleatorias observadas que cumple con ciertas restricciones. Geométricamente esta combinación lineal constituye la elección de un nuevo sistema de coordenadas obtenido al rotar el sistema original, tal que los nuevos ejes representen la dirección de máxima variabilidad.

El método permite interpretar la estructura de varianzas-covarianzas de un conjunto de p variables, a través de unas pocas q componentes principales formadas a partir de esas p variables, y de esta manera se logra la reducción de datos, pasando de una matriz original de n observaciones de p variables aleatorias a otra de n observaciones de q componentes principales.

OBJETIVOS

Objetivo principal

Transformar un conjunto de n observaciones y p variables en un nuevo conjunto, con un número menor de variables dado por las componentes principales.

Objetivos secundarios

Conocer el porcentaje que representa las componentes principales más representativas.
Conseguir una representación simplificada de los datos.

ANÁLISIS DE LOS DATOS

Planteamiento del problema
Disponemos de una población de 100 individuos con la siguiente información (sólo variables cuantitativas):
Se requiere conocer la relación existente entre la talla, peso, presión diastólica inicial, presión diastólica final, presión sistólica inicial, presión sistólica final, índice de masa corporal, edad de cada uno de los individuos con la hipertensión, es decir, un estudio de los factores de riesgo en hipertensión arterial.
El diseño es de tipo caso-control.

Análisis Descriptivo
Se dispone de una base de datos, de la cual hemos sacado 8 variables cuantitativas y 3 variables cualitativas, de esta información se tomo 100 registros con las siguientes variables:(descargar documento completo)

Representación Gráfica
Mediante histogramas representamos las variables individualmente

Análisis Estadístico
Buscaremos un sub-espacio menor que p que contenga la mayor cantidad posible de información de la nube primitiva, y que se ajuste a la nube de puntos y la deforme lo menos posible.

Mediante el siguiente proceso obtenemos Matriz de datos centrados (Archivo Adjunto-Hoja BBDDCuantif) con la que se desarrollarán el resto de cálculos.

A continuación se detalla los siguientes estadísticos para las 8 variables cuantitativas: (descargar documento completo http://es.scribd.com/doc/74949981/Informe-ACP)

...

TÉCNICA UTILIZADA
El ACP consiste en la obtención de los componentes o ejes principales, no correlacionados entre sí. El cálculo del primer componente, como una combinación lineal de las p variables iniciales, se hace en base a la consecución de la máxima varianza de los datos; así, el primer eje representa una proporción de la varianza explicada de los individuos.

Luego, el cálculo del segundo eje, no correlacionado con el primero, es también una combinación lineal de las variables y representa otra parte de la variación explicada de los individuos. El proceso se desarrolla hasta conseguir el p-ésimo componente o eje.

Cada uno de los componentes recoge una parte de la variación de la nube original de los individuos.
La máxima información posible contenida en una tabla de datos (variables medidas en escala de intervalo o de razón), usualmente, se presentan en forma gráfica, en planos, formados con la combinación de los primeros componentes principales. En estos planos se proyectan las nubes de puntos-variables o nubes de puntos-individuos con el fin de describir las interrelaciones existentes entre esas variables o entre los individuos y las variables.

El primer plano del ACP está formado por los componentes, o ejes, 1 y 2. Cada componente debe ser interpretado de acuerdo a la importancia de las variables en cada uno de ellos.

Proceso
Obtenemos la matriz de Varianza-Covarianza: (descargar documento completo http://es.scribd.com/doc/74949981/Informe-ACP)
...
Representando las varianzas su diagonal principal para cada variable y los demás valores son las covarianzas.

La varianza total obtenida es: 1383,20

Calculamos los valores y vectores propios asociados a la matriz de Varianza-Covarianza

...

Cada uno de los vectores propios está normalizado.

...

Además existen 2 valores con mayor porcentaje respecto de la varianza total, anteriormente mencionada.

...

Luego de analizar los valores propios hallamos dos componentes principales Z1 y Z2

...

La primera componente principal está mayormente representada por las variables X4 (Presión diastólica final), X5(Presión sistólica inicial) y X6(Presión sistólica final), por lo tanto los pacientes con mayor valor en estas variables su hipertensión arterial no está siguiendo el control necesario para que pueda evitarse su deceso.

...

La segunda componente principal está mayormente relacionada con X2(Peso de los pacientes)

Estudio de los Individuos
Las proyecciones de los individuos en la nueva base con su respectiva posición
El gráfico nos indica que el porcentaje del peso influye en muchos de los pacientes al igual que el alto valor de cada una de las presiones tomadas, a priopi podemos ver quienes están mejor agrupados con relación a cada componente.

Contribución de cada individuo
Primera Componente  
La contribución más alta la tienen los individuos 88(7.2%) y 44(7.1%)
Segunda Componente  
La contribución más alta la tienen los individuos 19(6.1%), 39(6.6%), 70(6.1%)

Estudio de las variables
El gráfico muestra una estrecha relación entre las variables peso, índice de masa corporal, edad, estatura, con la segunda componente principal, mientras que las presiones (diastólica, sistólica) están estrechamente relacionadas con la primera componente.

CONCLUSIONES Y RECOMENDACIONES

Conclusiones
  • Las componentes principales son combinaciones lineales de las variables originales.
  • Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz simétrica.
  • La primera componente se asocia al mayor valor propio asociada a la matriz de Varianza-Covarianza.
  • La segunda componente se asocia al siguiente valor propio mayor (descendente) asociado a la matriz de Varianza-Covarianza.
  • Si se representan las variables originales, su proporción de variabilidad total captada por una componente es igual a su valor propio dividido para el número de variables originales.
Recomendaciones
Se recomienda hacer una previa clasificación del tipo de variable a usar (cuantitavas, cualitativas).
Es necesario saber manejar software complementario para el análisis de datos y comparación de resultados, en este caso Complementos como: XLSTAT, Matrix.

ANEXOS
CD-ROM:
Cálculos, Tablas y gráficas están anexados en el que se adjunta al informe, desarrollados con la ayuda de Excel 2003, Matrix(componente para Excel) y XLSTAT

FUENTE DE CONSULTA
  • Peña D, (2002). Análisis de datos multivariantes, España.
  • http://jjgibaja.wordpress.com/
  • http://cs.uns.edu.ar/~cic/dm2009/downloads/transparencias/01_dm.pdf
RESPONSABLE
Quituisaca Samaniego Lilia

Escalado multidimensional - Análisis de correspondencia simple

Descargar archivo completo

Escalado multidimensional

Se dispone de una matriz, D, cuadrada n × n de distancias o disimilaridades entre los n elementos de un conjunto.
Para este estudio se ha tomado datos de las distancias existentes entre las principales ciudades del Ecuador.

...

Análisis de correspondencia simple

Datos

El número de tipos de empresas creadas según las regiones del Ecuador
 PequeñaMedianaGrande
Sierra
20
80
100
Costa
10
50
300
Oriente
5
10
30
Galápagos
10
10
40

Cálculos

Equivalencia entre los puntos perfiles de fila y columna y la distancia Chi-2
...

jueves, 7 de junio de 2012

Buscando información escondida



Es necesario buscar la verdad de una base de datos transaccional, se lo puede lograr mediante la aplicación de métodos de análisis de datos que aproximaran los resultados a las expectativas puestas en un conjunto de registros almacenados.