h1

Weka Explorer

febrero 11, 2010

Este componente de Weka está dividido en varias entornos/secciones

*Preprocess: En este área será donde carguemos los datos para trabajar con ellos. Como ya se comentó anterior mente se utilizará un tipo de fichero específico (arff). Un ejemplo bastante simple pero representativo es weather.arff. Su estructura es sencilla.  Primero la cabecera, la cual contiene meta-información sobre el nombre de la relación y los atributos con los que contarán los datos.

arff header

La siguiente sección sería la que corresponda con los datos

arff data

Preprocess nos permite saber el número de instancias que hemos cargado, el número de atributos que tienen nuestras instancias. También permite obtener unformación sobre estos atributos, su tipo, los valores máximos y minimos que toman, la media, la desviación típica. Ofrece una pequeña gráfica para cada atributo en a que refleja los resultados de de nuestro atributo clase para cara rango de ese atributo. Lo explico con el ejemplo de weather.arff

NOTA: Atributo clase -> será el que indique qué tipo de clase es dentro de nuestra clasificación. Un ejemplo sería una clasificación de imágenes entre paisajes, retratos/personas y edificios.

En este caso nuestro atributo clase es play (si se jugó el partido o no). Al pinchar sobre él, nos identifica el yes (azul) y el no (rojo) cada uno con un color

arff class attribute

Al picnhar sobre el atributo outlook

arff attibute

Podemos ver a distribución de los atributos en tres columnas

1) Los días soleados

2) Los días que se jugó a cubierto

3) Los días lluviosos

En cada uno de ellos se pude ver rápidamente los días que se jugó el partido y los que no teniendo en cuenta si era soleado, a cubierto o lluvioso.

En la sección de filter podremos selccionar varias opciones que nos permitirán realizar filtrados de atributos, cambiar el tipo de estos, unificar valores de un mismo atributo. Si vemos que hay una relación claro entre dos atributos, estos se podrían combinar en uno solo. Esto se puede ver gracias a al entorno visualize.

* Classificaton: Una vez tenemos nuestros datos cargados (filtrados o no) se puede realizar una clasificación de estos. Para ello se hará uso de algoritmos de clasificación y de diversas formas de aplicar estos (sin profundizar mucho aún).

* Cluster: En esta pestaña se pueden en contrar los algoritomos de clustering, que nos  permiten clasificar un conjunto de elementos de muestra en un determinado número de grupos basándose en las semejanzas y diferencias existentes entre los datos de la muestra (sin profundizar mucho aún).

* Associate: Esta pestaña permite el uso de métodos de asociación de datos (no he profundizado aún).

* Select Attributes: Esta sección nos permite usar métodos de selección de atributos. El obejetivo de estos métodos es determinar los atributos que tienen mas peso a la hora de decidir si unos datos están en una clase u otra (sin prfundizar aún).

* Visualize: En este entorno se representa graficamente la distribución de todos los atributos. De esta manera podremos observar relaciones entre atributos de forma gráfica.

Anuncios

One comment

  1. Realmente interesante el post de descubrimiento de la herramienta… estás a tope!



Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: