Este componente de Weka está dividido en varias entornos/secciones
*Preprocess: En este área será donde carguemos los datos para trabajar con ellos. Como ya se comentó anterior mente se utilizará un tipo de fichero específico (arff). Un ejemplo bastante simple pero representativo es weather.arff. Su estructura es sencilla. Primero la cabecera, la cual contiene meta-información sobre el nombre de la relación y los atributos con los que contarán los datos.
La siguiente sección sería la que corresponda con los datos
Preprocess nos permite saber el número de instancias que hemos cargado, el número de atributos que tienen nuestras instancias. También permite obtener unformación sobre estos atributos, su tipo, los valores máximos y minimos que toman, la media, la desviación típica. Ofrece una pequeña gráfica para cada atributo en a que refleja los resultados de de nuestro atributo clase para cara rango de ese atributo. Lo explico con el ejemplo de weather.arff
NOTA: Atributo clase -> será el que indique qué tipo de clase es dentro de nuestra clasificación. Un ejemplo sería una clasificación de imágenes entre paisajes, retratos/personas y edificios.
En este caso nuestro atributo clase es play (si se jugó el partido o no). Al pinchar sobre él, nos identifica el yes (azul) y el no (rojo) cada uno con un color
Al picnhar sobre el atributo outlook
Podemos ver a distribución de los atributos en tres columnas
1) Los días soleados
2) Los días que se jugó a cubierto
3) Los días lluviosos
En cada uno de ellos se pude ver rápidamente los días que se jugó el partido y los que no teniendo en cuenta si era soleado, a cubierto o lluvioso.
En la sección de filter podremos selccionar varias opciones que nos permitirán realizar filtrados de atributos, cambiar el tipo de estos, unificar valores de un mismo atributo. Si vemos que hay una relación claro entre dos atributos, estos se podrían combinar en uno solo. Esto se puede ver gracias a al entorno visualize.
* Classificaton: Una vez tenemos nuestros datos cargados (filtrados o no) se puede realizar una clasificación de estos. Para ello se hará uso de algoritmos de clasificación y de diversas formas de aplicar estos (sin profundizar mucho aún).
* Cluster: En esta pestaña se pueden en contrar los algoritomos de clustering, que nos permiten clasificar un conjunto de elementos de muestra en un determinado número de grupos basándose en las semejanzas y diferencias existentes entre los datos de la muestra (sin profundizar mucho aún).
* Associate: Esta pestaña permite el uso de métodos de asociación de datos (no he profundizado aún).
* Select Attributes: Esta sección nos permite usar métodos de selección de atributos. El obejetivo de estos métodos es determinar los atributos que tienen mas peso a la hora de decidir si unos datos están en una clase u otra (sin prfundizar aún).
* Visualize: En este entorno se representa graficamente la distribución de todos los atributos. De esta manera podremos observar relaciones entre atributos de forma gráfica.