h1

Automating the proccess

abril 22, 2010

Tras la reunión que tuve el otro día con mis tutores me decidí a automatizar un poco el proceso de pruebas. Así poder sacar mas resultados, mas rápidamente y mas fielmente.

Lo primero has sido automatizar, en parte, la generación de archivos ARFF. Que si no os habéis olvidado son los ficheros de entrada para Weka, tanto como train files como test files. De esta manera me he creado un programilla que:

1) Recoge la cabecera a utilizar. Dicha cabecera contiene la declaración de los parámetros que se van a utilizar en nuestros datos.

Header Flower People

NOTA (organización): La información (data) de nuestras imágenes se encuentran en ficheros de texto, uno por imagen, proporcionados por Alvaro, los cuales contienen todos los parámetros de cada imagen. Estos se almacenan en directorios segun la clasificación previa que se ha realizado. Como se muestra en la imagen siguiente.

Directories organization

2) En este paso el programa recoge la información de tantos directorios fuente como se le indiquen. Por cada directorio, habrá que indicarle una etiqueta. Aunque ahora que lo pienso, podría etiquetar el directorio directamente con el tag (etiqueta) y utilizarlo para etiquetar cada entrada (línea de fichero) de parámetros.

3) El resultado es un fichero ARFF con la cabecera y a continuación todas las entradas de un directorio  correctamente etiquetadas, luego las siguientes y así.

También se podrán genererar ficheros con datos sin etiquetar, cuyo tag será “?”. Estos serán usados en la fase de clasificación como test. El objetivo es que el clasificador (el programa en el que lo llamo) devuelva un fichero con los prametros etiquetados según lo que cree el clasificador que es cada cosa.

Futuro: en el programa que llama al clasificador,  automatizar las pruebas. De forma que pueda realizar cientos de pruebas variando (eliminando, combinando) los parámetros de las entradas. Esto es posible gracias a los filtros de weka, los cuales permitirán eliminar un parametro (o 100)  de nuesto ARFF de entrada. O al menos eso espero.

Anécdota de pruebas: Utilizando dos clasificaciones: flower y people. Unas 32 entradas de entrenamiento y otras tantas como test. Un calsificador que utiliza un algoritmo basado en vectores de soporte. Se ha obtenido un éxito de clasificación del 77%.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: