Archive for the ‘Uncategorized’ Category

h1

Progressing

septiembre 25, 2011

ProgressMientras sigo progresando en el desarrolo de la memoria y para compartir algo de información he decidido publicar parte de los resultados obtenidos tras realizar las baterías de pruebas para el set de 25k imagenes. Se ha relizado una preparación del entorno basándose tanto en las etiquetas relevantes como para las etiquetas potenciales.

 

CLASSES

  • Relevant tags: Se han detectado 14 clases distintas de tipo relevante: tree, clouds, car, river, people, female, male, sea, flower, bird, night, portrait, dog, baby. 
  • Potential tags: Se han detectado 10 clases distintas de propósito general: animals, indoor, night, people, plant_life, sky, structures, sunset, transport, water. Las cuales comprenden unas 59600 imágenes dentro del set de 25k. Lo cual quiere decir que algunas imágenes pertenecen a mas una clase. Esto llevará al problema comentado en entradas anteriores.

 

ESCENARIO

Para las pruebas que se han realizado se han utilizado 24877 imágenes del set de 25k. Disponemos de toda la información de este grupo a la aplicación de Álvaro. La razón de que la cifra no sea 25k es debido a las imágenes en escala de grises que no se tienen en cuenta en la aplicació de Álvaro. Dentro de este subconjunto se han considerado 24777 para entrenamiento y las 100 restantes para test (clasificación). RESULTADOS

  • Relevant tags: Al escenario anteriormente citado se le han aplicado todos los algoritmos de borrado y selección de parámetros desarrollados para el estudio de parámetros. Se han obtenido resultados que van desde 6.64% (inferior al aleatorio 7.14%) a 26.80%.
  • Potential tags: Al escenario anteriormente citado se le han aplicado todos los algoritmos de borrado y selección de parámetros desarrollados para el estudio de parámetros. Se han obtenido resultados que van desde 9.5% (inferior al aleatorio 10%) a 21.48%.
Anuncios
h1

Writting the paper

septiembre 18, 2011

Tras mi adaptación a mi nuevo entorno y tras varias semanas de trabajo duro he encontrado el hueco para retomar el proyecto. Como siempre he dicho, no me gusta dejar nada a medias. Así que he comenzado a escribir la memoria. Eso si, antes se ha conseguido extraer las características del set de 25k imágenes del imageCLEF (unas 24k y pico, ya que el resto son el blanco y negro). Una vez obtenidas las características se han reservado 100 para ser clasificadas (test) y el resto para entrenamiento (train). Se han obtenido los resultados, se han parseado y se han representado en sus respectivas hojas de Excel acompañadas de sus correspondientes gráficas.

documentsEn cuanto a la memoria, acabo de comenzar. Tan solo tengo el resumen y parte de la introducción. Pero no creo que me cueste mucho, sobre todo cuando entre un poco mas en materia.

Siguiente objetivo: finalizar la memoria.

Objetivos futuros: preparación de una presentación para la defensa del proyecto.

h1

Some Graphics

abril 8, 2011

Tras la obtención de datos en pasos anteriores. Me dispuse a extraer estos y odenarlos en ficheros  CSV. Para así poder importar los datos en tablas de excel. Para ello se han realizado scripts de shell y AWK que extráen los porcentajes de aciertos de los informes estadísticos que ofrece WEKA.

One of the graphics

Ahora mismo hay una gráfica para cada tipo de borrado con los posibles borrados cada una. En cada una se reflejan los resultados para HIGH y LOW resolución. Todo esto para los dos tipos de tiquetado comentados entradas anteriores.

Actualmente se está trabjando en obtener resultados para el set de 25K imágenes.

h1

Abstraction levels way

marzo 24, 2011

Se ha relizado la preparación del entorno basándose en las etiquetas potenciales, las cuales son usadas para el primer paso de clasificación en el modo de niveles de abstracción

Abstraction levels

CLASES
Se han detectado 10 clases distintas de propósito general: animals, indoor, night, people, plant_life, sky, structures, sunset, transport, water. Las cuales comprenden unas 59600 imágenes dentro del set de 25k. Lo cual quiere decir que algunas imágenes pertenecen a mas una clase. Esto llevará al problema comentado en la entrada anterior.

ESCENARIO

El mismo utilizado en la entrada anterior. Para las pruebas que se han realizado se han utilizado las primeras 2k imágenes del set de 25k. Disponemos de toda la información de este subgrupo gracias a Alvaro. Dentro de este subconjunto se han considerado las primeras 1900 para entrenamiento y las 100 restantes para test (clasificación).

RESULTADOS

Al escenario anteriormente citado se le han aplicado todos los algoritmos de borrado y selección de parámetros desarrollados para el estudio de parámetros. Se han obtenido resultados que van desde 15.18% (por encima del aleatorio 10%) a 20.60%.

h1

Relevance levels way

marzo 21, 2011

Se ha relizado una preparación del entorno basándose en las etiquetas relevantes. Esas que distinguen el tema de la imagen inequivocamente.

Relevance leves

CLASSES

Se han detectado 14 clases distintas de tipo relevante: tree, clouds, car, river, people, female, male, sea, flower, bird, night, portrait, dog, baby. Las cuales comprenden 25004 imágenes dentro del set de 25k. Lo cual quiere decir que tan solo 4 imágenes están etiquetadas con mas de una clase. Esto lleva a la conclusión de que el problema comentado en la entrada anterior, sea mínimo.

 

ESCENARIO

Para las pruebas que se han realizado se han utilizado las primeras 2k imágenes del set de 25k. Disponemos de toda la información de este subgrupo gracias a Alvaro. Dentro de este subconjunto se han considerado las primeras 1900 para entrenamiento y las 100 restantes para test (clasificación).

 

RESULTADOS

Al escenario anteriormente citado se le han aplicado todos los algoritmos de borrado y selección de parámetros desarrollados para el estudio de parámetros. Se han obtenido resultados que van desde 5.15% (inferior al aleatorio 7.14%) a 26.80%.

 

PRÓXIMOS PASOS

Por una lado, preparar el entorno utilizando las etiquetas de propósito general utilizadas en el modelo de niveles de abstracción. Se puede anticipar que los resultados no serán nada buenos ya que para 25k imágenes se usan unas 59k etiquetas. Lo cual quiere decir que anota la misma imagen con dos o mas etiquetas. Esto, como se comentó en la entrada anterior, es un problema a la hora de entrenar.

Otro de los puntos que sigue es conseguir los datos correspondientes al resto de imágenes que completan el set de 25k. Y así poder realizar los entrenamientos y clasificación en función a esos datos.

 


 

h1

Image CLEF Annotation Process

marzo 14, 2011

Esta entrada está dedicada a explicar el proceso se anotación de Image CLEF.Dos caminos

Two ways

1) NIVELES DE RELEVANCIA

– Etiquetado preliminar: Se realiza una anotación de conceptos preliminar. De este proceso resultarán las anotaciones potenciales. Estas anotaciones potenciales comprenden todas las clases: clase primaria y subclases (que se utilizan en el otro modo). Es una aproximación a groso modo en la que no es necesario que el tema de la anotación sea el tema principal de la imágen.

– Etiquetado de relevancia: Usando las anotaciones potenciales se etiquetan las imágenes con anotaciones relevantes. Estas serán asignadas solo si el anotador cosidera que se puede interpretar el tema de la imágen con esa única anotación. Lo que se traduce en una etiqueta que identifica inequivocamente el tema de la imágen.

2) NIVELES DE ABSTRACCIÓN

– Temática general: Se crean etiquetas de propósito general englobando todos los subgrupos

– Subgrupos: Para etiquetar en subgrupos solo se usan las anotaciones potenciales del tema general al que pertenece cada subgrupo.

EVALUACIÓN

Ambos procesos de anotación presentan ambigüedades que habría solventar de alguna manera. La mas destacable es el etiquetado de una imágen con varias etiquetas a la vez. No presenta problema “fisico”. Con esto me refiero a que a la hora de aglutinar los ficheros de atributos, de cada imagen, no habrá problema de duplicado, ya que para cada etiqueta es almacenado en un directorio diferente. Si aparece como un problema a la hora de la obtención de resultados. Ya que en el momento de entrenar se puede llegar a estar diciendo que una misma imágen es “sky” y “people”. Para un elemento no sería muy significativo. Pero al ser muchas imágenes, puede llegar a repetirse mas veces de lo deseado y malograr los resultados.

h1

Image CLEF Second Assault

marzo 9, 2011

Tras una mas que interesante charla con los tutores y algún que otr@ colabodor/a. He decidido darle una segunda oportunidad al etiquetado del Image CLEF. Ya que un buen objetivo, a parte del estudio de validación de parámatros extraídos de las imágenes, sería el poder entrenar y clasificar sobre los tags utilizados por Image CLEF

ImageCLEF Categories

En principio parece que es abordable. Al menos las etiquetas primarias/principales. Antes de nada debo comprobar la estructura que sigue ImageCLEF a la hora de mostrar a que clase pertenece cada imagen. Si mi blog no me engaña, aquello era bastante lioso. Espero que con los conocimientos adquiridos durante este tiempo, se pueda realizar la tarea de separación y etiquetado. Para así poder lanzar entrenamientos y tets con estas clases.

 

NOTA: Como se comentó antes de pasada en la reunión, el entrenamiento que se realiza es volátil. Es decir, cada vez que quiero clasificar tengo que entrenar. Sería una cuestión a tener en cuenta. Es por ello que dejo esta nota, aquí y en mi evernote, como recordatorio.