Archive for 24 marzo 2011

h1

Abstraction levels way

marzo 24, 2011

Se ha relizado la preparación del entorno basándose en las etiquetas potenciales, las cuales son usadas para el primer paso de clasificación en el modo de niveles de abstracción

Abstraction levels

CLASES
Se han detectado 10 clases distintas de propósito general: animals, indoor, night, people, plant_life, sky, structures, sunset, transport, water. Las cuales comprenden unas 59600 imágenes dentro del set de 25k. Lo cual quiere decir que algunas imágenes pertenecen a mas una clase. Esto llevará al problema comentado en la entrada anterior.

ESCENARIO

El mismo utilizado en la entrada anterior. Para las pruebas que se han realizado se han utilizado las primeras 2k imágenes del set de 25k. Disponemos de toda la información de este subgrupo gracias a Alvaro. Dentro de este subconjunto se han considerado las primeras 1900 para entrenamiento y las 100 restantes para test (clasificación).

RESULTADOS

Al escenario anteriormente citado se le han aplicado todos los algoritmos de borrado y selección de parámetros desarrollados para el estudio de parámetros. Se han obtenido resultados que van desde 15.18% (por encima del aleatorio 10%) a 20.60%.

Anuncios
h1

Relevance levels way

marzo 21, 2011

Se ha relizado una preparación del entorno basándose en las etiquetas relevantes. Esas que distinguen el tema de la imagen inequivocamente.

Relevance leves

CLASSES

Se han detectado 14 clases distintas de tipo relevante: tree, clouds, car, river, people, female, male, sea, flower, bird, night, portrait, dog, baby. Las cuales comprenden 25004 imágenes dentro del set de 25k. Lo cual quiere decir que tan solo 4 imágenes están etiquetadas con mas de una clase. Esto lleva a la conclusión de que el problema comentado en la entrada anterior, sea mínimo.

 

ESCENARIO

Para las pruebas que se han realizado se han utilizado las primeras 2k imágenes del set de 25k. Disponemos de toda la información de este subgrupo gracias a Alvaro. Dentro de este subconjunto se han considerado las primeras 1900 para entrenamiento y las 100 restantes para test (clasificación).

 

RESULTADOS

Al escenario anteriormente citado se le han aplicado todos los algoritmos de borrado y selección de parámetros desarrollados para el estudio de parámetros. Se han obtenido resultados que van desde 5.15% (inferior al aleatorio 7.14%) a 26.80%.

 

PRÓXIMOS PASOS

Por una lado, preparar el entorno utilizando las etiquetas de propósito general utilizadas en el modelo de niveles de abstracción. Se puede anticipar que los resultados no serán nada buenos ya que para 25k imágenes se usan unas 59k etiquetas. Lo cual quiere decir que anota la misma imagen con dos o mas etiquetas. Esto, como se comentó en la entrada anterior, es un problema a la hora de entrenar.

Otro de los puntos que sigue es conseguir los datos correspondientes al resto de imágenes que completan el set de 25k. Y así poder realizar los entrenamientos y clasificación en función a esos datos.

 


 

h1

Image CLEF Annotation Process

marzo 14, 2011

Esta entrada está dedicada a explicar el proceso se anotación de Image CLEF.Dos caminos

Two ways

1) NIVELES DE RELEVANCIA

– Etiquetado preliminar: Se realiza una anotación de conceptos preliminar. De este proceso resultarán las anotaciones potenciales. Estas anotaciones potenciales comprenden todas las clases: clase primaria y subclases (que se utilizan en el otro modo). Es una aproximación a groso modo en la que no es necesario que el tema de la anotación sea el tema principal de la imágen.

– Etiquetado de relevancia: Usando las anotaciones potenciales se etiquetan las imágenes con anotaciones relevantes. Estas serán asignadas solo si el anotador cosidera que se puede interpretar el tema de la imágen con esa única anotación. Lo que se traduce en una etiqueta que identifica inequivocamente el tema de la imágen.

2) NIVELES DE ABSTRACCIÓN

– Temática general: Se crean etiquetas de propósito general englobando todos los subgrupos

– Subgrupos: Para etiquetar en subgrupos solo se usan las anotaciones potenciales del tema general al que pertenece cada subgrupo.

EVALUACIÓN

Ambos procesos de anotación presentan ambigüedades que habría solventar de alguna manera. La mas destacable es el etiquetado de una imágen con varias etiquetas a la vez. No presenta problema “fisico”. Con esto me refiero a que a la hora de aglutinar los ficheros de atributos, de cada imagen, no habrá problema de duplicado, ya que para cada etiqueta es almacenado en un directorio diferente. Si aparece como un problema a la hora de la obtención de resultados. Ya que en el momento de entrenar se puede llegar a estar diciendo que una misma imágen es “sky” y “people”. Para un elemento no sería muy significativo. Pero al ser muchas imágenes, puede llegar a repetirse mas veces de lo deseado y malograr los resultados.

h1

Image CLEF Second Assault

marzo 9, 2011

Tras una mas que interesante charla con los tutores y algún que otr@ colabodor/a. He decidido darle una segunda oportunidad al etiquetado del Image CLEF. Ya que un buen objetivo, a parte del estudio de validación de parámatros extraídos de las imágenes, sería el poder entrenar y clasificar sobre los tags utilizados por Image CLEF

ImageCLEF Categories

En principio parece que es abordable. Al menos las etiquetas primarias/principales. Antes de nada debo comprobar la estructura que sigue ImageCLEF a la hora de mostrar a que clase pertenece cada imagen. Si mi blog no me engaña, aquello era bastante lioso. Espero que con los conocimientos adquiridos durante este tiempo, se pueda realizar la tarea de separación y etiquetado. Para así poder lanzar entrenamientos y tets con estas clases.

 

NOTA: Como se comentó antes de pasada en la reunión, el entrenamiento que se realiza es volátil. Es decir, cada vez que quiero clasificar tengo que entrenar. Sería una cuestión a tener en cuenta. Es por ello que dejo esta nota, aquí y en mi evernote, como recordatorio.

h1

Summary of parameters

marzo 7, 2011

Distribution ImageEsta entrada está dedicada detallar los parámetros que se usan a la hora de realizar entremaiento y test

 

CLASES

– building

– flower

– landscape

– people

A la hora de entrenar es necesario entrenar con al menos dos clases. Es obligado ya que al entrenar solo con una clase, “flower”, a lo hora de clasificar para él todo es “flower”. Esto sucede  debido a que es lo único que conoce. Así que si se quiere hacer una clasificación al estilo “flower” o cualquier otra cosa, habría que crear una clase “unknown” y etiquetar con ella cualquier cosa que no sea “flower”. De esta manera el clasificador sabría lo que es “flower” y que el resto es “unknown”.

 

NÚMERO DE IMÁGENES

Se han escogido 40 imágenes de cada clase. Dichas imágenes han sido utilizadas para el entrenamiento y la clasificación. El reparto de imágenes se ha realizado con la siguiente distribución

– 10% -> del total para entreamiento (4). El resto para clasificación (36)

– 25% -> del total para entreamiento (10). El resto para clasificación (30)

– 50% -> del total para entreamiento (20). El resto para clasificación (20)

De forma que se puede preparar el entorno con cualquiera de estas distribuciones

 

 

h1

Attribute selection by group of characteristic

marzo 3, 2011

Attribute selection by group of characteristicUn pequeño paso mas que nos ha llevado a la implementación del borrado de cojuntos mayores de atributos

1) RGB + Nº de repeticiones del color mas repetido + RGB + Nº de repeticiones del 2º color mas repetido

2) % líneas verticales + % líneas horizontales

3) % líneas oblícuas \ y % líneas oblicuas /

En principio no hay pensadas mas baterías de selección de atributos. A continuación se resumen los distintos tipos de selección de atributos que se han implementado.

– Borrado por características (borrado de un único grupo x todos los grupos)

– Borrado por características inverso (borrado de todos los grupos excepto uno x todos los grupos)

– Borrado por grupos de características (borrado de un único “nuevo” grupo de características x todos los grupos)

– Borrado por zonas (borrado de una única zona x todas las zonas definidas)

Todos estos tipos de borrado se han impletado de forma que se realice para high y low resolution.

Entorno de ejecución

Para la ejecución se puede elegir una combinación entre clases a utilizar (mínimo 2; máximo 4) y porcentaje de imágenes a usar en el entrenamiento

– CLASES: building – flower – landscape – people

– % TRAIN: 10 – 25 – 50

Cualquier combinación entre estos tipos es posible y se puede llevar a cabo. Incluso se puede preparar el entorno (tan solo con ejecutar un script) para que se ejecute para la combinación de todos. Lo cual nos da un número de 30 posibles entornos distintos a los que aplicar nuestras baterías de selección de atributos

 

h1

Attribute selection by characteristic

marzo 2, 2011

By CharacteristicEn este paso se ha llevado a cabo el desarrollo de  la eliminación de atributos basándonos en los grupos de caracaterísticas creados anterirormente. En este caso se ha hecho justo lo contrario a lo que ya se tenía en borrado por características. Y es que se ha mantenido un único grupo de características mientras que se ha procedido al borrado del resto. De esta manera podemos observar cual es el impacto directo de cada uno de los grupos de características, por si solos,  en nuestros resultados.

El siguiente paso, como ya se comentó anteriormente, será la ampliación de los grupos de características y el realizar otra batería de borrado para estos nuevos grupos.