Abstract:
A classificação das imagens é um dos problemas mais estudados na área da visão computacional. Alguns dos problemas enfrentados nesse contexto são, por exemplo, a caracterização de padrões de imagens para distinguir espécies naturais, classificação de dados coletados, que em geral envolvem informações complexas a serem identificadas, exigindo recursos como, por exemplo, ferramentas de aprendizado de máquina, como Convolutional Neural Networks (CNNs) e Deep Learning Networks (DLNs). Esta dissertação de mestrado explora o uso de funções de fusão inspiradas na integral de Choquet na camada de pooling da arquitetura da CNN, apresentando um objetivo geral de duas vias. Primeiramente, estudamos a aplicação de funções de (pré) agregação baseadas nas generalizações da integral de Choquet na redução dimensional da imagem, simulando a camada de pooling de um DLN, comparando tais funções com as usuais utilizadas na literatura (as funções aritméticas máximo e média). A avaliação quantitativa foi feita sobre um conjunto de dados de imagem usando diferentes medidas de qualidade de imagem para comparar os resultados. A segunda parte da dissertação é destinada a introduzir uma função de fusão inspirada na integral de Choquet para a camada de pooling da DLN, definida por uma função de capacidade que é aprendida pela própria rede. Utilizando o CifarNet (uma arquitetura simples para classificar objetos), analisamos a abordagem proposta na classificação das imagens. Os resultados são comparados com os obtidos quando se usa o máximo na camada de pooling.
The image classification is one of the most studied problems in the area of computational vision. Some of the problems faced in this context are, for example, the characterization of images patterns to distinguish natural species, classification of collected data, which in general involves complex information to be identified, requiring resources as, e.g., machine learning tools, such as Convolutional Neural Networks (CNNs) and Deep Learning Networks (DLNs). This Master\'s dissertation explores the use of fusion functions inspired on the Choquet integral in the pooling layer of CNN architecture, presenting a two-folded general objective. First, we study the application of (pre) aggregation functions based on the generalizations of the Choquet integral in image dimensional reduction, simulating the pooling layer of a DLN, comparing such functions with the usual ones used in the literature (the maximum and arithmetic mean). A quantitative evaluation was done over an image dataset by using different image quality measures to compare the results. The second part of the dissertation is aimed to introduce a fusion function inspired in the Choquet integral for DLN pooling layer, defined by a capacity-like function which is learned by the own model. Using CifarNet (a simple architecture for classifying objects), we analyse the proposed approach in the image classification. The results are compared with the ones obtained when using the maximum in the pooling layer.