Abstract:
Devido ao crescimento da pesquisa na área de reconhecimento de padrões, cada vez mais são testados os limites das técnicas utilizadas para a tarefa de classificação. Com isso, percebe-se que classificadores especializados e devidamente configurados são bastante eficazes. No entanto, não é uma tarefa trivial escolher o classificador mais adequado para tratar um determinado problema e configurá-lo corretamente. Além disso, não existe um algoritmo ideal para resolver todos os problemas de predição. Dessa forma, a fim de melhorar o resultado do processo de classificação, algumas técnicas combinam o conhecimento adquirido individualmente pelos algoritmos de aprendizagem visando descobrir novos padrões ainda não identificados. Entre estas técnicas, destaca-se a estratégia de empilhamento (stacking). Esta estratégia consiste na combinação dos resultados dos classificadores base, induzidos por vários algoritmos de aprendizado utilizando o mesmo conjunto de dados, por meio de outro classificador chamado de meta-classificador. O objetivo geral deste trabalho é avaliar o impacto da diversidade dos classificadores na qualidade do empilhamento, tendo como objetivos específicos estudar o método de empilhamento e a diversidade dos classificadores supervisionados. A abordagem proposta é baseada na afirmação de que quanto maior a diversidade dos padrões aprendidos pelos classificadores base, maior será a qualidade do empilhamento. Além disso, realizamos uma série de experimentos que mostram o impacto de múltiplas medidas de diversidade sobre o ganho de empilhamento, considerando muitos conjuntos de dados reais extraídos do repositório de aprendizado de máquina UCI e algumas bases de dados sintéticas com diferentes distribuições espaciais bidimensionais para auxiliar na validação por inspeção visual. A partir dos resultados desses experimentos, percebe-se que não existe uma relação significativa entre diversidade e qualidade do empilhamento.
Due to the growth of research in pattern recognition area, the limits of the techniques used for the classification task are increasingly tested. Thus, it is clear that specialized and properly configured classifiers are quite effective. However, it is not a trivial task to choose the most appropriate classifier for deal with a particular problem and set it up properly. In addition, there is no optimal algorithm to solve all prediction problems. Thus, in order to improve the results of the classification process, some techniques combine the knowledge acquired individually by the learning algorithms in order to discover new patterns not yet identified. Among these techniques, there is the stacking strategy. This strategy consists in the combination of outputs of base classifiers, induced by several learning algorithms using the same dataset, by means of another classifier called meta-classifier. The main goal of this paper is to evaluate the impact of the classifiers diversity in the quality of stacking. The specific objectives are to study the stacking strategy and the diversity of supervised classifiers. The proposed approach is based on the assertion that the greater the diversity of patterns learned by base classifiers, the higher the quality of stacking. Moreover, we have performed a lot of experiments that show the impact of multiple diversity measures on the gain of stacking, considering many real datasets extracted from UCI machine learning repository, and some synthetic databases with different two-dimensional spatial distributions to aid visual inspection validation. From the results of these experiments, we can see that there is no significant relationship between diversity and stacking quality.