Abstract:
A metodologia abordada nesta dissertação é baseada na combinação dos resultados
de diferentes ferramentas de predição do impacto de mutações pontuais em proteínas,
assumindo-se o pressuposto de Ensemble Learning na qual a capacidade de generalização
de um conjunto é frequentemente mais forte do que uma decisão individual. O objetivo
é predizer qual o impacto que uma mutação pode resultar em um mutante "in-silico".
Para isso, foram adotadas ferramentas descritas na literatura como capazes de predizer
os efeitos na estabilidade de uma proteína sobre mutações pontuais através da variação
da energia livre ∆∆G, ou seja, a diferença de energia livre entre uma proteína do tipo
selvagem e o seu mutante. As primeiras versões da metodologia proposta, EN-MUTATE,
realizaram o ensemble por meio de uma votação por pluralidade entre as ferramentas
integradas. À vista disso, com a necessidade de se expandir as análises com o intuito
de permitir uma metodologia baseada em modelos treinados através de diferentes
classificadores, a abordagem proposta foi reestruturada e passou a abordar múltiplas
opções de predição ensemble, o que acabou sendo agregado a ferramenta desenvolvida
EN-MUTATEweb. Um fator relevante a ser mencionado sobre a viabilidade da sua
utilização é a dificuldade de seleção de um determinado método a priori, tendo em
vista que não há como se prever àquele que terá melhor desempenho para os dados de
interesse. Do mesmo modo, o trabalho necessário para teste e comparação de múltiplas
abordagens pode tornar o tempo de pesquisa demasiadamente alto para o especialista.
De forma a mensurar a viabilidade de aplicação de ensemble learning ao problema
de pesquisa, esta dissertação avaliou seus resultados com base em valores biológicos
experimentais, sendo que os experimentos computacionais foram divididos em cinco
abordagens com diferentes configurações. Por fim, para os principais conjuntos de
dados adotados, a metodologia EN-MUTATE obteve em grande parte modelos mais
acurados. Desse modo, as principais contribuições obtidas com o desenvolvimento desta
dissertação atendem ao seu principal objetivo: definir uma metodologia cuja finalidade
é adotar o conceito de Ensemble Learning para combinar em uma única abordagem os
resultados de diferentes ferramentas de predição do impacto de mutações pontuais em
proteínas, buscando, assim, a adoção de abordagens para produzir um resultado final em
conjunto potencialmente melhor do que os individuais
The methodology used in this dissertation is based on the combination of the results of different tools to predict the impact of point mutations on proteins, using the assumption of Ensemble Learning, in which the capacity of generalization of a set is often stronger than an individual decision. The goal is to predict the impact that a mutation can have on an "in-silico" mutant. To this end, tools described in the literature have been chosen for being capable of predicting the effects on stability of a protein on single point mutations through the free energy variation G, that is, the free energy difference between a wild-type protein and its mutant. The first versions of the proposed methodology, EN-MUTATE, performed the ensemble by means of a plurality voting among the integrated tools. Having this in view, and considering the need to expand the analyzes in order to allow a methodology based on models trained through different classifiers, the proposed approach was restructured and started to address multiple options of ensemble prediction, which ended up being added to EN-MUTATEweb, the tool developed. A relevant factor to be mentioned about the viability of its use is the difficulty of selecting a certain method a priori, considering that there is no way to predict the one that will perform best for the data of interest. Likewise, the work required to test and compare multiple approaches can make the search time too high for the specialist. In order to measure the feasibility of applying ensemble learning to the research problem, this dissertation evaluated its results based on experimental biological values, and the computational experiments were divided into five approaches with different configurations. Finally, in the main datasets used EN-MUTATE methodology obtained in large part more accurate models. Thus, the main contributions of this dissertation cover the main objective: define a methodology whose purpose is to adopt the concept of Ensemble Learning to combine results of different tools to predict the impact of point mutations on proteins, seeking the adoption of approaches to produce a potentially better combined result than the individual ones.