Aplicações de ensemble learning para o estudo do efeito de mutações pontuais em estruturas tridimensionais de proteínas

Freitas, Eduardo Kenji Hasegawa de

Abstract:

 
O refinar de propriedades das proteínas, através de mutações pontuais sobre seus aminoácidos é uma prática muito comum utilizada em processos da indústria bioquímica. Métodos computacionais acurados são necessários para realizar a predição sobre esses experimentos de mutações, tornando o design de proteínas mais eficiente. Por meio de bases de dados provenientes do Protherm, onde cada instância inclui dados numéricos,como variação da energia livre de Gibbs, mudança de entalpia, mudança de capacidade térmica, temperatura de transição, entre outros, são informações importantes para a compreensão da estabilidade da proteína. As predições do efeito da mutação na estrutura da proteína medido pela variação da variação da energia de Gibbs (ddG) são divididas entre duas classes, estabilizante e desestabilizante, onde algoritmos de classificação e ensemble de classificadores, disponibilizados pelo software Weka, terão a função de determinar a acurácia dos modelos de predição. Através de três experimentos, que são diferenciados pelo pré-processamento dos dados de entrada para os modelos de predição, é avaliado o comportamento dos das predições cada ferramenta, proporcionando uma discussão de como a bioinformática pode se beneficiar desses resultados e como os modelos de predição criados podem predizer o impacto de mutações pontuais na estrutura de proteínas.
 
The refining of protein properties, through point mutations on their amino acids, is avery common practice used in biochemical industry processes. Accurate computational methods are required to carry out the prediction on these mutation experiments, making protein design more efficient. Through databases from Protherm, where each instance in-cludes numerical data, such as Gibbs free energy variation, enthalpy change, thermal ca-pacity change, transition temperature, among others, are important for the understanding of protein stabilization. The predictions will be divided between two classes, stabilizing and destabilizing, where algorithms for classification and ensemble classifiers, available on the Weka software, have the objective to determine the accuracy of the prediction models. By making use of three experiments, that are unique in the way of data inputpre-processing for the prediction models, it is evaluated the prediction behavior of each tool, providing a discussion on how bioinformatics can benefit from these results and how the created predicting models can predict the impact of point mutations on the structure of proteins.
 

Show full item record

 

Files in this item

This item appears in the following Collection(s)

:

  • C3 - Mestrado em Engenharia da Computação