Função de escore baseada em machine learning para docagem molecular proteína-ligante

Arce, Oscar Emilio Arrua

Abstract:

 
No desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016.
 
In the field of drug design, scoring functions are useful for predicting the binding affinity of protein-ligand complexes. The machine learning approach is showing a promising performance as a result of the increasing amount of data regarding biochemical and biophysical processes, obtained from previous experiments. The aim of this work was to develop a scoring function based on machine learning method for protein-ligand molecular docking. The current methodology was designed from related works available in the literature, where the information about protein-ligand complexes that are used like training collection were obtained; features of proteins, features of ligands and interactions between them the are used as descriptors; machine learning methods that are to used to train models, including feature selection techniques and hyperparameters optimization; and test sets that are used to evaluate scoring functions. To compile the training set were studied: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ and Decoys CSAR-NRC HiQ. As atributes set where seen: geometrical features, SFCscore features, AutoDock Vina features and score, solvent-accessible surface area features, DeltaVinaRF20 features, protein primary structure features, descriptors related to protein secundary structure, features from PaDEL Descriptor, NNScore 2.0 interactions features, Features 2D/3D from RDKit. Random Forest and Gaussian Process were compared as machine learning methods, in addition to LASSO to calculate the weights of the attributes and GridSearchCV as a technique to hyperparameters optimization. The proposed scoring function will be evaluated using the CASF-2016 benchmark, based on the following parameters: Scoring Power, Ranking Power, Docking Power and Screening Power. For the Scoring Power test, the proposed scoring function achieves a Pearson correlation coefficient between predicted affinities and experimental measured affinities of 0.81 versus 0.816 achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Ranking Power, the proposed scoring function achieves a Spearman correlation coefficient between the ranks based on the predicted affinities values and the experimentally values measured of 0.66 versus 0.75 achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Docking Power test, the proposed scoring function has obtain a 86% success rate in identifying the top best-scored ligand binding pose below 2 Å root-mean-square deviation from the native pose compared to 90.2% achieved by the best scoring function in CASF-2016 (AutoDock Vina). For the Docking Power test without native pose, the proposed scoring function has obtain a success rate of 83.8% versus 84.9% achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Forward Screening Power test, the proposed scoring function has a got 26.5% success rate to identifying potential small-molecule ligands for a chosen target protein at the top 1% level versus 42.1% by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Reverse Screening Power test, the proposed scoring function achieve a 18.5% success rate in identifying potential target proteins for a bioactive small-molecule compound at the top 1% level and was the best scoring function in CASF-2016.
 

Show full item record

 

Files in this item

This item appears in the following Collection(s)

:

  • C3 - Mestrado em Engenharia da Computação