Abstract:
Proteínas Fluorescentes são importantes ferramentas em pesquisas de Biologia Molecular e possuem grande valor comercial na produção de peixes transgênicos fluorescentes. De modo geral, a criação de variantes de cor destas proteínas ocorre por alterações estruturais na macromolécula, ocasionadas por mutações na sequência de aminoácidos. Porém, relacionar de forma exata dados estruturais e sequenciais com a definição de cor de emissão de proteínas fluorescentes ainda necessita de mais estudos. Neste contexto, a aplicação do processo de descoberta de conhecimento em bases de dados se apresenta como uma possibilidade de obtenção de conhecimento sobre essa relação da sequência/estrutura e a cor de emissão. Dessa forma, é realizado neste trabalho a comparação entre três classificadores (baseados em Árvore de Decisão, Redes Neurais Artificiais e Máquinas de Vetores de Suporte) com o intuito de investigar a performance deles na predição da classe de cor de proteínas fluorescentes a partir de seus dados estruturais no âmbito do projeto Peixes Transgênicos Fluorescentes. Para tanto, uma ferramenta web é desenvolvida para o armazenamento, organização e preparação dos dados estruturais utilizados no treinamento dos classificadores. Ao final, um processo de comparação quantitativa e qualitativa é realizado sobre métricas de desempenho e capacidades de cada classificador, culminando na escolha do classificador baseado em Árvore de Decisão como o mais adequado na tarefa de predição da classe de cor de proteínas fluorescentes.
Fluorescent proteins are important tools in molecular biology research and have great commercial value in production of fluorescent transgenic fishes. In general, the creation of color variants of these proteins occurs by structural changes in the macromolecule caused by mutations in amino acid sequence. However, to relate accurately structural and sequence data of fluorescent proteins with its emission color still needs further study. In this context, the application of knowledge discovery in databases process presents a possibility of obtaining knowledge on this relationship of the sequence / structure and emission color. Thus, in this work it is carried out a comparison between classifiers (based on Decision Tree, Artificial Neural Networks and Support Vector Machines) in order to investigate their performance in predicting the class color of fluorescent proteins from their structural data, in the context of Fluorescent Transgenic Fishes project. Therefore, an web tool is designed for the storage, organization and preparation of structural data used in the classifiers training. At the end, a quantitative and qualitative comparison process is carried out on performance metrics and capabilities of each classifier, culminating in the selection of the classifier based on Decision Tree as the most appropriate for the task of predicting the fluorescent proteins color class.