Abstract:
Identificar alunos em risco de evasão tornou-se um importante objeto de pesquisa, visto que é um problema que ocasiona danos sociais, acadêmicos e financeiros. Diante desse cenário, surgiram diversas pesquisas na literatura que propõem soluções para ajudar na identificação prévia de estudantes em risco de evasão. Muitas delas utilizam algoritmos convencionais de aprendizado de máquina sobre dados educacionais, com o objetivo de detectar padrões que denunciem o perfil de um aluno que evade. No entanto, existem maneiras mais avançadas na atualidade, que poderiam explorar melhor, em termos de desempenho e qualidade, os dados educacionais para gerar um modelo preditivo mais robusto, como Deep Learning. Assim, nesta dissertação, apresentam-se duas abordagens para ajudar no processo de identificação prévia de alunos em risco de evasão. Na primeira abordagem, oito algoritmos convencionais de aprendizado de máquina foram utilizados para explorar o dataset que foi construído com dados da plataforma Moodle de dois cursos a distância, e avalia-lo no processo de modelagem preditiva. Essa abordagem resultou em dois experimentos que foram essenciais para a implementação da segunda abordagem, em que utilizou-se Deep Learning para a implementação de uma Recurrent Neural Network que, com células de LSTM em sua arquitetura, tem uma grande capacidade de aprendizagem. Com esta abordagem, realizou-se um terceiro experimento, em que pode ser observado o potencial de uma LSTM para lidar com a natureza dos dados dessa pesquisa.
Identifying students at dropout risk has become an important research object since it is a problem that causes social, academic and financial damage. Given this scenario, sev- eral researches have been developed in the literature proposing solutions to support the early identification of students at dropout risk. Many of them use conventional machine learning algorithms on educational data to detect patterns that can reveal an at-risk student profile. However, there are more advanced mechanisms in the present moment that could better exploit, in terms of performance and quality, educational data to generate a more robust predictive model, like Deep Learning. Thus, in this dissertation, two approaches are presented to help in the process of early identification of students at dropout risk. In the first one, eight conventional machine learning algorithms were used to explore the dataset that was built with data from the Moodle platform of two distance postgraduate programs and to evaluate it in the predictive modeling process. This approach resulted in two experiments that were essential for the implementation of the second approach, in which Deep Learning was used to implement a Recurrent Neural Network that, with LSTM cells in its architecture, has a great capacity for learning. Therefore, a third exper- iment was carried out with the second approach, in which the potential of an LSTM can be observed to deal with the nature of the data in this research.