Abstract:
Com a evolução na área de tecnologia, soluções destinadas a pessoas com deficiência podem possibilitá-las viverem com maior independência, segurança e conectividade com o resto do mundo. Alguns eventos emitem sinais característicos que podem ser interpretados, por exemplo, como a ocorrência de uma situação de perigo. Os surdos, por não receberem os sinais sonoros, seguidamente mantém-se em estado de alerta, fazendo varreduras visuais nos ambientes, dificultando o processo natural de atenção seletiva e a concentração em outras atividades. Foi elaborado um levantamento prévio por meio de questionário estruturado, respondido por pessoas com surdez ou que possuem alguma relação, coletando informações sobre a demanda dos surdos, como a identificação de sinais de alerta importantes. Os resultados apontaram ser importante que o surdo tenha um recurso que auxilie na identificação de eventos que caracterizam situação de perigo. O desenvolvimento realizou estudos elucidativos sobre o público alvo/motivador, tecnologias existentes e comunicação visual. Desta forma, o trabalho tem como objetivo apresentar um estudo de caso de aplicação de modelo de rede neural profunda que, por meio de Detecção de Eventos Acústicos (AED), visa classificar alertas sonoros específicos para surdos. Foram realizados dois experimentos utilizando modelos de rede neural profunda, utilizando parte de três conjuntos de dados disponibilizados por grupo de pesquisa ligado a AED. Os dados foram sintetizados em um dataset que pode ser dividido entre classes de sons de alerta de sons ambiente. Um dos testes utilizou áudios brutos como entrada, os demais a extração do cepstrum de mel-frequência (MFCC), extraído em etapa de pré-processamento. Como resultados, quatro dos testes alcançaram F1 Score baseado em segmento acima de 85%, caracterizando possível problema de overfitting e outro alcançou 14% baseado em evento, caracterizando underfitting. Ao final, são discutidas possíveis causas para problemas apresentados, é sugerido o seguimento da pesquisa no modelo que utiliza uma Rede de Memória de Longo Prazo (LSTMs) e alterações no dataset para obtenção de melhores resultados.
The evolution in the area of technology possibility solutions for people with disabilities to improve our independence, security and connectivity with the rest of the world. Some events emit characteristic signals and it can be interpreted, for example, as the occurrence of a dangerous situation. The deaf, because they did not receive the sound signals, then kept on alert, making visual sweeps in the environments, making it difficult for the process of natural selective attention and concentration on other activities. A previous survey was conducted using a structured questionnaire, answered by people with deafness or who have some relation, collecting information about the deaf people's demand, such as the identification of important warning signs, the results pointed out importance to deaf people a resource to assists identification for events of danger situations. The development carried out elucidative studies on the target/motivating public, existing technologies and visual communication. This work presents the use case application of a deep neural network model in Acoustic Events Detection (AED) to classify specific sound alerts for deaf people. Two experiments were carried out to adapt deep neural network models, using part of three datasets provided by a research group linked to AED. The data has been synthesized in a dataset that can be divided between ambient sound alert sound classes. Each model sent information to its neural network in a format different from the same resources. One of the tests used raw audios as input, the others the extraction of honey-frequency cepstrum (MFCC), extracted in pre-processing stage. As a result, four of the tests achieved segment-based F1 Score above 85%, characterizing possible overfitting problem and another reached 14% event-based characterizing possible underfitting. In the end, possible causes for problems presented are discussed, it is suggested to follow the research in the model that uses a Long Term Memory Network (LSTMs) and changes in the dataset for better results.