Clasificación Automática de la Calidad Vocal
DOI:
https://doi.org/10.33414/ajea.4.408.2019Palabras clave:
Aprendizaje Profundo, Redes Neuronales Artificiales, Calidad ocalResumen
Se presenta un enfoque para la construcción de un clasificador extremo-a-extremo de la calidad vocal en escala GRBAS basado en redes neuronales profundas. En base a este enfoque se muestran tres redes neuronales. Las redes presentadas calculan la transformada de Fourier de término reducido (STFT), el cepstrum y shimmer de una señal de audio. Las redes neuronales que calculan la STFT y shimmer se logran entrenar correctamente, mientras que la que calcula el cepstrum no. Para este último caso, se plantea una solución alternativa al cepstrum, la autocovariance, que sí se puede entrenar. Se concluye que las redes neuronales desarrolladas son compatibles con el enfoque planteado porque permiten que el gradiente del error se propague hacia atrás, condición necesaria para entrenar el modelo completo.