Emotieherkenning door Spraakherkenningssoftware
Summary
Het belang van het ontwikkelen van automatische spraakherkenning (ASR) wordt steeds groter. Vooruitgangen in neurale netwerken bieden de mogelijkheid om geavanceerde state-of-the-art spraakherkenningstechnieken toe te passen op spraakemotieherkenning. Emotie komt in het spraaksignaal voor in de vorm van stemkwaliteit, toonhoogte, formantfrequenties en spraaktempo. State-of-the-art Speech Emotion Recognition (SER) in Kaldi wordt geanalyseerd en vergeleken met een nieuw SER-experiment in Python om te ontdekken wat positieve en negatieve effecten heeft op de prestatie van het neuraal netwerk model. De conclusie is dat niet alle emotiecategorieën geschikt zijn als trainings- en testdata, dat perturbatie geschikt is voor data augmentatie, en dat een Time Delay Neural Network (TDNN) LSTM de meest geschikte architectuurontwerp is voor een SER systeem.