De invloed van POS-tags op het herkennen van code-switching in Nederlandse tweets
Summary
Code-switching zorgt ervoor dat toepassingen zoals taalherkenning en automatische vertalingen minder accuraat worden. Daarom is het van belang dat er onderzoek wordt gedaan naar classificatiemodellen die code-switching automatisch kunnen herkennen. Dongen (2017) heeft al verschillende classificatiemodellen
ontworpen om code-switching te herkennen in Nederlands-Engelse tweets. Het doel van deze scriptie is het verbeteren van deze modellen door het toevoegen van een POS-feature. Uit andere onderzoeken is namelijk gebleken dat dit een positieve invloed kan hebben op de resultaten van de classificatiemodellen.
Om dit doel te bereiken zijn eerst POS-tags toegevoegd aan de dataset. Dit is gedaan door gebruik te maken van een combinatie van twee verschillende taggers, een Engelse en een Nederlandse. Vervolgens zijn er drie modellen getraind op de dataset: een Multinomial Naive Bayes model, een Decision Tree
Model en een Support Vector Machine model. De modellen zijn getraind op verschillende combinaties van features. Hierbij is telkens ook de POS-feature toegevoegd. Vervolgens zijn de precision, recall en F1-score bepaald. Hieruit bleek dat de POS-feature in alle gevallen de F1-score verbeterde. Echter, het
beste model uit deze scriptie is niet beter dan de huidige modellen van Dongen (2017). Dit kan worden verklaard door een verschil in methode en door de willekeur van 5-fold-cross-validation. De conclusie is dat het toevoegen van een POS-feature de classificatiemodellen voor het herkennen van code-switching
in Nederlands-Engelse tweets verbetert.