De invloed van POS-tags op het herkennen van code-switching in Nederlandse tweets

Kempkes, E.K.

View/Open

11_1scriptie_Eline_Kempkes_officeel[5487].pdf (348.7Kb)

Publication date

2021

Author

Kempkes, E.K.

Metadata

Show full item record

Summary

Code-switching zorgt ervoor dat toepassingen zoals taalherkenning en automatische vertalingen minder accuraat worden. Daarom is het van belang dat er onderzoek wordt gedaan naar classificatiemodellen die code-switching automatisch kunnen herkennen. Dongen (2017) heeft al verschillende classificatiemodellen ontworpen om code-switching te herkennen in Nederlands-Engelse tweets. Het doel van deze scriptie is het verbeteren van deze modellen door het toevoegen van een POS-feature. Uit andere onderzoeken is namelijk gebleken dat dit een positieve invloed kan hebben op de resultaten van de classificatiemodellen. Om dit doel te bereiken zijn eerst POS-tags toegevoegd aan de dataset. Dit is gedaan door gebruik te maken van een combinatie van twee verschillende taggers, een Engelse en een Nederlandse. Vervolgens zijn er drie modellen getraind op de dataset: een Multinomial Naive Bayes model, een Decision Tree Model en een Support Vector Machine model. De modellen zijn getraind op verschillende combinaties van features. Hierbij is telkens ook de POS-feature toegevoegd. Vervolgens zijn de precision, recall en F1-score bepaald. Hieruit bleek dat de POS-feature in alle gevallen de F1-score verbeterde. Echter, het beste model uit deze scriptie is niet beter dan de huidige modellen van Dongen (2017). Dit kan worden verklaard door een verschil in methode en door de willekeur van 5-fold-cross-validation. De conclusie is dat het toevoegen van een POS-feature de classificatiemodellen voor het herkennen van code-switching in Nederlands-Engelse tweets verbetert.

URI

https://studenttheses.uu.nl/handle/20.500.12932/39812

Collections

Theses