View Item 
        •   Utrecht University Student Theses Repository Home
        • UU Theses Repository
        • Theses
        • View Item
        •   Utrecht University Student Theses Repository Home
        • UU Theses Repository
        • Theses
        • View Item
        JavaScript is disabled for your browser. Some features of this site may not work without it.

        Browse

        All of UU Student Theses RepositoryBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

        De invloed van POS-tags op het herkennen van code-switching in Nederlandse tweets

        Thumbnail
        View/Open
        11_1scriptie_Eline_Kempkes_officeel[5487].pdf (348.7Kb)
        Publication date
        2021
        Author
        Kempkes, E.K.
        Metadata
        Show full item record
        Summary
        Code-switching zorgt ervoor dat toepassingen zoals taalherkenning en automatische vertalingen minder accuraat worden. Daarom is het van belang dat er onderzoek wordt gedaan naar classificatiemodellen die code-switching automatisch kunnen herkennen. Dongen (2017) heeft al verschillende classificatiemodellen ontworpen om code-switching te herkennen in Nederlands-Engelse tweets. Het doel van deze scriptie is het verbeteren van deze modellen door het toevoegen van een POS-feature. Uit andere onderzoeken is namelijk gebleken dat dit een positieve invloed kan hebben op de resultaten van de classificatiemodellen. Om dit doel te bereiken zijn eerst POS-tags toegevoegd aan de dataset. Dit is gedaan door gebruik te maken van een combinatie van twee verschillende taggers, een Engelse en een Nederlandse. Vervolgens zijn er drie modellen getraind op de dataset: een Multinomial Naive Bayes model, een Decision Tree Model en een Support Vector Machine model. De modellen zijn getraind op verschillende combinaties van features. Hierbij is telkens ook de POS-feature toegevoegd. Vervolgens zijn de precision, recall en F1-score bepaald. Hieruit bleek dat de POS-feature in alle gevallen de F1-score verbeterde. Echter, het beste model uit deze scriptie is niet beter dan de huidige modellen van Dongen (2017). Dit kan worden verklaard door een verschil in methode en door de willekeur van 5-fold-cross-validation. De conclusie is dat het toevoegen van een POS-feature de classificatiemodellen voor het herkennen van code-switching in Nederlands-Engelse tweets verbetert.
        URI
        https://studenttheses.uu.nl/handle/20.500.12932/39812
        Collections
        • Theses
        Utrecht university logo