Analyse van gender bias in word embeddings van de Nederlandse taal op basis van beroepsnamen

Verkade, P.

dc.rights.license	CC-BY-NC-ND
dc.contributor.advisor	Nguyen, D.P.
dc.contributor.author	Verkade, P.
dc.date.accessioned	2020-03-18T19:00:44Z
dc.date.available	2020-03-18T19:00:44Z
dc.date.issued	2020
dc.identifier.uri	https://studenttheses.uu.nl/handle/20.500.12932/35462
dc.description.abstract	Eén van de belangrijkste elementen binnen Natural Language Processing (NLP) zijn word embeddings. Hierbij is elk woord gerepresenteerd door een vector en uit deze vectoren kunnen verschillende relaties worden gehaald die gebruikt kunnen worden binnen de analysemethoden en toepassingen van NLP. Binnen onze taal bevindt zich echter ook menselijke bias zoals vooroordelen en stereotypen waardoor woorden bepaalde associaties krijgen met een groep, gender of ras. Aangezien word embeddings worden geleerd op basis van onze taal middels grote corpora met teksten, zal de bias vermoedelijk ook in deze word embeddings aanwezig zijn. In dit onderzoek zal de gender bias in word embeddings van de Nederlandse taal op basis van beroepsnamen onderzocht worden. Deze beroepsnamen zijn in de Nederlands taal bijzonder moeilijk te analyseren op bias. In het Nederlands wordt er namelijk meestal een onderscheid gemaakt tussen mannelijke en vrouwelijke termen. Na het creëren van een gender subspace en een set met genderneutrale beroepsnamen, zal de directe gender bias geanalyseerd worden middels een cosinusgelijkenis tussen de embeddings van de beroepsnamen en de zelf gecreëerde gender richting uit die subspace. De resultaten hiervan bevestigen ondanks de vrij kleine set van genderneutrale beroepsnamen dat er inderdaad een gender bias in de word embeddings zit. Wel is er vervolgonderzoek nodig om met behulp van andere methoden en een bredere scope de gender bias (of een andere bias) duidelijk in kaart te brengen en te analyseren.
dc.description.sponsorship	Utrecht University
dc.format.extent	493527
dc.format.mimetype	application/pdf
dc.language.iso	nl
dc.title	Analyse van gender bias in word embeddings van de Nederlandse taal op basis van beroepsnamen
dc.type.content	Bachelor Thesis
dc.rights.accessrights	Open Access
dc.subject.keywords	word embeddings, NLP, natural language processing, Nederlands, gender bias,
dc.subject.courseuu	Kunstmatige Intelligentie

Files in this item

Name:: Scriptie_Pascal_Verkade_604505 ...
Size:: 481.9Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Theses

Show simple item record