BERT: Het model ontmaskerd. Een beschrijvend literatuuronderzoek naar de effecten van ontwerpkeuzes omtrent de pre-training van taalspecifieke BERT-modellen
Summary
De recente ontwikkelingen binnen Natural Language Processing zorgen voor nieuwe mogelijkheden voor onderzoeken naar betere modellen voor taalbegrip. Het in 2018 gepubliceerde model onder de titel Bidirectional Encoder Representations from Transformers (BERT) speelt een actuele rol in de verbetering van NLP. In dit literatuuronderzoek worden de aspecten van het model een voor een uitgelegd, geanalyseerd en vergeleken met andere, nieuwere versies van de BERT-architectuur. Hierbij wordt gekeken naar modellen die zijn getraind op verschillende talen, en in welk opzicht iedere versie van BERT zich onderscheid van de rest. Na de verschillen te hebben gekoppeld aan de resultaten op een paar NLP-taken blijkt dat een grote pre-trainingsdataset met een grote woordenschat cruciaal is voor het functioneren van het model. Ook blijkt de Whole-word masking taak een belangrijke rol te spelen. Het al dan niet toevoegen van een trainingstaak bovenop MLM geeft wisselende resultaten. Desalniettemin moet er nog nader worden bepaald wat de optimale configuraties zijn, door middel van verder onderzoek.