Garbage in, garbage out? De impact van verschillende soorten fouten in de brontekst op neurale machinevertaling
Summary
Hoewel neurale machinevertaling voor de meeste soorten teksten uitstekende resultaten weet te leveren, vormen vooral online teksten door het hoge aantal fouten van allerlei aard een grote uitdaging. Zelfs kleine afwijkingen in de trainings- of inputdata blijken desastreuze gevolgen voor de output te kunnen hebben. In dit onderzoek test ik de robuustheid van het neurale vertaalsysteem DeepL door de impact van natuurlijk voorkomende fouten in de brontekst op de uiteindelijke vertaling te analyseren. Hiervoor verzamel ik verschillende Nederlandstalige user-generated content met een breed spectrum aan zowel spelling-, grammatica- als zinsbouwfouten, die vervolgens naar het Duits worden vertaald. Op basis van een analyse van de verandering in vertaling na het verbeteren van de fouten, worden interessante statistieken en inzichten over de prestaties en verbetermogelijkheden van het vertaalsysteem gegeven.