Een lerende strategie gebruikmakend van Markov modellen om te gebruiken in de herhaalde vorm van bimatrix spelen

Haan, I. de

View/Open

Scriptie Ivar de Haan.pdf (238.4Kb)

Publication date

2018

Author

Haan, I. de

Metadata

Show full item record

Summary

Het doel van het onderzoek was het ontwerpen en testen van een nieuwe lerende strategie voor in herhaalde bimatrix spelen. Er zijn al lerende strategie¨en gemaakt voor in herhaalde bimatrix spelen maar deze behalen niet altijd optimale resultaten. Hierom hebben wij een nieuwe lerende strategie ontworpen genaamd de markov-learner die gebruik maakt van een Markov model. In dit onderzoeksverslag wordt eerst uitgelegd wat bimatrix spelen zijn, om daarna specifiek te kijken naar het prisoners dilemma. Hierna worden de twee lerende strategie¨en uitgelegd. Hierna wordt uitgelegd wat een Markov model is om daarna deze kennis te gebruiken om de zelf ontworpen strategie uit te leggen. Hierna volgt een methodesectie en de bespreking van de gevonden resultaten. De methode bestond uit het testen van twee al eerder omschreven lerende strategie¨en, namelijk fictitous play en reinforcement learning, samen met de zelf ontworpen markov-learner strategie. Deze strategie¨en zijn onderling vergeleken door ze paarsgewijs en met zichzelf de herhaalde vorm van het prisoners dilemma te spelen. Het gevonden resultaat van het experiment was dat de ontworpen markov-learner een constante, relatief hoge opbrengst bereikte wanneer het tegen zichzelf de herhaalde vorm van het prisoners dilemma speelde in vergelijking met andere tegen elkaar spelende strategie paren. Verder onderzoek zal nodig zijn om de mogelijkheden en het gedrag van de markovlearner volledig te doorgronden.

URI

https://studenttheses.uu.nl/handle/20.500.12932/30113

Collections

Theses