Een lerende strategie gebruikmakend van Markov modellen om te gebruiken in de herhaalde vorm van bimatrix spelen
Summary
Het doel van het onderzoek was het ontwerpen en testen van een nieuwe
lerende strategie voor in herhaalde bimatrix spelen. Er zijn al lerende
strategie¨en gemaakt voor in herhaalde bimatrix spelen maar deze behalen
niet altijd optimale resultaten. Hierom hebben wij een nieuwe lerende
strategie ontworpen genaamd de markov-learner die gebruik maakt van
een Markov model.
In dit onderzoeksverslag wordt eerst uitgelegd wat bimatrix spelen
zijn, om daarna specifiek te kijken naar het prisoners dilemma. Hierna
worden de twee lerende strategie¨en uitgelegd. Hierna wordt uitgelegd
wat een Markov model is om daarna deze kennis te gebruiken om de zelf
ontworpen strategie uit te leggen. Hierna volgt een methodesectie en de
bespreking van de gevonden resultaten.
De methode bestond uit het testen van twee al eerder omschreven
lerende strategie¨en, namelijk fictitous play en reinforcement learning, samen
met de zelf ontworpen markov-learner strategie. Deze strategie¨en zijn onderling
vergeleken door ze paarsgewijs en met zichzelf de herhaalde vorm
van het prisoners dilemma te spelen.
Het gevonden resultaat van het experiment was dat de ontworpen
markov-learner een constante, relatief hoge opbrengst bereikte wanneer
het tegen zichzelf de herhaalde vorm van het prisoners dilemma speelde in
vergelijking met andere tegen elkaar spelende strategie paren. Verder onderzoek
zal nodig zijn om de mogelijkheden en het gedrag van de markovlearner
volledig te doorgronden.