@unpublished{BagheriThillKochetal.2014, author = {Samineh Bagheri and Markus Thill and Patrick Koch and Wolfgang Konen}, title = {Online Adaptable Learning Rates for the Game Connect-4}, institution = {Fakult{\"a}t 10 / Institut f{\"u}r Informatik}, series = {CIplus}, number = {3/2014}, year = {2014}, abstract = {Das Erlernen von Brettspielen durch Spiele eines Computers gegen sich selbst hat eine lange Tradition in der K{\"u}nstlichen Intelligenz. Basierend auf Tesauro's herausragendem Erfolg mit TD-Gammon in 1994, nutzen viele erfolgreiche selbstlernende Computerprogramme f{\"u}r Brettspiele heute Temporal Difference Learning (TDL). Um jedoch erfolgreich zu sein, muss man die betrachteten Merkmale sorgf{\"a}ltig ausw{\"a}hlen und oft viele Millionen Trainingsspiele absolvieren. In dieser Arbeit untersuchen wir Varianten zu TDL, insbesondere Incremental Delta Bar Delta (IDBD) und Temporal Coherence Learning (TCL), ob sie das Potential besitzen, wesentlich schneller zu lernen. Wir schlagen eine neue TCL-Variante mit geometrischer Schrittweite vor und vergleichen diese mit verschiedenen anderen Schrittweiten-Adaptionsverfahren aus dem Stand der Technik. Wir zeigen am Beispiel des Brettspiels \"Vier Gewinnt\" (Connect-4), dass Algorithmen mit geometrischer Schrittweite deutlich (um den Faktor 4) schneller lernen als Standard-TDL-Verfahren.}, language = {en} }