Funzione di valutazione (euristica)

Una funzione di valutazione, nota anche come funzione di valutazione euristica o funzione di valutazione statica, è una funzione utilizzata dai programmi di gioco per stimare il valore o la bontà di una posizione (di solito in un nodo foglia o terminale) in un albero di gioco.[1]

La maggior parte delle volte, il valore è un numero reale o un intero quantizzato, spesso in n decimi del valore di un pezzo da gioco come un sasso nel go o un pedone negli scacchi, dove n può essere un decimo, un centesimo o un'altra frazione conveniente, ma a volte il valore è una matrice di tre valori nell'intervallo unitario (ovvero l'intervallo chiuso che va da 0 ad 1), che rappresentano le percentuali di vittoria, pareggio e sconfitta della posizione.

Non esistono modelli analitici o teorici di funzioni di valutazione per le partite irrisolte, né tali funzioni sono interamente ad hoc. La composizione delle funzioni di valutazione è determinata empiricamente inserendo una funzione candidata in un automa e valutandone le prestazioni successive. Esiste un numero significativo di prove per diversi giochi come gli scacchi, lo shogi e il go per quanto riguarda la composizione generale delle funzioni di valutazione per essi.

Tra i giochi in cui i programmi di gioco per computer utilizzano le funzioni di valutazione, vi sono gli scacchi,[2] il go,[2] lo shogi,[2] l'othello, l'hex, il backgammon[3] e la dama.[4] Inoltre, con l'avvento di programmi come MuZero, i programmi per computer utilizzano le funzioni di valutazione anche per giocare ai videogiochi, come quelli dell'Atari 2600.[5] Alcuni giochi, come il tris, sono fortemente risolti e non richiedono la ricerca o la valutazione perché è disponibile un albero di soluzioni discreto.

  1. ^ Claude Shannon, Programming a Computer for Playing Chess (PDF), su Philosophical Magazine, vol. 41.
  2. ^ a b c David Silver, Thomas Hubert, Julian Schrittwieser, Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis, A general reinforcement learning algorithm that masters chess, shogi, and go through self-play, in Science, 362 (6419): 1140–1144, DOI:10.1126/science.aar6404.
  3. ^ Temporal Difference Learning and TD-Gammon, su bkgm.com. URL consultato il 14 novembre 2024.
  4. ^ Schaeffer, J.; Burch, N.; Y. Björnsson; Kishimoto, A.; Müller, M.; Lake, R.; Lu, P.; Sutphen, S., Checkers is Solved (PDF), su Science, 317 (5844): 1518–22.
  5. ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy (2020). "Mastering Atari, Go, chess and shogi by planning with a learned model". Nature. 588 (7839): 604–609. arXiv:1911.08265. Bibcode:2020Natur.588..604S. doi:10.1038/s41586-020-03051-4. PMID 33361790. S2CID 208158225.

Voci correlate

modifica