AlphaZero

De Viquipèdia
Crystal Clear app winprops bw.pngAlphaZero

Tipusprograma informàtic Modifica el valor a Wikidata
Versió inicial2017 Modifica el valor a Wikidata
Equip
Desenvolupador(s)DeepMind (en) Tradueix Modifica el valor a Wikidata

AlphaZero és un programa informàtic desenvolupat per DeepMind, que utilitza un enfocament generalitzat d'AlphaGo Zero. El 5 de desembre de 2017, l'equip de DeepMind va llançar una preimpressió presentant AlphaZero, que va aconseguir en 24 hores un nivell de joc sobrehumà en escacs, shogi i Go en derrotar els campions del món, Stockfish, Elmo i la versió de 3 dies d'AlphaGo Zero en cada cas. AlphaZero va dominar Stockfish després de només 4 hores d'autoaprenentatge, sense accés a llibres d'obertura o base de dades de taules de finals.[1][2][3]

Relació amb AlphaGo Zero[modifica]

AlphaZero (AZ) és una variant més generalitzada de l'algorisme AlphaGo Zero (AGZ), i és capaç de jugar shogi i escacs, així com Go. Les diferències entre AZ i AGZ inclouen:

  • AZ té regles codificades per establir hiperparàmetres de cerca.
  • Ara la xarxa neuronal s'actualitza contínuament.
  • Go (a diferència dels escacs) és simètric sota certes reflexions i rotacions; AGZ va ser programat per aprofitar aquestes simetries. AZ no és.
  • Els escacs (a diferència de Go) poden acabar empatats, per tant, AZ pot tenir en compte la possibilitat de les taules.

AlphaZero vs Stockfish i Elmo[modifica]

En comparar les cerques d'arbre de cerca Monte Carlo, AlphaZero busca només 80,000 posicions per segon en escacs i 40,000 en shogi,[4] en comparació amb 70 milions per Stockfish i 35 milions per Elmo. AlphaZero compensa el nombre més baix d'avaluacions mitjançant l'ús de la seva xarxa neuronal profunda per centrar-se molt més selectivament en la variació més prometedora.[1]

Resultats[modifica]

A les partides d'escacs d'AlphaZero contra Stockfish, a cada programa se li va donar un minut de temps de reflexió per jugada. AlphaZero va guanyar 25 partides amb les blanques, en va guanyar 3 amb les negres i va empatar les 72 restants.[1] El 2017, StockFish 8 era el campió vigent del campionat organitzat per chess.com d'escacs per ordinador, amb un Elo de 3400 punts.[5]

En cent partides de shogi contra Elmo, AlphaZero va guanyar noranta i en va perdre vuit.[1]

Després de 8 hores d'autoaprenentatge de Go tenint com a contrincant una versió prèvia d'AlphaZero, AlphaZero va guanyar seixanta partides i en va perdre quaranta.[1]

En una versió actualitzada d'AlphaZero aquest va vèncer a Stockfish 8 en un matx de 1000 partides, obtenint un resultat de +155 -6 = 839.[6] Calculant aquest resultat a Elo, AlphaZero seria superior a Stockfish 8 en 53 punts Elo. La diferència d'Elo és molt menor del que sembla i s'explica per la gran quantitat de taules al matx. (Alphazero va obtenir 57.45% dels punts vs 42.55% que va obtenir StockFish 8 [7] ).

Referències[modifica]

Enllaços externs[modifica]