AlphaZero
简介
AlphaZero使用与AlphaGo Zero类似但更一般性的算法,在不做太多改变的前提下,并将算法从围棋延伸到将棋与国际象棋上。AlphaZero与AlphaGo Zero不同之处在于[1]:
与Stockfish以及elmo的比较
AlphaZero基于蒙特卡洛树搜索,每秒只能搜索8万步(西洋棋)与4万步(将棋),相较于Stockfish每秒可以7000万步,以及elmo每秒可以3500万步,AlphaZero则是利用了类神经网络提升了搜索的品质[1]。
训练
AlphaZero使用了5,000颗第一代的TPU进行训练。
成绩
围棋
在34小时的训练后(约自我训练2100万局[1]:Table S3),AlphaZero以60胜40败的成绩打败AlphaGo Zero[1]:Table 1。
参考数据
- . 2017-12-05 [2018-05-09]. (原始内容存档于2017-12-08).
外部链接
- Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(页面存档备份,存于),AlphaZero的论文。
- Game Downloads(页面存档备份,存于),AlphaZero与西洋棋软件Stockfish的对弈记录。
- Chess.com Youtube playlist for AlphaZero vs. Stockfish(页面存档备份,存于)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.