BYR Achieve · 镜像论坛

分享一下使用icyChessZero组自己集群的minimal sample： https://drive.google.com/open?id=1sC-gsoiz4NnQNs-X1cjlfkJhgRDbQJEl 可以直接在google colab上跑棋谱保存到自己的google drive 之后用colab打开就能跑，如下图： --------------更新线---------------- 首先贴上github地址： https://github.com/bupticybee/icyChessZero 这次我不是来骗star的这次我是来求显卡的，真的但是我这次不是空手来的，我带了一些干货，首先是git上的代码就不提了，东西有点多，大家可以上去看看，写了我认为比较详细的README。来都来了，就先说下开发历程吧，先来个标题： # 开发历程中国象棋的alpha zero我很早就想做了中国象棋的增强学习了，alpha zero出来之前我就写过https://github.com/bupticybee/icyElephant 这个项目，这个项目可以理解为中国象棋alpha zero的策略网络吧，不过区别在于当时的想法是策略网络可能棋力就够打人类了（对比围棋策略网络已经可以吊打初学者），另一个区别在于我把中国象棋的选自和移动子分成了两个网络（对比alpha zero网络其实是对选子-移动子的两步做了一个笛卡尔积），而不是像alpha zero一样仍然是一个网络，这部分内容 http://icybee.cn/article/69.html 有提到，不过目前这篇文章只能算是一个草稿，之后我会慢慢整理成一篇真正的文章。最后我的实验证明两者的准确率完全相同，并且我“发明”的方法并不能用在蒙塔卡罗树搜索中，因为效率太低。（这就很尴尬了），而且当时网上查的各个论坛，包括reddit的声音都是认为国际象棋不能用alpha go的方法做出来，所以当时那个项目也就搁置了。当alpha zero出来之后我意识到被骗了，原来象棋这种游戏也是可以用alpha go的方法做出来的，于是那之后我就一直想找时间开始边看论文边写这个中国象棋的alpha go，毕竟国际象棋都搞出来了，中国象棋能差多少呢？我开始看往上其他人的实现，评估要多少计算量，多长时间可以跑完，我有多少资源，当时我一直以为我是唯一在搞中国象棋alpha zero，当时一直没发现一个竞争对手已经悄然开始了他的工作，就是 https://github.com/NeymarL/ChineseChess-AlphaZero/tree/distributed 这个项目，后来我的alpha zero写的差不多了我才发现的，也混进他们群里，还发现了他们的一个bug，不过这都是后话了。于是我开始看论文，写中国象棋的alpha zero，这个项目原理简单，但是实现起来全是逻辑，我从三月（存疑）开始写，一直没时间写，断断续续的写，5月跑了几天，出了一些bug，后来一堆事情又涌上来，这项目就又搁置了起来，到7，8月，我意外的发现终于又有一些时间了，于是终于，我完成了我的中国象棋alpha go zero的第一版。然后开始了漫长的训练过程，我一开始的评估结果是以实验室的资源大概至少10年能跑出来吧，后来随着计算越来越精确，我发现在短短一年，甚至半年之内完成训练是很有可能的，但是一台机器肯定不够，需要有很多机器，于是我写了分布式版本，甚至花了一周时间重构了很多代码，这次重构以后一些bug莫名其妙的消失了，elo曲线总算开始正常上升。而此时一看对手https://cczero.org/ 已经遥遥领先，莫名有点泄气，但是对手的成功至少说明了这条路走得通，我又耐心的等了几天，有重构了一些代码，我终于决定，就是今天了，可以发布了。可以跪求显卡了。 # 正题求显卡训练中国象棋的alpha zero需要巨大的资源支持，我自己已经悄悄地把手伸向了我所能够到的所有gpu机器，现在已经组建了一个四台机器的tiny集群（校内），但是四台机器一起跑仍然觉得很慢，所以仍然需要更多机器的加入。如果你正好在校内，并且实验室有一些闲置的带gpu的机器的权限，或者gpu机器有时候闲置，如果可以的话，我希望能够利用起这些机器的gpu时间，加入集群训练参考： https://github.com/bupticybee/icyChessZero#%E5%8A%A0%E5%85%A5%E6%88%91%E4%BB%AC%E7%9A%84%E9%9B%86%E7%BE%A4%E8%AE%AD%E7%BB%83%E5%8C%97%E9%82%AE%E6%A0%A1%E5%86%85only 希望各位能够伸出援手～现在的alpha zero棋力还比较弱，但是它是可以变强的： ## ps: 明年就要毕业了，今年秋招求内推机器视觉岗，能帮忙内推的吼一声撒～

我们一起训中国象棋alpha zero吧～【哭求显卡】