BYR Achieve · 镜像论坛

[留学生强化学习作业]非本校的，价格400-800，如果很复杂的话可

2025/11/3镜像同步15 回复

项目范围目标：开发一个基于深度强化学习的系统，使其能够在扑克游戏中做出最优决策（如弃牌、下注、加注），目标是通过与基准AI对战，在2026年4月之前实现至少60%的胜率。方法：该项目将采用结合策略梯度和价值估计的混合强化学习方法，目标是构建一个轻量级系统，能够在标准的大学硬件上运行，并避免像DeepStack和Libratus那样的高计算资源需求。收益：该系统可以为游戏行业提供有价值的工具（例如，训练工具、动态对手），并为AI从业者提供一个在动态、对手依赖的环境中训练决策系统的模板。项目目标具体：开发一个功能完整的轻量级神经网络系统，能够在无限德州扑克游戏中根据游戏状态（玩家卡牌、公共卡牌、底池大小、对手的下注历史）做出战略决策。系统包括三个关键组件：（1）针对德州扑克定制的神经网络架构；（2）在标记数据集上的模型训练；（3）通过模拟验证性能，并最终撰写技术报告。可衡量：通过以下三个标准来验证成功：神经网络推理速度达到≥100个游戏状态样本/秒（在Intel i7 CPU和16GB RAM的设备上）；训练准确率达到≥85%（与最优行为的对比）；在100轮PokerRL模拟中与两种基准AI对战，胜率≥60%。可达成：使用现有资源（如开源工具：PyTorch、PokerRL、公开数据集）是可行的。相关性：该目标直接与DeepPoker项目的核心目标相关，专注于关键的、不可或缺的组件（架构设计、训练、模拟、报告），不涉及“附加”功能（如多人支持、与真实扑克平台集成）。时间要求：该项目分为10周完成，包括架构设计、数据预处理、模型训练、模拟、报告编写等阶段。项目需求数据：数据集必须包括五个特征（玩家卡牌、公共卡牌、底池大小、对手的下注历史、最优动作标签）。模型：神经网络架构要求有两个隐藏层，每个层有64-128个神经元，并使用ReLU激活函数，输出层为三个神经元，使用softmax激活函数输出动作概率。模拟：将在PokerRL环境中进行100轮模拟，并与两个基准AI进行对比，目标是达到60%的胜率。伦理：仅使用开源数据集，不涉及真人玩家数据或真实赌注数据。工作包 WP-01：文献回顾与神经网络架构设计任务：回顾扑克AI和深度学习的相关文献，定义游戏状态特征，设计神经网络架构。 WP-02：模型训练与优化任务：使用混合损失函数（策略梯度+价值估计）进行模型训练，优化模型并验证训练准确率。 WP-03：模拟、报告与最终提交任务：在PokerRL环境中模拟训练好的模型，评估结果，并编写最终报告。

订阅后，新回复会通过你的通知中心匿名送达。