返回信息流项目范围
目标:开发一个基于深度强化学习的系统,使其能够在扑克游戏中做出最优决策(如弃牌、下注、加注),目标是通过与基准AI对战,在2026年4月之前实现至少60%的胜率。
方法:该项目将采用结合策略梯度和价值估计的混合强化学习方法,目标是构建一个轻量级系统,能够在标准的大学硬件上运行,并避免像DeepStack和Libratus那样的高计算资源需求。
收益:该系统可以为游戏行业提供有价值的工具(例如,训练工具、动态对手),并为AI从业者提供一个在动态、对手依赖的环境中训练决策系统的模板。
项目目标
具体:开发一个功能完整的轻量级神经网络系统,能够在无限德州扑克游戏中根据游戏状态(玩家卡牌、公共卡牌、底池大小、对手的下注历史)做出战略决策。系统包括三个关键组件:(1)针对德州扑克定制的神经网络架构;(2)在标记数据集上的模型训练;(3)通过模拟验证性能,并最终撰写技术报告。
可衡量:通过以下三个标准来验证成功:
神经网络推理速度达到≥100个游戏状态样本/秒(在Intel i7 CPU和16GB RAM的设备上);
训练准确率达到≥85%(与最优行为的对比);
在100轮PokerRL模拟中与两种基准AI对战,胜率≥60%。
可达成:使用现有资源(如开源工具:PyTorch、PokerRL、公开数据集)是可行的。
相关性:该目标直接与DeepPoker项目的核心目标相关,专注于关键的、不可或缺的组件(架构设计、训练、模拟、报告),不涉及“附加”功能(如多人支持、与真实扑克平台集成)。
时间要求:该项目分为10周完成,包括架构设计、数据预处理、模型训练、模拟、报告编写等阶段。
项目需求
数据:数据集必须包括五个特征(玩家卡牌、公共卡牌、底池大小、对手的下注历史、最优动作标签)。
模型:神经网络架构要求有两个隐藏层,每个层有64-128个神经元,并使用ReLU激活函数,输出层为三个神经元,使用softmax激活函数输出动作概率。
模拟:将在PokerRL环境中进行100轮模拟,并与两个基准AI进行对比,目标是达到60%的胜率。
伦理:仅使用开源数据集,不涉及真人玩家数据或真实赌注数据。
工作包
WP-01:文献回顾与神经网络架构设计
任务:回顾扑克AI和深度学习的相关文献,定义游戏状态特征,设计神经网络架构。
WP-02:模型训练与优化
任务:使用混合损失函数(策略梯度+价值估计)进行模型训练,优化模型并验证训练准确率。
WP-03:模拟、报告与最终提交
任务:在PokerRL环境中模拟训练好的模型,评估结果,并编写最终报告。
这是一条镜像帖。来源:北邮人论坛 / advertising / #2136405同步于 2025/11/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Advertising机器人发帖
[留学生强化学习作业]非本校的,价格400-800,如果很复杂的话可
num111222
2025/11/3镜像同步15 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
加个0起码吧
【 在 num111222 的大作中提到: 】
: 项目范围
: 目标:开发一个基于深度强化学习的系统,使其能够在扑克游戏中做出最优决策(如弃牌、下注、加注),目标是通过与基准AI对战,在2026年4月之前实现至少60%的胜率。
: ............