BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / advertising / #2136405同步于 2025/11/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Advertising机器人发帖

[留学生强化学习作业]非本校的,价格400-800,如果很复杂的话可

num111222
2025/11/3镜像同步15 回复
项目范围 目标:开发一个基于深度强化学习的系统,使其能够在扑克游戏中做出最优决策(如弃牌、下注、加注),目标是通过与基准AI对战,在2026年4月之前实现至少60%的胜率。 方法:该项目将采用结合策略梯度和价值估计的混合强化学习方法,目标是构建一个轻量级系统,能够在标准的大学硬件上运行,并避免像DeepStack和Libratus那样的高计算资源需求。 收益:该系统可以为游戏行业提供有价值的工具(例如,训练工具、动态对手),并为AI从业者提供一个在动态、对手依赖的环境中训练决策系统的模板。 项目目标 具体:开发一个功能完整的轻量级神经网络系统,能够在无限德州扑克游戏中根据游戏状态(玩家卡牌、公共卡牌、底池大小、对手的下注历史)做出战略决策。系统包括三个关键组件:(1)针对德州扑克定制的神经网络架构;(2)在标记数据集上的模型训练;(3)通过模拟验证性能,并最终撰写技术报告。 可衡量:通过以下三个标准来验证成功: 神经网络推理速度达到≥100个游戏状态样本/秒(在Intel i7 CPU和16GB RAM的设备上); 训练准确率达到≥85%(与最优行为的对比); 在100轮PokerRL模拟中与两种基准AI对战,胜率≥60%。 可达成:使用现有资源(如开源工具:PyTorch、PokerRL、公开数据集)是可行的。 相关性:该目标直接与DeepPoker项目的核心目标相关,专注于关键的、不可或缺的组件(架构设计、训练、模拟、报告),不涉及“附加”功能(如多人支持、与真实扑克平台集成)。 时间要求:该项目分为10周完成,包括架构设计、数据预处理、模型训练、模拟、报告编写等阶段。 项目需求 数据:数据集必须包括五个特征(玩家卡牌、公共卡牌、底池大小、对手的下注历史、最优动作标签)。 模型:神经网络架构要求有两个隐藏层,每个层有64-128个神经元,并使用ReLU激活函数,输出层为三个神经元,使用softmax激活函数输出动作概率。 模拟:将在PokerRL环境中进行100轮模拟,并与两个基准AI进行对比,目标是达到60%的胜率。 伦理:仅使用开源数据集,不涉及真人玩家数据或真实赌注数据。 工作包 WP-01:文献回顾与神经网络架构设计 任务:回顾扑克AI和深度学习的相关文献,定义游戏状态特征,设计神经网络架构。 WP-02:模型训练与优化 任务:使用混合损失函数(策略梯度+价值估计)进行模型训练,优化模型并验证训练准确率。 WP-03:模拟、报告与最终提交 任务:在PokerRL环境中模拟训练好的模型,评估结果,并编写最终报告。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
num111222机器人#1 · 2025/11/3
有意向联系:zqmx1314666
wqgosmms机器人#2 · 2025/11/4
这么一大堆要求给400块。。。
xingyiStarry机器人#3 · 2025/11/4
加个0起码吧 【 在 num111222 的大作中提到: 】 : 项目范围 : 目标:开发一个基于深度强化学习的系统,使其能够在扑克游戏中做出最优决策(如弃牌、下注、加注),目标是通过与基准AI对战,在2026年4月之前实现至少60%的胜率。 : ............
num111222机器人#4 · 2025/11/4
1500够吗?
echo3306机器人#5 · 2025/11/4
加个0还差不多,现在中介都这么黑心吗
num111222机器人#6 · 2025/11/4
兄弟们真得4000吗?
iron2022机器人#7 · 2025/11/4
哈哈,这价格只够买一个微信小程序大作业吧,中介是不是吞了8成预算
Bluur机器人#8 · 2025/11/4
现在写个带报告的回归学习算法都得500吧,这点钱一堆要求属实难绷
num111222机器人#9 · 2025/11/4
2000有人写吗?[em2] 【 在 iron2022 的大作中提到: 】 : 哈哈,这价格只够买一个微信小程序大作业吧,中介是不是吞了8成预算