BYR Achieve · 镜像论坛

实习岗位名称: 大模型代码评测工程师所需人数: 不限招募公司: 北京热热科技有限公司所属部门组: 无联系方式: 联系人：安磊联系方式：18612482596（同微信）联系邮箱：yuanbao@reredata.com 答复时间(如每日8点答复email等): 工作地点: 北京市石景山区新融中街1号院首特钢大厦3号楼8层交通情况(北邮为出发点,包括公交,地铁,达到时间): 任职资格 -- 基本条件: o 学历背景：全日制 985/211 或 QS 前 100 高校，计算机科学（CS）、软件工程或高度相关理工科专业。 o 工程底蕴：深厚的操作系统与计算机网络基础。不接受非科班转码，除非有极强的顶级开源项目贡献记录（Contributor/Maintainer）。 o 英语实战：能够流利阅读英文技术文档（Docker/Kernel/Lib Docs），并能输出逻辑严谨、用词精准的英文技术指令（Instruction）。 o 精通至少一门主流编程语言（Python/Java/C++/Go/JS），能独立完成中高难度的算法题或业务逻辑。 o Shell/Bash 专家级（必备）：能熟练编写复杂的脚本用于自动化环境编排。 o 容器化技术：能手写高性能 Dockerfile，深刻理解文件系统权限、进程隔离与交互式 CLI 逻辑。 o 测试思维：具备强烈的“结果导向”验证思维，能预见并处理 Agent 可能产生的各类边界情况（Corner Cases）。任职资格 -- 优先条件: o 竞赛选手：ACM/ICPC、CCPC 或知名 CTF 获奖经历。 o DevOps 经验：熟悉 Jenkins/GitLab CI 流程，对自动化流水线有天然的直觉。 o AI 深度用户：实际使用过 ClaudeCode, GitHub Copilot Workspace 或相关 Agent 框架，理解 LLM 在工程实践中的“坑点”。 o 社区贡献：熟悉 SWE-bench 数据集格式，或对开源社区有长期贡献。工资情况: 500-1000/天实习时间(包括实习期的长度,每日实习的时间): 实习期6个月以上，每周工作5天，早上10点-晚7点福利情况(包括是否包吃住等): 工作职责: 构建一套工业级、高难度、全自动化的代码评测数据集（类似 SWE-bench 或 HumanEval 的进阶版）。这套数据集将被用于评估 Claude 3.5 / GPT-4o 等顶尖 AI 模型的编程能力。需要设计出既符合真实开发场景，又能精准区分 AI 能力强弱的“考题”。 o 工程任务定义：深度剖析 GitHub 顶级开源项目的 Issue，提取具有挑战性的 Bug 修复或功能开发需求。 o 标准化 Instruction 编写：编写全英文 Instruction.md，以极其严密的逻辑描述任务需求，确保 AI Agent 能在无歧义的情况下进行工程决策。 o 沙箱环境构建：基于 Docker 从零构建可复现的任务执行环境，处理复杂的底层依赖、环境变量及系统调用。 o 自动化验证系统设计：设计“黑盒化”的测试脚本（solve.sh / test.sh），利用 Pytest/JUnit 等框架编写鲁棒的验证逻辑，通过 Exit Code 给出终极判分。职业资料(这里介绍职业的相关资料,如前景等): 补充:

【实习】【北京热热科技有限公司】招募大模型代码评测工程师