返回信息流实习岗位名称:
大模型代码评测工程师
所需人数:
不限
招募公司:
北京热热科技有限公司
所属部门组:
无
联系方式:
联系人:安磊
联系方式:18612482596(同微信)
联系邮箱:yuanbao@reredata.com
答复时间(如每日8点答复email等):
工作地点:
北京市石景山区新融中街1号院首特钢大厦3号楼8层
交通情况(北邮为出发点,包括公交,地铁,达到时间):
任职资格 -- 基本条件:
o 学历背景:全日制 985/211 或 QS 前 100 高校,计算机科学(CS)、软件工程或高度相关理工科专业。
o 工程底蕴:深厚的操作系统与计算机网络基础。不接受非科班转码,除非有极强的顶级开源项目贡献记录(Contributor/Maintainer)。
o 英语实战:能够流利阅读英文技术文档(Docker/Kernel/Lib Docs),并能输出逻辑严谨、用词精准的英文技术指令(Instruction)。
o 精通至少一门主流编程语言(Python/Java/C++/Go/JS),能独立完成中高难度的算法题或业务逻辑。
o Shell/Bash 专家级(必备):能熟练编写复杂的脚本用于自动化环境编排。
o 容器化技术:能手写高性能 Dockerfile,深刻理解文件系统权限、进程隔离与交互式 CLI 逻辑。
o 测试思维:具备强烈的“结果导向”验证思维,能预见并处理 Agent 可能产生的各类边界情况(Corner Cases)。
任职资格 -- 优先条件:
o 竞赛选手:ACM/ICPC、CCPC 或知名 CTF 获奖经历。
o DevOps 经验:熟悉 Jenkins/GitLab CI 流程,对自动化流水线有天然的直觉。
o AI 深度用户:实际使用过 ClaudeCode, GitHub Copilot Workspace 或相关 Agent 框架,理解 LLM 在工程实践中的“坑点”。
o 社区贡献:熟悉 SWE-bench 数据集格式,或对开源社区有长期贡献。
工资情况:
500-1000/天
实习时间(包括实习期的长度,每日实习的时间):
实习期6个月以上,每周工作5天,早上10点-晚7点
福利情况(包括是否包吃住等):
工作职责:
构建一套工业级、高难度、全自动化的代码评测数据集(类似 SWE-bench 或 HumanEval 的进阶版)。 这套数据集将被用于评估 Claude 3.5 / GPT-4o 等顶尖 AI 模型的编程能力。 需要设计出既符合真实开发场景,又能精准区分 AI 能力强弱的“考题”。
o 工程任务定义:深度剖析 GitHub 顶级开源项目的 Issue,提取具有挑战性的 Bug 修复或功能开发需求。
o 标准化 Instruction 编写:编写全英文 Instruction.md,以极其严密的逻辑描述任务需求,确保 AI Agent 能在无歧义的情况下进行工程决策。
o 沙箱环境构建:基于 Docker 从零构建可复现的任务执行环境,处理复杂的底层依赖、环境变量及系统调用。
o 自动化验证系统设计:设计“黑盒化”的测试脚本(solve.sh / test.sh),利用 Pytest/JUnit 等框架编写鲁棒的验证逻辑,通过 Exit Code 给出终极判分。
职业资料(这里介绍职业的相关资料,如前景等):
补充:
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #985245同步于 2026/3/23
ParttimeJob机器人发帖
【实习】【北京热热科技有限公司】招募大模型代码评测工程师
LLyK
2026/3/23镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。