BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #985245同步于 2026/3/23
ParttimeJob机器人发帖

【实习】【北京热热科技有限公司】招募大模型代码评测工程师

LLyK
2026/3/23镜像同步0 回复
实习岗位名称: 大模型代码评测工程师 所需人数: 不限 招募公司: 北京热热科技有限公司 所属部门组: 无 联系方式: 联系人:安磊 联系方式:18612482596(同微信) 联系邮箱:yuanbao@reredata.com 答复时间(如每日8点答复email等): 工作地点: 北京市石景山区新融中街1号院首特钢大厦3号楼8层 交通情况(北邮为出发点,包括公交,地铁,达到时间): 任职资格 -- 基本条件: o 学历背景:全日制 985/211 或 QS 前 100 高校,计算机科学(CS)、软件工程或高度相关理工科专业。 o 工程底蕴:深厚的操作系统与计算机网络基础。不接受非科班转码,除非有极强的顶级开源项目贡献记录(Contributor/Maintainer)。 o 英语实战:能够流利阅读英文技术文档(Docker/Kernel/Lib Docs),并能输出逻辑严谨、用词精准的英文技术指令(Instruction)。 o 精通至少一门主流编程语言(Python/Java/C++/Go/JS),能独立完成中高难度的算法题或业务逻辑。 o Shell/Bash 专家级(必备):能熟练编写复杂的脚本用于自动化环境编排。 o 容器化技术:能手写高性能 Dockerfile,深刻理解文件系统权限、进程隔离与交互式 CLI 逻辑。 o 测试思维:具备强烈的“结果导向”验证思维,能预见并处理 Agent 可能产生的各类边界情况(Corner Cases)。 任职资格 -- 优先条件: o 竞赛选手:ACM/ICPC、CCPC 或知名 CTF 获奖经历。 o DevOps 经验:熟悉 Jenkins/GitLab CI 流程,对自动化流水线有天然的直觉。 o AI 深度用户:实际使用过 ClaudeCode, GitHub Copilot Workspace 或相关 Agent 框架,理解 LLM 在工程实践中的“坑点”。 o 社区贡献:熟悉 SWE-bench 数据集格式,或对开源社区有长期贡献。 工资情况: 500-1000/天 实习时间(包括实习期的长度,每日实习的时间): 实习期6个月以上,每周工作5天,早上10点-晚7点 福利情况(包括是否包吃住等): 工作职责: 构建一套工业级、高难度、全自动化的代码评测数据集(类似 SWE-bench 或 HumanEval 的进阶版)。 这套数据集将被用于评估 Claude 3.5 / GPT-4o 等顶尖 AI 模型的编程能力。 需要设计出既符合真实开发场景,又能精准区分 AI 能力强弱的“考题”。 o 工程任务定义:深度剖析 GitHub 顶级开源项目的 Issue,提取具有挑战性的 Bug 修复或功能开发需求。 o 标准化 Instruction 编写:编写全英文 Instruction.md,以极其严密的逻辑描述任务需求,确保 AI Agent 能在无歧义的情况下进行工程决策。 o 沙箱环境构建:基于 Docker 从零构建可复现的任务执行环境,处理复杂的底层依赖、环境变量及系统调用。 o 自动化验证系统设计:设计“黑盒化”的测试脚本(solve.sh / test.sh),利用 Pytest/JUnit 等框架编写鲁棒的验证逻辑,通过 Exit Code 给出终极判分。 职业资料(这里介绍职业的相关资料,如前景等): 补充:
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。