BYR Achieve · 镜像论坛

一、我们在做的事情我们负责抖音主搜 / 视频搜索核心大模型的设计、训练与线上落地，面向搜索相关性、用户满意度和信息获取效率，打造下一代 LLM/VLM + RL + OPD 搜索语义理解系统。搜索是大模型应用最核心、最天然的场景之一。用户通过 query 明确表达需求，模型需要理解用户意图、理解视频内容，并判断搜索结果是否真正满足用户需求。我们关注的不是个性化推荐或 CTR/CVR 预估，而是大模型在搜索场景中的核心能力：意图理解、语义匹配、相关性判断与结果对齐。二、核心方向 1. Teacher LLM 与 RL 对齐建设面向抖音主搜 / 视频搜索的 Teacher LLM，作为搜索相关性、意图理解和语义判断的高能力上限模型。构建 Reward Model、Preference Model、LLM-as-a-Judge 与 Verifier 体系，通过 CPT、SFT、DPO、GRPO、RLHF、RLVR 等大模型训练与后训练技术，将相关性、意图满足度、用户满意度等搜索目标统一对齐到模型能力中。同时探索 OPD（On-Policy Distillation）等前沿技术，在模型自身分布下持续生成高价值样本和偏好信号，形成从数据挖掘、奖励建模、RL 对齐到能力蒸馏的闭环，打造搜索场景下可持续进化的 Teacher LLM。 2. 线上 Student LLM 效果提升与性能优化迭代已在线上主搜全量生效的 Student LLM，将离线 Teacher LLM、Reward Model 和 Judge Model 中沉淀的语义理解能力、相关性判断能力和偏好建模能力迁移到线上模型中。通过模型蒸馏、GIST 压缩、GIST 对比学习、量化压缩、模型裁剪、early-exit、自适应推理等技术，在保证线上高吞吐、低延迟和稳定性的前提下，持续提升搜索相关性和用户满意度。 3. 线上 Student LLM 升级 VLM 推动已在线上主搜生效的 Student LLM 向 Student VLM 升级，进一步引入视频帧等多模态信息，提升模型对视频内容的真实理解能力。围绕 query-video 相关性建模，建设多模态语义对齐、视觉内容理解、跨模态蒸馏与多模态 GIST 压缩等能力，在可控成本下持续提升视频搜索相关性、内容理解深度和长尾 query 泛化能力。三、职位要求熟悉大模型训练或后训练技术，包括但不限于 CPT、SFT、DPO、RLHF、RLVR、GRPO、Reward Model、OPD 等；能够高效利用大模型 / Codex 等工具提升研发效率；具备优秀的问题分析能力、owner 意识和项目推动能力，靠谱负责，能够推动复杂问题落地。四、加分项有大模型后训练相关的顶会论文或高质量项目经验；熟悉 LLM-as-a-Judge、Reward Model、数据飞轮、模型蒸馏、推理优化等方向；对 DeepSeek-R1、GRPO、RLVR、OPD、Agentic Search 等前沿方向有深入理解或实践经验。五、你将获得参与抖音主搜 / 视频搜索核心大模型系统建设，直接影响十亿级用户的信息获取体验；在大模型应用最核心的搜索场景中，探索 LLM/VLM + RL + OPD 的前沿技术；接触完整的大模型训练流程、奖励建模、在线蒸馏、推理优化和线上 AB 闭环。六、投递方式简历投递：yanbowenybw@163.com 微信投递：15194981057

【日常/暑期实习】【字节跳动抖音主搜】大模型算法实习生