BYR Achieve · 镜像论坛

【实习】【字节】多模态感知算法实习生 - Pico MR 工作职责 1. 负责研究和开发 MR 场景中基于多模态的 3D 端侧感知算法（3D Detection, 3D Segmentation 等），研发 Stereo / Fusion / MVS 等深度估计相关算法研发及数据仿真重建管线建设，推进前沿技术在 MR 场景落地； 2. 负责基于多模态的云端检测、分割、深度估计等模型在数据生产，模型蒸馏，端云结合上的应用；研发高效的 MLOPs 算法生产工具链；完善算法生产的基础设施建设。 3. 预研 MR 场景多模态模型的数据建设、模型优化、MR 多模态统一建模、指令微调、强化学习、训练/推理加速等技术。 4. 探索基于视觉、语音、文本、点云等模态融合算法，在 MR 场景中的技术应用、竞赛、论文、专利撰写等。期望要求（满足一条或多条均可） 1. 计算机、电子信息、自动化、软件工程等相关专业本科及以上学历。 2. 了解传统或深度学习的 CV 任务例如 2D/3D Detection/Segmentation、深度估计/补全、Stereo、MVS、NeRF 等一种或多种算法； 3. 了解 CNN、RNN、Transformer、RL、Vision-Language 预训练、Finetune（SFT、RLHF 等）相关技术或有实践经验； 4. 了解文本、图像、视频、3D 等 AIGC 相关技术； 5. 熟悉任一深度学习开源框架，例如 Tensorflow、PyTorch 等。 6. Python 或 C++ 编程基础扎实优先要求（非必要） 1. 计算机视觉、图像处理、计算机图形学、机器视觉、数学以及摄影测量领域硕士及博士优先； 2. 具有 AR/VR、无人车、机器人等方面实际项目经验优先； 3. 具有 CUDA、NEON、OpenGL、DSP 等任一领域项目经验优先； 4. 在计算机视觉、机器人、图形学等相关领域发表论文或竞赛取得名次者优先。团队介绍 PICO MR 组是专门负责 MR 场景算法的团队。包含在 MR 场景中的深度估计（Mono/Stereo/MVS）、环境与物体感知（2D/3D Detection、Segmentation）、云端物体分割识别、三维静态物体与场景重建、大场景建图（SfM、Fusion、NeRF）、视觉定位（Visual Localization）、图像检索（Image Retrieval）、光照估计等技术研发、探索与落地。团队技术实力雄厚，在 CVPR、ECCV、ICCV 等顶会发表论文多篇，以及 ICCV 2023 OpenSUN3D 场景理解挑战赛冠军等竞赛奖项。欢迎各位大牛投递，如有意向请发简历邮件到 liuxiao.ai@bytedance.com。

【实习】【字节】多模态感知算法实习生 - PICO MR