BYR Achieve · 镜像论坛

岗位名称：生成式AI数据与搜索算法实习生 (Data & Search Engine Intern) 所属部门：蚂蚁集团 - 生成式AI团队工作地点： [北京/杭州/上海] 研究方向：生成式AI (Video Generation) 我们能为你提供： (1) 资源支持：我们在生成式AI领域（图像/视频生成）有深厚积累。GPU资源充足（有千卡算力）。 (2) 成熟框架：团队已打通大规模Video Generation预训练框架。前期的基础工作已经完成，你可以直接在这套成熟系统上进行数据管线的优化和算法迭代。 (3) 团队氛围轻松融洽： Mentor和Leader人都巨好，组里工作/生活氛围都很好。除了科研，在这里你也能找到很多志同道合的好朋友。我们希望你在这里不仅能收获一段扎实的经历，也能度过一段开心的时光。岗位职责：我们正在寻找对海量数据处理、搜索引擎及爬虫技术有深入理解的同学，参与构建行业领先的生成式AI数据底座。你将负责：大规模多模态数据获取（Crawler & Data Mining）：负责构建高性能分布式爬虫系统，针对公开数据集及多媒体资源进行大规模抓取。解决海量数据采集过程中的反爬、IP代理池管理及异构数据解析问题，保障数据链路的稳定性与高吞吐。数据画像与智能清洗引擎（Data Profiling Engine）：去重与指纹算法：实现基于感知哈希（pHash）、语义向量（Embedding）及图聚类的高效去重算法，剔除冗余数据。质量评估体系：开发算法识别图像/视频的压缩伪影、计算信息熵，并利用VLM（视觉语言模型）进行美学评分、NSFW过滤及AIGC内容检测，确保训练数据的“纯净度”。多模态打标：利用大模型（LLM/VLM）对海量数据进行语义理解，生成包括分类、OCR、细节描述在内的多层次标签（Captioning）。跨模态向量搜索引擎（Cross-modal Vector Engine）：向量索引构建：基于 Faiss/Milvus 等工具，构建亿级多模态数据的向量索引，优化 k-NN 检索性能。数据挖掘与归因：搭建基于向量检索的数据分析平台，支持通过检索 Bad Case（如生成错误的样本）反向定位并清洗训练集中的脏数据。知识图谱构建：参与构建世界知识拓扑图，利用检索增强（RAG）技术平衡数据分布，解决长尾概念缺失问题。我们期待你： (1) 基础素质：计算机、软件工程、人工智能或相关专业在读本科/硕士/博士。有充足的实习时间投入（每周≥4天，实习周期≥3个月）。 (2) 技术要求：扎实的编程能力：精通 Python，熟悉 C++/Java 者加分；拥有良好的数据结构与算法基础。数据/搜索工程经验（核心加分项）：熟悉网络爬虫技术（Scrapy, Selenium, Puppeteer等），有过大规模数据抓取或ETL处理经验。熟悉搜索引擎/向量数据库原理与应用（如 ElasticSearch, Faiss, Milvus, Vector DB），了解倒排索引、HNSW等算法。多模态理解：了解 CLIP、VLM (如LLaVA)、Diffusion Model 等基本原理，能够灵活调用大模型API进行数据处理。简历投递方式：感兴趣的同学可以把简历发送到：godubnation7@gmail.com 或者加我vx 18173400204 邮件主题格式：【数据实习生】姓名-学校-专业-年级-实习时长

[老学长直招] 蚂蚁生成式AI数据与搜索算法实习生