返回信息流岗位名称:生成式AI数据与搜索算法实习生 (Data & Search Engine Intern)
所属部门: 蚂蚁集团 - 生成式AI团队
工作地点: [北京/杭州/上海]
研究方向: 生成式AI (Video Generation)
我们能为你提供:
(1) 资源支持: 我们在生成式AI领域(图像/视频生成)有深厚积累。GPU资源充足(有千卡算力)。
(2) 成熟框架: 团队已打通大规模Video Generation预训练框架。前期的基础工作已经完成,你可以直接在这套成熟系统上进行数据管线的优化和算法迭代。
(3) 团队氛围轻松融洽: Mentor和Leader人都巨好,组里工作/生活氛围都很好。除了科研,在这里你也能找到很多志同道合的好朋友。我们希望你在这里不仅能收获一段扎实的经历,也能度过一段开心的时光。
岗位职责:
我们正在寻找对海量数据处理、搜索引擎及爬虫技术有深入理解的同学,参与构建行业领先的生成式AI数据底座。你将负责:
大规模多模态数据获取(Crawler & Data Mining):
负责构建高性能分布式爬虫系统,针对公开数据集及多媒体资源进行大规模抓取。
解决海量数据采集过程中的反爬、IP代理池管理及异构数据解析问题,保障数据链路的稳定性与高吞吐。
数据画像与智能清洗引擎(Data Profiling Engine):
去重与指纹算法: 实现基于感知哈希(pHash)、语义向量(Embedding)及图聚类的高效去重算法,剔除冗余数据。
质量评估体系: 开发算法识别图像/视频的压缩伪影、计算信息熵,并利用VLM(视觉语言模型)进行美学评分、NSFW过滤及AIGC内容检测,确保训练数据的“纯净度”。
多模态打标: 利用大模型(LLM/VLM)对海量数据进行语义理解,生成包括分类、OCR、细节描述在内的多层次标签(Captioning)。
跨模态向量搜索引擎(Cross-modal Vector Engine):
向量索引构建: 基于 Faiss/Milvus 等工具,构建亿级多模态数据的向量索引,优化 k-NN 检索性能。
数据挖掘与归因: 搭建基于向量检索的数据分析平台,支持通过检索 Bad Case(如生成错误的样本)反向定位并清洗训练集中的脏数据。
知识图谱构建: 参与构建世界知识拓扑图,利用检索增强(RAG)技术平衡数据分布,解决长尾概念缺失问题。
我们期待你:
(1) 基础素质:
计算机、软件工程、人工智能或相关专业在读本科/硕士/博士。
有充足的实习时间投入(每周≥4天,实习周期≥3个月)。
(2) 技术要求:
扎实的编程能力: 精通 Python,熟悉 C++/Java 者加分;拥有良好的数据结构与算法基础。
数据/搜索工程经验(核心加分项):
熟悉 网络爬虫 技术(Scrapy, Selenium, Puppeteer等),有过大规模数据抓取或ETL处理经验。
熟悉 搜索引擎/向量数据库 原理与应用(如 ElasticSearch, Faiss, Milvus, Vector DB),了解倒排索引、HNSW等算法。
多模态理解: 了解 CLIP、VLM (如LLaVA)、Diffusion Model 等基本原理,能够灵活调用大模型API进行数据处理。
简历投递方式:
感兴趣的同学可以把简历发送到:godubnation7@gmail.com 或者加我vx 18173400204
邮件主题格式:【数据实习生】姓名-学校-专业-年级-实习时长
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #982607同步于 2025/12/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖
[老学长直招] 蚂蚁生成式AI数据与搜索算法实习生
ljqnb
2025/12/30镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。