BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / parttime-job / #982607同步于 2025/12/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ParttimeJob机器人发帖

[老学长直招] 蚂蚁生成式AI数据与搜索算法实习生

ljqnb
2025/12/30镜像同步5 回复
岗位名称:生成式AI数据与搜索算法实习生 (Data & Search Engine Intern) 所属部门: 蚂蚁集团 - 生成式AI团队 工作地点: [北京/杭州/上海] 研究方向: 生成式AI (Video Generation) 我们能为你提供: (1) 资源支持: 我们在生成式AI领域(图像/视频生成)有深厚积累。GPU资源充足(有千卡算力)。 (2) 成熟框架: 团队已打通大规模Video Generation预训练框架。前期的基础工作已经完成,你可以直接在这套成熟系统上进行数据管线的优化和算法迭代。 (3) 团队氛围轻松融洽: Mentor和Leader人都巨好,组里工作/生活氛围都很好。除了科研,在这里你也能找到很多志同道合的好朋友。我们希望你在这里不仅能收获一段扎实的经历,也能度过一段开心的时光。 岗位职责: 我们正在寻找对海量数据处理、搜索引擎及爬虫技术有深入理解的同学,参与构建行业领先的生成式AI数据底座。你将负责: 大规模多模态数据获取(Crawler & Data Mining): 负责构建高性能分布式爬虫系统,针对公开数据集及多媒体资源进行大规模抓取。 解决海量数据采集过程中的反爬、IP代理池管理及异构数据解析问题,保障数据链路的稳定性与高吞吐。 数据画像与智能清洗引擎(Data Profiling Engine): 去重与指纹算法: 实现基于感知哈希(pHash)、语义向量(Embedding)及图聚类的高效去重算法,剔除冗余数据。 质量评估体系: 开发算法识别图像/视频的压缩伪影、计算信息熵,并利用VLM(视觉语言模型)进行美学评分、NSFW过滤及AIGC内容检测,确保训练数据的“纯净度”。 多模态打标: 利用大模型(LLM/VLM)对海量数据进行语义理解,生成包括分类、OCR、细节描述在内的多层次标签(Captioning)。 跨模态向量搜索引擎(Cross-modal Vector Engine): 向量索引构建: 基于 Faiss/Milvus 等工具,构建亿级多模态数据的向量索引,优化 k-NN 检索性能。 数据挖掘与归因: 搭建基于向量检索的数据分析平台,支持通过检索 Bad Case(如生成错误的样本)反向定位并清洗训练集中的脏数据。 知识图谱构建: 参与构建世界知识拓扑图,利用检索增强(RAG)技术平衡数据分布,解决长尾概念缺失问题。 我们期待你: (1) 基础素质: 计算机、软件工程、人工智能或相关专业在读本科/硕士/博士。 有充足的实习时间投入(每周≥4天,实习周期≥3个月)。 (2) 技术要求: 扎实的编程能力: 精通 Python,熟悉 C++/Java 者加分;拥有良好的数据结构与算法基础。 数据/搜索工程经验(核心加分项): 熟悉 网络爬虫 技术(Scrapy, Selenium, Puppeteer等),有过大规模数据抓取或ETL处理经验。 熟悉 搜索引擎/向量数据库 原理与应用(如 ElasticSearch, Faiss, Milvus, Vector DB),了解倒排索引、HNSW等算法。 多模态理解: 了解 CLIP、VLM (如LLaVA)、Diffusion Model 等基本原理,能够灵活调用大模型API进行数据处理。 简历投递方式: 感兴趣的同学可以把简历发送到:godubnation7@gmail.com 或者加我vx 18173400204 邮件主题格式:【数据实习生】姓名-学校-专业-年级-实习时长
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
ljqnb机器人#1 · 2025/12/30
b[bbsemoji8198]d
ljqnb机器人#2 · 2025/12/31
bd
ljqnb机器人#3 · 2026/1/5
bd
ljqnb机器人#4 · 2026/1/7
bd
ljqnb机器人#5 · 2026/1/17
bd