BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / job-info / #975087同步于 2025/7/29
JobInfo机器人发帖

【社招】爬虫(已找到)

Sita1207
2025/7/29镜像同步0 回复
排1:友情转发招聘帖子给自己招同事~ 我不是研发不会看简历,所以会把简历直接转到算法同事和hr那边,如果他们未回邮件请勿怪罪~~emc25 前排2:有爬虫资质,不是灰产 一、岗位职责 1.新闻数据抓取与解析 * 负责特定新闻门户的实时抓取系统开发,精准抽取新闻标题、正文、发布时间等关键信息。设计高效排重算法(如 simHash、Bloom Filter)避免数据冗余。 * 基于HTTP/HTTPS协议、Cookie/Session机制及前端技术(HTML/CSS/JavaScript),分析目标网站动态加载逻辑(如AJAX、WebSocket),模拟用户行为破解反爬限制(动态令牌、验证码、IP封禁等)。 * 设计并优化分布式爬虫架构,支持高并发、海量数据抓取,结合Redis实现任务调度、去重及状态管理,提升系统稳定性与抓取效率。 2.数据存储与处理 * 将抓取结果高效存储至Doris、MongoDB等数据库,设计数据分片、索引策略(如Doris分桶、MongoDB复合索引),支持秒级查询与分析。 * 结合Redis实现热点数据缓存、实时监控(如抓取延迟、成功率指标),确保数据完整性与一致性。 3. 反爬机制研究与攻防 * 持续跟踪新闻平台反爬策略(行为验证、前端混淆、请求频率限制等),开发动态应对方案(代理IP池、请求头随机化、验证码自动识别等)。 * 通过抓包工具(Chrome DevTools、Fiddler)分析网络请求,运用逆向工程破解加密参数(如AES/RSA解密)、动态渲染页面(如Puppeteer模拟浏览器渲染)。 4.系统监控与优化 * 搭建数据质量监控体系,实时报警异常情况(字段缺失、数据重复、反爬拦截),优化日志记录与故障恢复机制。 根据业务需求动态调整抓取策略,平衡抓取性能与合规性(如白名单机制、访问频率控制)。 二、任职要求 1.技术能力 * 编程语言:精通Python/Java/Go至少一门语言,具备独立设计与开发爬虫系统的能力。 * 网络与前端:深入理解HTTP/HTTPS协议、TCP/IP网络模型,熟练使用抓包工具分析请求链路;掌握HTML/CSS/JavaScript逆向分析,能解析JS混淆代码、动态生成请求参数。 * 数据存储:熟悉Doris、MongoDB、Redis的架构与优化,掌握SQL与NoSQL的混合应用场景(如Doris实时分析+MongoDB全文存储)。 * 逆向工程:具备前端逆向能力(JS调试、加密参数还原),熟悉动态渲染页面处理(如SpaCy、Splash)。 2.经验与背景 - 行业经验与项目能力 * 年限与规模:3年以上爬虫开发经验,优先考虑2年以上新闻/媒体领域数据抓取经验;具备独立完成日亿级数据规模采集任务的能力,熟悉新闻平台动态渲染(AJAX、WebSocket)与反爬特征(IP封禁、请求指纹检测)的实时对抗。 * 反爬实战:深度参与过反爬攻防实战,至少掌握以下3项技术: 验证码识别(OCR技术、行为轨迹模拟); 动态Token破解(JWT参数逆向、签名算法还原); JS混淆代码解析(AST反混淆、WebAssembly分析); 移动端APP逆向 (Xposed/Frida 框架、APP协议分析)。 - 技术栈与工程能力 * 分布式开发:熟悉主流分布式爬虫框架(Scrapy、Webmagic、PySpider),具备大规模数据分片存储经验(如Doris分桶策略、MongoDB集群部署),能结合Hadoop/Spark实现数据清洗与去重。 * 高并发优化:掌握高并发调度优化能力,如通过Redis实现分布式锁、代理IP池动态切换,或结合Kafka处理实时数据流(吞吐量优化、背压控制)。 * 学历与逻辑:本科及以上学历,计算机、数据科学相关专业;逻辑思维缜密,能独立分析复杂问题(如反爬策略逆向、系统性能瓶颈定位)。 3.软性要求 * 自我驱动性强,对技术难题有攻坚热情,适应快速迭代的工作节奏。 * 具备良好的文档编写习惯(如技术方案、接口文档)和团队协作能力,能清晰传递技术方案。 三、加分项 * 有新闻行业数据清洗、舆情分析、实体识别等项目经验。 * 参与过开源爬虫框架贡献(如Scrapy插件开发)或大型分布式系统设计。
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。