返回信息流排1:友情转发招聘帖子给自己招同事~ 我不是研发不会看简历,所以会把简历直接转到算法同事和hr那边,如果他们未回邮件请勿怪罪~~emc25
前排2:有爬虫资质,不是灰产
一、岗位职责
1.新闻数据抓取与解析
* 负责特定新闻门户的实时抓取系统开发,精准抽取新闻标题、正文、发布时间等关键信息。设计高效排重算法(如 simHash、Bloom Filter)避免数据冗余。
* 基于HTTP/HTTPS协议、Cookie/Session机制及前端技术(HTML/CSS/JavaScript),分析目标网站动态加载逻辑(如AJAX、WebSocket),模拟用户行为破解反爬限制(动态令牌、验证码、IP封禁等)。
* 设计并优化分布式爬虫架构,支持高并发、海量数据抓取,结合Redis实现任务调度、去重及状态管理,提升系统稳定性与抓取效率。
2.数据存储与处理
* 将抓取结果高效存储至Doris、MongoDB等数据库,设计数据分片、索引策略(如Doris分桶、MongoDB复合索引),支持秒级查询与分析。
* 结合Redis实现热点数据缓存、实时监控(如抓取延迟、成功率指标),确保数据完整性与一致性。
3. 反爬机制研究与攻防
* 持续跟踪新闻平台反爬策略(行为验证、前端混淆、请求频率限制等),开发动态应对方案(代理IP池、请求头随机化、验证码自动识别等)。
* 通过抓包工具(Chrome DevTools、Fiddler)分析网络请求,运用逆向工程破解加密参数(如AES/RSA解密)、动态渲染页面(如Puppeteer模拟浏览器渲染)。
4.系统监控与优化
* 搭建数据质量监控体系,实时报警异常情况(字段缺失、数据重复、反爬拦截),优化日志记录与故障恢复机制。
根据业务需求动态调整抓取策略,平衡抓取性能与合规性(如白名单机制、访问频率控制)。
二、任职要求
1.技术能力
* 编程语言:精通Python/Java/Go至少一门语言,具备独立设计与开发爬虫系统的能力。
* 网络与前端:深入理解HTTP/HTTPS协议、TCP/IP网络模型,熟练使用抓包工具分析请求链路;掌握HTML/CSS/JavaScript逆向分析,能解析JS混淆代码、动态生成请求参数。
* 数据存储:熟悉Doris、MongoDB、Redis的架构与优化,掌握SQL与NoSQL的混合应用场景(如Doris实时分析+MongoDB全文存储)。
* 逆向工程:具备前端逆向能力(JS调试、加密参数还原),熟悉动态渲染页面处理(如SpaCy、Splash)。
2.经验与背景
- 行业经验与项目能力
* 年限与规模:3年以上爬虫开发经验,优先考虑2年以上新闻/媒体领域数据抓取经验;具备独立完成日亿级数据规模采集任务的能力,熟悉新闻平台动态渲染(AJAX、WebSocket)与反爬特征(IP封禁、请求指纹检测)的实时对抗。
* 反爬实战:深度参与过反爬攻防实战,至少掌握以下3项技术:
验证码识别(OCR技术、行为轨迹模拟);
动态Token破解(JWT参数逆向、签名算法还原);
JS混淆代码解析(AST反混淆、WebAssembly分析);
移动端APP逆向 (Xposed/Frida 框架、APP协议分析)。
- 技术栈与工程能力
* 分布式开发:熟悉主流分布式爬虫框架(Scrapy、Webmagic、PySpider),具备大规模数据分片存储经验(如Doris分桶策略、MongoDB集群部署),能结合Hadoop/Spark实现数据清洗与去重。
* 高并发优化:掌握高并发调度优化能力,如通过Redis实现分布式锁、代理IP池动态切换,或结合Kafka处理实时数据流(吞吐量优化、背压控制)。
* 学历与逻辑:本科及以上学历,计算机、数据科学相关专业;逻辑思维缜密,能独立分析复杂问题(如反爬策略逆向、系统性能瓶颈定位)。
3.软性要求
* 自我驱动性强,对技术难题有攻坚热情,适应快速迭代的工作节奏。
* 具备良好的文档编写习惯(如技术方案、接口文档)和团队协作能力,能清晰传递技术方案。
三、加分项
* 有新闻行业数据清洗、舆情分析、实体识别等项目经验。
* 参与过开源爬虫框架贡献(如Scrapy插件开发)或大型分布式系统设计。
这是一条镜像帖。来源:北邮人论坛 / job-info / #975087同步于 2025/7/29
JobInfo机器人发帖
【社招】爬虫(已找到)
Sita1207
2025/7/29镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。