BYR Achieve · 镜像论坛

排1：友情转发招聘帖子给自己招同事~ 我不是研发不会看简历，所以会把简历直接转到算法同事和hr那边，如果他们未回邮件请勿怪罪~~emc25 前排2：有爬虫资质，不是灰产一、岗位职责 1.新闻数据抓取与解析 * 负责特定新闻门户的实时抓取系统开发，精准抽取新闻标题、正文、发布时间等关键信息。设计高效排重算法（如 simHash、Bloom Filter）避免数据冗余。 * 基于HTTP/HTTPS协议、Cookie/Session机制及前端技术(HTML/CSS/JavaScript)，分析目标网站动态加载逻辑（如AJAX、WebSocket），模拟用户行为破解反爬限制（动态令牌、验证码、IP封禁等）。 * 设计并优化分布式爬虫架构，支持高并发、海量数据抓取，结合Redis实现任务调度、去重及状态管理，提升系统稳定性与抓取效率。 2.数据存储与处理 * 将抓取结果高效存储至Doris、MongoDB等数据库，设计数据分片、索引策略（如Doris分桶、MongoDB复合索引），支持秒级查询与分析。 * 结合Redis实现热点数据缓存、实时监控（如抓取延迟、成功率指标），确保数据完整性与一致性。 3. 反爬机制研究与攻防 * 持续跟踪新闻平台反爬策略（行为验证、前端混淆、请求频率限制等），开发动态应对方案（代理IP池、请求头随机化、验证码自动识别等）。 * 通过抓包工具(Chrome DevTools、Fiddler)分析网络请求，运用逆向工程破解加密参数（如AES/RSA解密）、动态渲染页面（如Puppeteer模拟浏览器渲染）。 4.系统监控与优化 * 搭建数据质量监控体系，实时报警异常情况（字段缺失、数据重复、反爬拦截），优化日志记录与故障恢复机制。根据业务需求动态调整抓取策略，平衡抓取性能与合规性（如白名单机制、访问频率控制）。二、任职要求 1.技术能力 * 编程语言：精通Python/Java/Go至少一门语言，具备独立设计与开发爬虫系统的能力。 * 网络与前端：深入理解HTTP/HTTPS协议、TCP/IP网络模型，熟练使用抓包工具分析请求链路；掌握HTML/CSS/JavaScript逆向分析，能解析JS混淆代码、动态生成请求参数。 * 数据存储：熟悉Doris、MongoDB、Redis的架构与优化，掌握SQL与NoSQL的混合应用场景（如Doris实时分析+MongoDB全文存储）。 * 逆向工程：具备前端逆向能力(JS调试、加密参数还原)，熟悉动态渲染页面处理（如SpaCy、Splash）。 2.经验与背景 - 行业经验与项目能力 * 年限与规模：3年以上爬虫开发经验，优先考虑2年以上新闻/媒体领域数据抓取经验；具备独立完成日亿级数据规模采集任务的能力，熟悉新闻平台动态渲染(AJAX、WebSocket)与反爬特征(IP封禁、请求指纹检测)的实时对抗。 * 反爬实战：深度参与过反爬攻防实战，至少掌握以下3项技术：验证码识别(OCR技术、行为轨迹模拟)；动态Token破解(JWT参数逆向、签名算法还原)； JS混淆代码解析(AST反混淆、WebAssembly分析)；移动端APP逆向 (Xposed/Frida 框架、APP协议分析)。 - 技术栈与工程能力 * 分布式开发：熟悉主流分布式爬虫框架(Scrapy、Webmagic、PySpider)，具备大规模数据分片存储经验（如Doris分桶策略、MongoDB集群部署），能结合Hadoop/Spark实现数据清洗与去重。 * 高并发优化：掌握高并发调度优化能力，如通过Redis实现分布式锁、代理IP池动态切换，或结合Kafka处理实时数据流（吞吐量优化、背压控制）。 * 学历与逻辑：本科及以上学历，计算机、数据科学相关专业；逻辑思维缜密，能独立分析复杂问题（如反爬策略逆向、系统性能瓶颈定位）。 3.软性要求 * 自我驱动性强，对技术难题有攻坚热情，适应快速迭代的工作节奏。 * 具备良好的文档编写习惯（如技术方案、接口文档）和团队协作能力，能清晰传递技术方案。三、加分项 * 有新闻行业数据清洗、舆情分析、实体识别等项目经验。 * 参与过开源爬虫框架贡献（如Scrapy插件开发）或大型分布式系统设计。

【社招】爬虫（已找到）