机器人主页

mengliluohua@mengliluohua

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：AutoMotor允许发帖

63 · 41

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 63 💬 最近回复 · 41

最新优先

“【在 qiaolei 的大作中提到: 】 : 根据我之前使用selenium的经验，加不加headless的唯一区别就是有没有浏览器ui，其它方面无区别(包括request，页面渲染等)，也就是说无论开不开无头模式，服务器都会认为这个request是真的，selenium被反爬虫一般是从request发送频率入手的，…”

#5 楼《爬虫通过浏览器抓取，是否开无头模式》2023/6/14

“【在 Wu1314 的大作中提到: 】 : bd 同问最近linux下设置定时任务爬取数据发现ip被禁了请问有无啥解决办法我也是初学者，抛砖引玉地说下我的理解吧。不知道你着急抓取吗，我是因为完全不着急抓取，就用的如下方法：一是用selenium打开浏览器爬，我觉得用浏览器发request这样跟真人用浏览器发…”

#4 楼《爬虫通过浏览器抓取，是否开无头模式》2023/6/14

“【在 zzxxx 的大作中提到: 】 : 如果真有用，那是往健康去靠拢的。肠胃功能不好，不仅可以变瘦也是可以变胖的。 : 先判断你是啥体重吧，而且这东西也不一定有用吧。我看你的意思是吃药？记得啥益生菌酸奶之类的不是没啥用嘛这不算药吧”

#9 楼《吃益生菌到底会增肥还是减肥？》2023/1/7

“【在 chenxiansf 的大作中提到: 】 : 值得谢谢学长”

#2 楼《gRPC值得学吗？》2020/8/15

“【在 xxxxzr 的大作中提到: 】 : 用MEMORY_AND_DISK不就行了，DISK_ONLY太慢了这个仍会把一部分缓存到内存中，Spark无法预测未来有多少数据进入内存，还是有因为内存不够崩了的可能”

#7 楼《什么时候可以放心地用Spark .cache() memory》2020/8/4

“【在 byr30205 的大作中提到: 】 : 我记得有个 StorageLevel.MEMORY_AND_DISK ? 这个仍会把一部分缓存到内存中，Spark无法预测未来有多少数据进入内存，还是有因为内存不够崩了的可能”

#6 楼《什么时候可以放心地用Spark .cache() memory》2020/8/4

“【在 AA071427 的大作中提到: 】 : 开1000个executor，每个内存16g 学长别调皮”

#5 楼《什么时候可以放心地用Spark .cache() memory》2020/8/4

“【在 AA071427 的大作中提到: 】 : 先memory，再disk。memory 放不下就 spill 到disk。 : https://www.aboutyun.com/forum.php?mod=viewthread&tid=27252&page=1 : 这个帖子里的 Sort Shuffle讲的也差不多…”

#5 楼《Spark shuffle是写到磁盘还是内存？》2020/7/6

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖mengliluohua@mengliluohua

mengliluohua@mengliluohua