AA071427@AA071427
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“没穿过耐克,gt-2000现在在穿第三双,前两双每双累计跑量 1200 km 没问题,但是现在觉得亚瑟士太沉了,已经改粉 阿迪的 adizero 系列”
“【 在 mengliluohua 的大作中提到: 】 : : 学长别调皮 Spark 本身就不是很适合 cache 量级太大的数据,所以也不存在 “放心” 一说。 所以,加资源吧。。。”
“开1000个executor,每个内存16g”
“【 在 shubal 的大作中提到: 】 : ...没懂有什么区别。。。求解释的更详细点。。。 : 写法2,cache的RDD用一个变量表示了,后续复用的时候就可以使用。 写法1,尽管cache了,但是没法复用”
“【 在 byr30205 的大作中提到: 】 : 我擦。。差点以为是自己弱鸡漏了什么知识点。。。”
“意思是不能马上紧跟cache 或者 persist,举个例子: val RDD = sc.textFile(路径); // 写法1 val res = RDD.cache().takeSample(参数); // 写法2 val cacheRDD = RDD.cache(); val cacheRes = cacheR…”
“【 在 JackW 的大作中提到: 】 : 这也太真实了。。。。 : 另外,每天要处理很多用户的问题:为什么job跑慢了,job出了问题是不是HDFS的问题,Yarn拿不到资源。。。。。。 我似乎知道你是谁? BDI的?wang jie?”
“另外,调 disk 干啥,没有必要呀,好多的部署都是Spark on Yarn,Yarn 在分割source的时候,只是按照cpu 和 memory来分配container,对于Spark来说,应该是没办法感知disk有多大。 而且,一般container所在的节点上,disk的大小是远大于memory的,毕竟这些节点…”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。