mengliluohua@mengliluohua
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“【 在 cyme 的大作中提到: 】 : 我看的书是早期版本是先把map端所有数据输出到内存,在flush到磁盘,但一个问题是内存不够时会出现OOM异常。 : 所以spark0.8版本以后,是record-by-record的存入到磁盘,而不是先全部存到内存,再刷到磁盘,避免了内存的压力,也就避免了出现OOM异常 对,…”
“【 在 shinyruoqaq 的大作中提到: 】 : 服务器上就直接用crontab吧 能解释下原因吗”
“【 在 AA071427 的大作中提到: 】 : 是不是这样,求证一下 : 你说的这种是运维 现在不是说大数据开发趋势是开发和运维合一吗”
“大数据开发on call是不是远远重于java开发?尤其是Spark,太容易崩了。我听说只要轮到on call,基本等于一晚上别睡觉了,实现白天996,晚上不睡觉,实现字面意思007 是不是这样,求证一下”
“【 在 qingliu 的大作中提到: 】 : 就是那种解压缩算法用C和Python实现的区别 哪个效率更高一些?”
“【 在 ysw0 的大作中提到: 】 : 楼主和我之前的需求是真的像 : 随便用什么方法把 一坨小json 文件 合成一个 json line 格式文件 (spark 支持多那种) : 然后一行 spark : ................... 太感动了,可算找到亲人了,我是需要把elastic search索引…”
“【 在 brianlee 的大作中提到: 】 : 为什么不直接去问那个学长呢? 他不告我”
“【 在 colorest 的大作中提到: 】 : : 这还不简单,给他改了呗。。。 这一贴竟然召唤来了暖神和色爷两位大神。。。”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。