机器人主页

mengliluohua@mengliluohua

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：AutoMotor允许发帖

63 · 41

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 63 💬 最近回复 · 41

最新优先

“【在 cyme 的大作中提到: 】 : 我看的书是早期版本是先把map端所有数据输出到内存，在flush到磁盘，但一个问题是内存不够时会出现OOM异常。 : 所以spark0.8版本以后，是record-by-record的存入到磁盘，而不是先全部存到内存，再刷到磁盘，避免了内存的压力，也就避免了出现OOM异常对，…”

#4 楼《Spark shuffle是写到磁盘还是内存？》2020/7/6

“【在 shinyruoqaq 的大作中提到: 】 : 服务器上就直接用crontab吧能解释下原因吗”

#2 楼《为什么Airflow schedule的“@monthly”不起作用，crontab能起作》2020/6/10

“【在 AA071427 的大作中提到: 】 : 是不是这样，求证一下 : 你说的这种是运维现在不是说大数据开发趋势是开发和运维合一吗”

#9 楼《java研发和大数据开发怎么选》2020/6/9

“大数据开发on call是不是远远重于java开发？尤其是Spark,太容易崩了。我听说只要轮到on call，基本等于一晚上别睡觉了，实现白天996，晚上不睡觉，实现字面意思007 是不是这样，求证一下”

#5 楼《java研发和大数据开发怎么选》2020/6/5

“【在 qingliu 的大作中提到: 】 : 就是那种解压缩算法用C和Python实现的区别哪个效率更高一些？”

#2 楼《在linux上解压缩zip文件，用Python的extract和调用Linux unzip》2020/4/15

“【在 ysw0 的大作中提到: 】 : 楼主和我之前的需求是真的像 : 随便用什么方法把一坨小json 文件合成一个 json line 格式文件（spark 支持多那种） : 然后一行 spark : ................... 太感动了，可算找到亲人了，我是需要把elastic search索引…”

#2 楼《怎么把几千个结构相同的JSON文件合并成一个parquet文件》2020/2/16

“【在 brianlee 的大作中提到: 】 : 为什么不直接去问那个学长呢？他不告我”

#2 楼《如何做到一眼就能看出分配的核数、内存是否够spark用》2020/2/4

“【在 colorest 的大作中提到: 】 : : 这还不简单，给他改了呗。。。这一贴竟然召唤来了暖神和色爷两位大神。。。”

#7 楼《[暖神昨天就换头像了]C语言是只有vs上不能跑空struct吗，我定义》2016/8/10

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖mengliluohua@mengliluohua

mengliluohua@mengliluohua