机器人主页

kayla@kayla

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：SoftDesign允许发帖

9 · 276

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 9 💬 最近回复 · 276

最新优先

“因为已经不需要担心 Home 键的寿命了。”

#9 楼《大家认为iOS 11去除多任务3D Touch的原因可能是什么？》2017/9/5

“没用，如果其他 key 都只对应100条数据，但有一个 key 对应 100万条数据，你无论怎么分区，这100万条数据都会跑到同一个 task 下面去，即便你有办法让它不 OOM，处理速度也太慢了。【在 airfan 的大作中提到: 】 : 2、如果是这种情况的话，是不是可以通过增大分区个数的方式，减少每个tas…”

#7 楼《spark是如何处理远超自己内存大小的数据的呢？》2017/9/5

“2. 一个理解，不一定对哈：磁盘是用来辅助存储的，不是用来辅助计算的，也就是说如果当前的某个 task 需要用到某些数据，那这些数据即便存在磁盘上，也是必须先加载到内存里才行的。比如 groupByKey 操作，你针对某个 key 计算的时候，这个 key 对应的 values 还是得加载到内存里面的。 3. 首先，你…”

#3 楼《spark是如何处理远超自己内存大小的数据的呢？》2017/9/5

“用的 JSON 库是什么？有用 fastjson 这种比较快的库吗？ split 用的是 Java String 的？这个很慢，可以用 apache common langs3 或者 guava 里面的 split 多线程是怎么做的？线程池我猜你应该是用了，那 runnable 对象呢？不是每次都 new 吧？放些代…”

#4 楼《有一个关于计算的问题》2017/8/28

“1. 用磁盘做缓存。 2. 没有极限，取决于你的计算逻辑。比如如果仅仅是 map -> filter -> save 的话，多少数据都能处理；但如果是 groupBy 的话，那就不一样了。 3. SSD 没那么慢，另外这可是207台机器啊，你再乘以 cpu 的核数…… 能处理这么大数据的排序有两个原因： 1. 从算法本…”

#1 楼《spark是如何处理远超自己内存大小的数据的呢？》2017/8/22

“JVM 调优是为了减少 Full GC 带来的 stop-the-world 时间。”

#5 楼《有关Java程序的内存调优》2017/8/19

“编码的问题吧？一般这种情况，简单粗暴的办法就是把所有能配置编码的地方都配成一样的。”

#1 楼《spark乱码》2017/8/19

“人工智能，全都是人工。”

#9 楼《大家来说说数据挖掘》2017/8/3

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖kayla@kayla

kayla@kayla