kayla@kayla
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“因为已经不需要担心 Home 键的寿命了。”
“没用,如果其他 key 都只对应100条数据,但有一个 key 对应 100万 条数据,你无论怎么分区,这100万条数据都会跑到同一个 task 下面去,即便你有办法让它不 OOM,处理速度也太慢了。 【 在 airfan 的大作中提到: 】 : 2、如果是这种情况的话,是不是可以通过增大分区个数的方式,减少每个tas…”
“2. 一个理解,不一定对哈:磁盘是用来辅助存储的,不是用来辅助计算的,也就是说如果当前的某个 task 需要用到某些数据,那这些数据即便存在磁盘上,也是必须先加载到内存里才行的。比如 groupByKey 操作,你针对某个 key 计算的时候,这个 key 对应的 values 还是得加载到内存里面的。 3. 首先,你…”
“用的 JSON 库是什么?有用 fastjson 这种比较快的库吗? split 用的是 Java String 的?这个很慢,可以用 apache common langs3 或者 guava 里面的 split 多线程是怎么做的?线程池我猜你应该是用了,那 runnable 对象呢?不是每次都 new 吧? 放些代…”
“1. 用磁盘做缓存。 2. 没有极限,取决于你的计算逻辑。比如如果仅仅是 map -> filter -> save 的话,多少数据都能处理;但如果是 groupBy 的话,那就不一样了。 3. SSD 没那么慢,另外这可是207台机器啊,你再乘以 cpu 的核数…… 能处理这么大数据的排序有两个原因: 1. 从算法本…”
“JVM 调优是为了减少 Full GC 带来的 stop-the-world 时间。”
“编码的问题吧? 一般这种情况,简单粗暴的办法就是把所有能配置编码的地方都配成一样的。”
“人工智能,全都是人工。”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。