nitroethane@nitroethane
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“肯定 C 的效率高啊。不过涉及到这些算法的话 python 里也应该是用 C 写的。我看了一下 python 处理 zip 的标准库文档,说解密 zip 压缩包的算法是纯 python 实现的 【 在 mengliluohua 的大作中提到: 】 :哪个效率更高一些?”
“楼上提到的,在屏幕和键盘之间夹一张a4纸”
“个人觉得还是 docker 之类的带起来的吧 【 在 nullne 的大作中提到: 】 : 为什么那个作者的吐槽看的我抑制不住的笑 隔着屏幕都能感觉到他的气愤 : 但是这个让我想到了一个问题,go 有这么多问题,为什么还被那么多人用? 跟之前php可能类似吧,他解决了大部分人的问题,可以快速的写出性能还不错的代码(在通…”
“重新安装 lxml 模块试试呢?”
“spark 没问题的,我这里查的数据就是从 spark 里跑出来的。报错是因为我把 spark 作为 hive 的 execution engine 的话还存在一些问题,应该是我没有设置正确。从日志里抓到的报错信息是抛出了个异常: ``` Exception in thread "main" java.lang.ref…”
“感谢回复。目前在做的项目对查询效率没有要求,我只是好奇 Hive 的查询效率,因为网上搜了一圈没有具体的数据。 因为业务需求,目前刚上手 Spark、Hadoop 这一套,正在慢慢探索中,后续有时间的话可以尝试一下您说的这两个项目 【 在 BackTo2711 的大作中提到: 】 : hive速度是这么慢的。要快的话可…”
“换成 Hadoop 之后,跑 `SELECT COUNT(*) FROM waf_log` 的话是 25 秒的执行时间,420 万条数据。这个是不是还是有点慢啊 【 在 chinapds 的大作中提到: 】 : Failed to create Spark client : 集群资源不够吧,2g数据的话,时间应该基本都…”
“感谢回复。已经查明是 spark 作为 hive 的 executiion engine 的话还有很多兼容性问题,导致任务总是失败。 【 在 chinapds 的大作中提到: 】 : Failed to create Spark client : 集群资源不够吧,2g数据的话,时间应该基本都是任务启动、资源申请,计算应…”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。