spiritme@spiritme
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“找到原因了,当pd.dataframe中某一列都是数字时,这一列的dtype会自动变成float,而如果某一列中含有str和数字,他的dtpye为object,所以匹配不上。请教大牛这个该如何避免呢?”
“8核i7的cpu,测试了一下,我发现pool(1)比pool(2)就快多了,然后pool()的值设定越大时间用的越久。。。 但是我人工把文件分放在8个文件夹下,要同时开8个python的程序运行,总体时间会比单开快好多的,为什么使用pool.map就实现不了呢? 跪求大神指导”
“把URL放到一个list,并作为一个函数的变量,用map(函数名,list)就可以了,会被遍历快很多。”
“【 在 icybee 的大作中提到: 】 : 跟cpu核数有关吧 是有关,现在是想求最优值是多少。”
“【 在 reverland 的大作中提到: 】 : 数据没读好吧,话说dataframe,pd.readxxx时分隔符设置了没 就是您说的原因,太感谢了”
“【 在 Dogless 的大作中提到: 】 : 需要完整代码 print type(data_w) <class 'pandas.core.frame.DataFrame'> print data_w .... 267543 20141209 0.10015 1 0.0013 1 0 0.18644 4267544 2…”
“【 在 Dogless 的大作中提到: 】 : : 是这样吗 : [code=py] : ................... p=np.array([ai[1] for ai in a if ai[0] in b]) 大牛,你这个是我用python运行结果是空啊。”
“【 在 tastier 的大作中提到: 】 : 可以将程序中大量计算的部分使用pipeline并行化,cpu的核数等于并行的线程数(必须是操作系统级的线程)。如果读入文件也需要花费很长时间,则读入文件也可以开一个线程,边读边计算 有没有可以参考的代码啊,大神”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。