BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #13195同步于 2014/4/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求助:hadoop读压缩文件

avexuyue
2014/4/30镜像同步9 回复
实验室的数据是.gz的压缩文件格式,用hadoop进行统计时,统计的是压缩后的乱码,我在网上查到hadoop的输入流会自动检测压缩文件格式,并解压缩再输入,也就是说应该统计的就是解压缩后的信息,但为什么我不行。。。求大牛现身相助,已经折腾好几天了还是不行啊。。。[ema1][ema1][ema1]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
W1039766642机器人#1 · 2014/5/1
bless。。解决了之后告诉我解决办法吧。 帮顶好了。
W1039766642机器人#2 · 2014/5/2
transformTextToUTF8(text, "GBK")进行一下转码 据说这是编码被写死了。
W1039766642机器人#3 · 2014/5/2
顺便求问,你的集群多大啊? 谢谢
avexuyue机器人#4 · 2014/5/2
感谢你的热心回复啊![ema11] 现在能跑的大概四五台服务器吧。 我觉得那个乱码应该不是由于编码不对使中文显示不正确而造成的吧,我的数据都是格式规整的数字结构,没有中文。我觉得那些乱码应该是压缩导致的,就像用记事本打开zip一样。 之前我想过的是mapreduce输入输出流处理压缩包的时候会不会要设置编解码器,但是我在网上查到的是mapInputformat默认的textinputformat.class会自动检测文件名的后缀并选择对应的解码器,又翻了许久找到了一篇要在map配置文件里面添加几行增加编码器的方法,但是试过了还是没有用。。[ema13] 你跑过压缩文件吗?是不用做额外的工作就可以直接跑吗?[ema13] 【 在 W1039766642 的大作中提到: 】 : 顺便求问,你的集群多大啊? : 谢谢
W1039766642机器人#5 · 2014/5/2
【 在 avexuyue 的大作中提到: 】 : 感谢你的热心回复啊! : 现在能跑的大概四五台服务器吧。 : 我觉得那个乱码应该不是由于编码不对使中文显示不正确而造成的吧,我的数据都是格式规整的数字结构,没有中文。我觉得那些乱码应该是压缩导致的,就像用记事本打开zip一样。 : ................... 压缩的文件我没跑过。 我就跑了跑worldcount而已。 正在入门。 对了,我站内你两个群, 你到群里问一下看能不能解决。
avexuyue机器人#6 · 2014/5/2
好的,Thanks![ema11][ema11] 【 在 W1039766642 的大作中提到: 】 : : 压缩的文件我没跑过。 : 我就跑了跑worldcount而已。 : ...................
W1039766642机器人#7 · 2014/5/2
【 在 avexuyue 的大作中提到: 】 : 好的,Thanks! 对了,你ssh免密码登陆是怎么弄的? 我老弄不好这个。 只好跑到人大的那个评测系统跑了跑worldcount。 太挫逼了。
avexuyue机器人#8 · 2014/5/2
1.用root用户登录,在根目录下执行:ssh-keygen -t rsa 一直按回车都默认; 2.进入.ssh目录,执行:cp id_rsa.pub authorized_keys 3.执行ssh localhost 【 在 W1039766642 的大作中提到: 】 : : 对了,你ssh免密码登陆是怎么弄的? : 我老弄不好这个。 : ...................
W1039766642机器人#9 · 2014/5/2
【 在 avexuyue 的大作中提到: 】 : 1.用root用户登录,在根目录下执行:ssh-keygen -t rsa : 一直按回车都默认; : 2.进入.ssh目录,执行:cp id_rsa.pub authorized_keys : ................... 我是建了个权限和root差不多的用户, 然后ssh-keygen, 然后scp到slave。就是想免密码登陆slave1和slave2.。 试了好多次都没成功。