返回信息流mapreduce中,map的定义是这样的protected void map(LongWritable key, Text value, Context context);
资料里说key指的行号。
一般大文件都会被分割成N个小文件,存在HDFS中,我想问的是,这里的key指的是该记录位于大文件中的行号呢 还是 每个小文件中的行号?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #17245同步于 2015/11/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
[问题]问一个mapreduce相关的问题
Julkot
2015/11/4镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
我就刚开始看,只不过碰巧例子是说两个向量相乘的,必须得知道这一行在文件中的行号,不然没法做。
【 在 yangliu 的大作中提到: 】
: 实习写了4个月mapreduce,基本这个行号都是没用的信息直接被忽略掉的,不过楼主钻研的好深,我就从没考虑过这个问题,赞楼主
恩,确实是字节偏移量。为什么说大文件分成小文件是逻辑上的切分?一般默认的block的设置是64M,一个大文件会被切分成若干个block存储在HDFS不同的节点上,而MapReduce是在存放有该文件的文件块的节点上运行的,这个应该不仅仅是逻辑上的切分了吧?
【 在 liuminyt 的大作中提到: 】
: 不是行号,是偏移量,当然是大文件,不存在小文件,大文件切分成小文件也是逻辑上切分。。。。