返回信息流https://www.cnblogs.com/gdlin/p/9075963.html
从网上找了个代码自己实现了下,过程中有点问题想请教一下~
RDD生成hfile的前提是rowkey,列族都有序。这段代码中调用sortbykey对rowkey进行排序,而列族是在程序中手动排序的(EP,HP,LP,MK,MT,SC,SN,SP,ST,SY,TD,TM,TQ,UX(字典顺序排序))。这不适用于有大量列族的场景,我现在要做的项目中就会有大量的列族,肯定没法手动排序~所以不知道怎么办?
MR中好像可以使用job.setPartitionerClass(SimpleTotalOrdeartitioner.class)作全排序,spark中RDD貌似不适用这种方法~~
查了一天的资料也没解决,好着急求指教
发自「贵邮」
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #31063同步于 2018/8/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
spark导入数据到hbase问题求教~
zwfy
2018/8/13镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。