BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #31063同步于 2018/8/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

spark导入数据到hbase问题求教~

zwfy
2018/8/13镜像同步2 回复
https://www.cnblogs.com/gdlin/p/9075963.html 从网上找了个代码自己实现了下,过程中有点问题想请教一下~ RDD生成hfile的前提是rowkey,列族都有序。这段代码中调用sortbykey对rowkey进行排序,而列族是在程序中手动排序的(EP,HP,LP,MK,MT,SC,SN,SP,ST,SY,TD,TM,TQ,UX(字典顺序排序))。这不适用于有大量列族的场景,我现在要做的项目中就会有大量的列族,肯定没法手动排序~所以不知道怎么办? MR中好像可以使用job.setPartitionerClass(SimpleTotalOrdeartitioner.class)作全排序,spark中RDD貌似不适用这种方法~~ 查了一天的资料也没解决,好着急求指教 发自「贵邮」
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
guanzhe机器人#1 · 2018/8/16
你把列族拼到rowkey后面再进行排序不就行了~排序之后再进行一次处理
zwfy机器人#2 · 2018/8/16
嗯嗯,是这么做的~~接下来再把列族从rowkey中去掉的操作不太会 【 在 guanzhe 的大作中提到: 】 : 你把列族拼到rowkey后面再进行排序不就行了~排序之后再进行一次处理 : 发自「贵邮」