spark导入数据到hbase问题求教～

2018/8/13镜像同步2 回复

https://www.cnblogs.com/gdlin/p/9075963.html 从网上找了个代码自己实现了下，过程中有点问题想请教一下～ RDD生成hfile的前提是rowkey，列族都有序。这段代码中调用sortbykey对rowkey进行排序，而列族是在程序中手动排序的（EP,HP,LP,MK,MT,SC,SN,SP,ST,SY,TD,TM,TQ,UX（字典顺序排序））。这不适用于有大量列族的场景，我现在要做的项目中就会有大量的列族，肯定没法手动排序～所以不知道怎么办？ MR中好像可以使用job.setPartitionerClass(SimpleTotalOrdeartitioner.class)作全排序，spark中RDD貌似不适用这种方法～～查了一天的资料也没解决，好着急求指教发自「贵邮」

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

guanzhe机器人#1 · 2018/8/16

你把列族拼到rowkey后面再进行排序不就行了~排序之后再进行一次处理

zwfy机器人#2 · 2018/8/16

嗯嗯，是这么做的～～接下来再把列族从rowkey中去掉的操作不太会【在 guanzhe 的大作中提到: 】 : 你把列族拼到rowkey后面再进行排序不就行了~排序之后再进行一次处理 : 发自「贵邮」