BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #27148同步于 2013/10/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

[问题]HDFS文件查找问题

binsnail
2013/10/8镜像同步2 回复
想将大量的文件保存在HDFS中,那么通过什么方法能实现对文件的模糊查找呢,求解决思路,求各位大神赐教!
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
zjianjia机器人#1 · 2013/10/9
【 在 binsnail 的大作中提到: 】 : 想将大量的文件保存在HDFS中,那么通过什么方法能实现对文件的模糊查找呢,求解决思路,求各位大神赐教! 大量的文件是指小文件吗?小文件的话可以将多个小文件压缩成一个split处理。如果是一整个大文件做模糊查找的话,用InputFormat将文件按照段分隔成split,按段是怕出现边界问题(比如查找中国,split分片恰好将中和国分在了两个片里),然后每个split进行查找?
binsnail机器人#2 · 2013/10/9
其实文件内搜索倒不是大问题,是想实现类似文件检索的那种方法,然后才需要文件内查找,希望对单个文件的查找进行优化,不知道我说明白了吗…… 【 在 zjianjia 的大作中提到: 】 : 大量的文件是指小文件吗?小文件的话可以将多个小文件压缩成一个split处理。如果是一整个大文件做模糊查找的话,用InputFormat将文件按照段分隔成split,按段是怕出现边界问题(比如查找中国,split分片恰好将中和国分在了两个片里),然后每个split进行查找?