返回信息流想将大量的文件保存在HDFS中,那么通过什么方法能实现对文件的模糊查找呢,求解决思路,求各位大神赐教!
这是一条镜像帖。来源:北邮人论坛 / java / #27148同步于 2013/10/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
[问题]HDFS文件查找问题
binsnail
2013/10/8镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
【 在 binsnail 的大作中提到: 】
: 想将大量的文件保存在HDFS中,那么通过什么方法能实现对文件的模糊查找呢,求解决思路,求各位大神赐教!
大量的文件是指小文件吗?小文件的话可以将多个小文件压缩成一个split处理。如果是一整个大文件做模糊查找的话,用InputFormat将文件按照段分隔成split,按段是怕出现边界问题(比如查找中国,split分片恰好将中和国分在了两个片里),然后每个split进行查找?
其实文件内搜索倒不是大问题,是想实现类似文件检索的那种方法,然后才需要文件内查找,希望对单个文件的查找进行优化,不知道我说明白了吗……
【 在 zjianjia 的大作中提到: 】
: 大量的文件是指小文件吗?小文件的话可以将多个小文件压缩成一个split处理。如果是一整个大文件做模糊查找的话,用InputFormat将文件按照段分隔成split,按段是怕出现边界问题(比如查找中国,split分片恰好将中和国分在了两个片里),然后每个split进行查找?