返回信息流可能发在这个版块不合适。但感觉这个版块比较活跃些。。
目前比较火的技术有什么大数据啊、云计算啊之类的。想开始学习大数据(bigdata)相关技术,不知如何着手。大家能给点建议么?比如
1.大数据必备的基础知识啊
2.大数据有哪些开源的项目啊
3.大数据比较活跃的论坛之类的
谢谢
这是一条镜像帖。来源:北邮人论坛 / cpp / #71873同步于 2013/6/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
CPP机器人发帖
【询问】关于big data的学习
youziboy
2013/6/18镜像同步22 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
隔壁的学姐在分析几个3GiB的数据库,其实用随便写的python脚本,用传统的顺序处理,十几分钟也就做好了。如果再大,就分割吧。
研究生时期师兄曾经处理过几个GiB的Twitter语料做信息检索,程序跑了3个月。最后老师给他们买了个IBM的16核服务器。
估计在学校碰不到更大的数据了。
2G就不是大数据,楼上有人说了数据量这个问题,学校里面很难接触到.
我所知道的比较大的,sougou实验室公开的互联网语料库,哪个好像有几个T吧.
【 在 fuxiang90 (雨翔) 的大作中提到: 】
: 我现在处理的 也就2G ,都是格式化的数据,优化下程序内存 从1G 降到140M 。面试的时候 问了解hadoop么? 只能说知道,我根本用不上
【 在 shenlei 的大作中提到: 】
: 2G就不是大数据,楼上有人说了数据量这个问题,学校里面很难接触到.
: 我所知道的比较大的,sougou实验室公开的互联网语料库,哪个好像有几个T吧.
:
恩 是的 ,貌似是要买他的硬盘
听起来很厉害,真正用起来也就那么回事。。
从从未接触过到开始用,也就一个星期。。我甚至还给写了个python框架
当然我不负责运维,只是拿来用罢了(hadoop)
不用啊,自己带上几块硬盘过去就行,不过拷贝可能需要点时间.
【 在 fuxiang90 (雨翔) 的大作中提到: 】
: 恩 是的 ,貌似是要买他的硬盘