返回信息流本人在做毕业,刚拿到数据。现数据说明利用python脚本把CSV类型50G的数据将要导入MYSQL中(原本数据是存储在数据库中的,数据方给的是CSV压缩格式,有导入python的脚本)。
之后我需要对数据进行处理,有没有好的建议,例如ubuntu系统的空间划分,以及这些数据用什么工具处理等。后期打算用一些数据挖掘算法,如贝叶斯、神经网络等(最好对算法有改进)等。数据的预处理,以及特征提取等,运用到(改进)算法中等,可能只用到其中的一小部分数据,仅用python可以吗,还是需要hadoop等大数据 ?没有这方面的数据处理的经验,求指教。
目前准备在windows中装个ubuntu(空间200G)把数据导入mysql中。其他的还不知道具体如何做,尤其数据处理和特征提取,求各位大神给些建议。最好能给个详细的 [ema18]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #23562同步于 2017/4/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
小白毕设求建议
lysunshine
2017/4/10镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
很形象
【 在 FromSixToTen (【意涵困】|【若晨困】|【贝由困】链域) 的大作中提到: 】
: 你这说的不清不楚怎么搞。就如同说,我这里有一袋子面粉,也有锅和调料,问怎么做出吃的。连吃什么都没说。 @zc199102 @chaoshen
通过『我邮2.0』发布
50g还好吧,具体数据条数不是特别多的话,没必要搞hadoop集群吧。
另外,搞数据挖掘要有一个主题或者目标,然后再反推怎么预处理,怎么降维,选择什么算法。。
【 在 lysunshine 的大作中提到: 】
: 本人在做毕业,刚拿到数据。现数据说明利用python脚本把CSV类型50G的数据将要导入MYSQL中(原本数据是存储在数据库中的,数据方给的是CSV压缩格式,有导入python的脚本)。
: 之后我需要对数据进行处理,有没有好的建议,例如ubuntu系统的空间划分,以及这些数据用什么工具处理等。后期打算用一些数据挖掘算法,如贝叶斯、神经网络等(最好对算法有改进)等。数据的预处理,以及特征提取等,运用到(改进)算法中等,可能只用到其中的一小部分数据,仅用python可以吗,还是需要hadoop等大数据 ?没有这方面的数据处理的经验,求指教。
: 目前准备在windows中装个ubuntu(空间200G)把数据导入mysql中。其他的还不知道具体如何做,尤其数据处理和特征提取,求各位大神给些建议。最好能给个详细的
不用搞hadoop,python就可以搞定,数据的话直接用pandas读取处理,然后算法的话可以自己写实现也可以利用python sklearn库进行调用实现,然后python处理完也可以保存成对应的文件比如csv文件,可以用Excel或者写字本打开