返回信息流题目:
请问数据挖掘和大数据是什么关系?文本挖掘一般用不用到Hadoop?
内容:
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #18481同步于 2016/2/20
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【分享】请问数据挖掘和大数据是什么关系?文本挖掘一般用不用
xushu
2016/2/20镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
本科渣来回答下。数据挖掘是大数据需要用到的一系列算法。这些算法在数据量达到一定规模时,发挥的作用能产生质变。大数据还要有架构这些方向,比如hadoop和spark这些东西,才能支撑对大规模数据的挖掘。文本挖掘一般量级有限,大多情况下用不到hadoop,用python可以搞定大部分工作。本人水平有限,一些概念解释或有偏差
沙发说的有道理
【 在 sdlslx (立夏之光) 的大作中提到: 】
: 本科渣来回答下。数据挖掘是大数据需要用到的一系列算法。这些算法在数据量达到一定规模时,发挥的作用能产生质变。大数据还要有架构这些方向,比如hadoop和spark这些东西,才能支撑对大规模数据的挖掘。文本挖掘一般量级有限,大多情况下用不到hadoop,用python可以搞定大部分工作。本人水平有限,一些概念解释或有偏差
通过『我邮2.0』发布
正解!没记错的话spark应该是处理TB以上数量级的数据吧
【 在 sdlslx 的大作中提到: 】
: 本科渣来回答下。数据挖掘是大数据需要用到的一系列算法。这些算法在数据量达到一定规模时,发挥的作用能产生质变。大数据还要有架构这些方向,比如hadoop和spark这些东西,才能支撑对大规模数据的挖掘。
: .........
发自「贵邮」
【 在 sdlslx 的大作中提到: 】
: 本科渣来回答下。数据挖掘是大数据需要用到的一系列算法。这些算法在数据量达到一定规模时,发挥的作用能产生质变。大数据还要有架构这些方向,比如hadoop和spark这些东西,才能支撑对大规模数据的挖掘。文本挖掘一般量级有限,大多情况下用不到hadoop,用python可以搞定大部分工作。本人水平有限,一些概念解释或有偏差
真的很有限,文本挖掘怎么不需要用到hadoop,百度的网页数据本质是文本,公安部的舆情分析都是也有非常多文本,文本,图片,视频,声音是大数据四大载体
假设你要运一箱货物从A城市到B城市,你只需要一辆小轿车就够了
假设你要运一百箱货物,你可能需要一辆皮卡
假设你要运几吨的货物,你需要一辆大卡车
现在你有上千吨的货物,并且要在有限的时间内运完,怎么办?很简单,多找几辆大卡车同时运,一辆运完了回来接着运。
在以上的场景里,货物对应数据,运货物这个过程对应数据挖掘,小轿车就是一台PC, 大卡车就是一个服务器,很多大卡车一起运货物就是利用Hadoop进行数据挖掘。
文本挖掘最后也都是将文本转换成数字特征进行挖掘,和上面的过程差不多。不知道你明白没