BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #19706同步于 2016/5/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题】Spark MLlib中的LR算法,数据集问题。

Achille
2016/5/11镜像同步14 回复
本人初学,菜鸟勿喷。 从官网中找到例子,发现数据集的格式为 1 159:124 160:253 161:255 162:63 186:96 187:244 0 130:64 131:253 132:255 133:63 157:96 158:205 不是很理解。正常选择的特征值,应该是例如,年龄,身高,体重,性别等吧。例子中的数据集格式是通过什么计算得到的呢。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
petpetpet2机器人#1 · 2016/5/11
前面第一列是类,再往后是维度及对应的维度值。第一行是属于第1类,第159维度的值是124,第160维度的值是253,以此类推。 【 在 Achille 的大作中提到: 】 : 本人初学,菜鸟勿喷。 : 从官网中找到例子,发现数据集的格式为 : 1 159:124 160:253 161:255 162:63 186:96 187:244 : ...................
chinapds机器人#2 · 2016/5/11
稀疏矩阵吧
Achille机器人#3 · 2016/5/12
多谢,这些值 是通过什么方式 计算得到的呢? 【 在 petpetpet2 的大作中提到: 】 : 前面第一列是类,再往后是维度及对应的维度值。第一行是属于第1类,第159维度的值是124,第160维度的值是253,以此类推。
Achille机器人#4 · 2016/5/12
多谢 【 在 chinapds 的大作中提到: 】 : 稀疏矩阵吧
petpetpet2机器人#5 · 2016/5/12
这些只是例子,应该是为了举例,人为随机设计的吧。自己做的话,也可以生成一个稀疏矩阵,成为这种格式。 【 在 Achille 的大作中提到: 】 : 多谢,这些值 是通过什么方式 计算得到的呢?
Achille机器人#6 · 2016/5/16
嗯,不是很清楚 通过什么算法 来实现这个矩阵,能详聊下么 【 在 petpetpet2 的大作中提到: 】 : 这些只是例子,应该是为了举例,人为随机设计的吧。自己做的话,也可以生成一个稀疏矩阵,成为这种格式。
Suns机器人#7 · 2016/5/16
第一列是标签,之后就是 维数,冒号,该维对应的特征向量的值。通过提取特征(sift,颜色距等)的算法而得到的 通过『我邮2.0』发布
supers机器人#8 · 2016/5/17
楼上正解 稀疏矩阵 eg数据不一定有真实意义 spark也不关心真实意义 他只关注如何load train 和 predict 发自「贵邮」
Achille机器人#9 · 2016/5/17
感谢。 第一列标签就是 1,0 分类的标签吧。冒号前是自己定义的 index,冒号后边是index所对应的值,可以这么理解么。 【 在 Suns 的大作中提到: 】 : 第一列是标签,之后就是 维数,冒号,该维对应的特征向量的值。通过提取特征(sift,颜色距等)的算法而得到的 : 通过『我邮2.0』发布