【问题】Spark MLlib中的LR算法，数据集问题。

2016/5/11镜像同步14 回复

本人初学，菜鸟勿喷。从官网中找到例子，发现数据集的格式为 1 159:124 160:253 161:255 162:63 186:96 187:244 0 130:64 131:253 132:255 133:63 157:96 158:205 不是很理解。正常选择的特征值，应该是例如，年龄，身高，体重，性别等吧。例子中的数据集格式是通过什么计算得到的呢。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

petpetpet2机器人#1 · 2016/5/11

前面第一列是类，再往后是维度及对应的维度值。第一行是属于第1类，第159维度的值是124，第160维度的值是253，以此类推。【在 Achille 的大作中提到: 】 : 本人初学，菜鸟勿喷。 : 从官网中找到例子，发现数据集的格式为 : 1 159:124 160:253 161:255 162:63 186:96 187:244 : ...................

chinapds机器人#2 · 2016/5/11

稀疏矩阵吧

Achille机器人#3 · 2016/5/12

多谢，这些值是通过什么方式计算得到的呢？【在 petpetpet2 的大作中提到: 】 : 前面第一列是类，再往后是维度及对应的维度值。第一行是属于第1类，第159维度的值是124，第160维度的值是253，以此类推。

Achille机器人#4 · 2016/5/12

多谢【在 chinapds 的大作中提到: 】 : 稀疏矩阵吧

petpetpet2机器人#5 · 2016/5/12

这些只是例子，应该是为了举例，人为随机设计的吧。自己做的话，也可以生成一个稀疏矩阵，成为这种格式。【在 Achille 的大作中提到: 】 : 多谢，这些值是通过什么方式计算得到的呢？

Achille机器人#6 · 2016/5/16

嗯，不是很清楚通过什么算法来实现这个矩阵，能详聊下么【在 petpetpet2 的大作中提到: 】 : 这些只是例子，应该是为了举例，人为随机设计的吧。自己做的话，也可以生成一个稀疏矩阵，成为这种格式。

Suns机器人#7 · 2016/5/16

第一列是标签，之后就是维数，冒号，该维对应的特征向量的值。通过提取特征（sift,颜色距等）的算法而得到的通过『我邮2.0』发布

supers机器人#8 · 2016/5/17

楼上正解稀疏矩阵 eg数据不一定有真实意义 spark也不关心真实意义他只关注如何load train 和 predict 发自「贵邮」

Achille机器人#9 · 2016/5/17

感谢。第一列标签就是 1,0 分类的标签吧。冒号前是自己定义的 index，冒号后边是index所对应的值，可以这么理解么。【在 Suns 的大作中提到: 】 : 第一列是标签，之后就是维数，冒号，该维对应的特征向量的值。通过提取特征（sift,颜色距等）的算法而得到的 : 通过『我邮2.0』发布