返回信息流本人初学,菜鸟勿喷。
从官网中找到例子,发现数据集的格式为
1 159:124 160:253 161:255 162:63 186:96 187:244
0 130:64 131:253 132:255 133:63 157:96 158:205
不是很理解。正常选择的特征值,应该是例如,年龄,身高,体重,性别等吧。例子中的数据集格式是通过什么计算得到的呢。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #19706同步于 2016/5/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】Spark MLlib中的LR算法,数据集问题。
Achille
2016/5/11镜像同步14 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
前面第一列是类,再往后是维度及对应的维度值。第一行是属于第1类,第159维度的值是124,第160维度的值是253,以此类推。
【 在 Achille 的大作中提到: 】
: 本人初学,菜鸟勿喷。
: 从官网中找到例子,发现数据集的格式为
: 1 159:124 160:253 161:255 162:63 186:96 187:244
: ...................
多谢,这些值 是通过什么方式 计算得到的呢?
【 在 petpetpet2 的大作中提到: 】
: 前面第一列是类,再往后是维度及对应的维度值。第一行是属于第1类,第159维度的值是124,第160维度的值是253,以此类推。
这些只是例子,应该是为了举例,人为随机设计的吧。自己做的话,也可以生成一个稀疏矩阵,成为这种格式。
【 在 Achille 的大作中提到: 】
: 多谢,这些值 是通过什么方式 计算得到的呢?
嗯,不是很清楚 通过什么算法 来实现这个矩阵,能详聊下么
【 在 petpetpet2 的大作中提到: 】
: 这些只是例子,应该是为了举例,人为随机设计的吧。自己做的话,也可以生成一个稀疏矩阵,成为这种格式。
感谢。
第一列标签就是 1,0 分类的标签吧。冒号前是自己定义的 index,冒号后边是index所对应的值,可以这么理解么。
【 在 Suns 的大作中提到: 】
: 第一列是标签,之后就是 维数,冒号,该维对应的特征向量的值。通过提取特征(sift,颜色距等)的算法而得到的
: 通过『我邮2.0』发布