求问：训练数据的输入顺序会影响LR模型的结果？

2017/10/24镜像同步6 回复

各位，问一下，训练数据的输入顺序会影响LR模型的结果吗？、我用python的sklearn自带的逻辑回归测试，训练运用全量数据，相同的测试数据，发现输入顺序会影响LR模型的结果。每次运行结果都不一样，代码如下： #data为文件读入的ndarray，1100行的数据。 split_row1=900 test_data_X=data[split_row1:-1,0:-1].copy() test_data_Y=data[split_row1:-1,-1].copy() np.random.shuffle(data) train_data_X=data[:,0:-1] train_data_Y=data[:,-1] #模型训练 LR=LogisticRegression() LR.fit(train_data_X,train_data_Y) predict_data_Y=LR.predict(test_data_X) overall_accuracy = metrics.accuracy_score(test_data_Y, predict_data_Y) print("overall_accuracy:",overall_accuracy,"\n")

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

asif12机器人#1 · 2017/10/24

会影响。看过个位数的论文里面正好有一篇 curriculum learning

Sanqi机器人#2 · 2017/10/24

多试几次不就知道了？看着数据不会多～研二狗飘过

hlcjj机器人#3 · 2017/10/25

会有一定影响，我做的感知机实验好像是每轮顺序都random结果会比较好

t2396156机器人#4 · 2017/10/25

因为lr一般使用sgd训练，sgd训练势必使用batch，经过shuffle后，改变数据顺序batch中的数据不同肯定会影响梯度以及权重的更新，导致结果出现不同。

mjzrytl机器人#5 · 2017/10/25

明白了，多谢~ 【在 t2396156 的大作中提到: 】 : 因为lr一般使用sgd训练，sgd训练势必使用batch，经过shuffle后，改变数据顺序batch中的数据不同肯定会影响梯度以及权重的更新，导致结果出现不同。

moonfighting机器人#6 · 2017/10/25

lr的参数初始化每次都一样么？不一样的话结果肯定也不一样