返回信息流现在手头收集了多台服务器的bash执行过的所有命令,想做一个入侵检测的算法,但是毫无思路(我个人觉得这种应用场景还是用规则引擎效果更好,但Boss偏要让我用机器学习的方法搞)。现在的问题有如下两个:
1. Log形式(时间、IP、Bash的PID、用户、命令)的东西怎么向量化,当成普通的短文本处理效果肯定不好;
2. 如果需要考虑Log的上下文,RNN是不是一个好的选择;
我以前接触过的机器学习只有上课讲的统计机器学习那一套,对ANN基本不了解,希望各路大神提供些思路。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #27274同步于 2017/12/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
如何使用机器学习的方法对shell命令进行入侵检测?
Zelda
2017/12/18镜像同步17 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
统计机器学习有什么好的思路吗?
我觉得这个东西的本质虽然还是分类,但是把它当成短文本分类那效果肯定是比不过基于规则的专家系统的——因为机器学习不过是在学习人工做分类的规则罢了。
【 在 jaegerstar 的大作中提到: 】
: 不一定要用DL那一套吧
看看boss为什么一定要用ml做吧。。
【 在 Zelda 的大作中提到: 】
: 统计机器学习有什么好的思路吗?
: 我觉得这个东西的本质虽然还是分类,但是把它当成短文本分类那效果肯定是比不过基于规则的专家系统的——因为机器学习不过是在学习人工做分类的规则罢了。
基于ML的入侵检测其实已经做了很多年了,上学期写机器学习应用于网络空间安全综述的时候就看到很多paper,传统的做法都是人来做特征工程,现在用DL不用自己做特征工程了呀。
完全依靠人设定的规则检测入侵存在一个问题,当不在规则范围内的入侵它识别不了,所以要学习。理论上,学得好的话就既达到了基于规则的检测的上界,也能对于未知入侵有一定的识别能力。
感谢您的回复。
这其实恰好是我认为在这个应用场景中统计机器学习意义不大的原因,基于分类的模型的上限就是人工做标注时用的规则。
对于未知入侵,是不是LSTM的序列预测模型会更有效呢?
【 在 sinianbentu 的大作中提到: 】
: 完全依靠人设定的规则检测入侵存在一个问题,当不在规则范围内的入侵它识别不了,所以要学习。理论上,学得好的话就既达到了基于规则的检测的上界,也能对于未知入侵有一定的识别能力。
有不有效我不知道。得看你对问题和算法的理解,以及实验。但我估计你说的这个算法有人做过了。创新点、对比别人算法、你的优化空间(识别准确率,误检率什么的)是对你来说是bug和挑战。
【 在 Zelda (Zelda) 的大作中提到: 】
: 感谢您的回复。
: 这其实恰好是我认为在这个应用场景中统计机器学习意义不大的原因,基于分类的模型的上限就是人工做标注时用的规则。
: 对于未知入侵,是不是LSTM的序列预测模型会更有效呢?
您误会了,这是个真实的需求,我只是需要一个无规则的攻击检测算法,根本就没有论文,更不用说创新了。
所以我根本就不在乎有没有人做过,只是想咨询一下有什么好的思路。
【 在 sinianbentu 的大作中提到: 】
: 有不有效我不知道。得看你对问题和算法的理解,以及实验。但我估计你说的这个算法有人做过了。创新点、对比别人算法、你的优化空间(识别准确率,误检率什么的)是对你来说是bug和挑战。