返回信息流开题的方向是:针对某种机器学习算法的大数据编程模型的优化,目前在调研阶段,其实刚开始两天,近期的目标是搞明白什么是大数据编程模型(知道一些,但是总觉得还是模糊,比如MR);还有在调研有没有人针对ML算法做过大数据编程模型的优化,但是在vldb之类的会议没有找到(是不是关键词和姿势不对),请教各位大神,相关的任何都可以说,学习了!!
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #25898同步于 2017/9/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
大数据编程模型求助
suchao
2017/9/21镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
嗯,导师想让我改的就是spark,但是目前还没什么思路,她让我去三大会议总结论文
【 在 kayla 的大作中提到: 】
Spark 的 MLlib,很多算法都是针对分布式计算...
我们实验室都是要求改spark平台,改动源码,应用的话还有点思路,最终应该是提升速度
【 在 Sanqi 的大作中提到: 】
感觉改成应用还好做点……优化是做什么?加快速度?
通...
【 在 suchao 的大作中提到: 】
: 我们实验室都是要求改spark平台,改动源码,应用的话还有点思路,最终应该是提升速度
: 感觉改成应用还好做点……优化是做什么?加快速度?
: 通...
那改的话应该也是针对某个问题来吧,不可能没有问题针对性来改吧,,,,,还好我没入坑,一己之见,说错勿喷
首先,这看起来像是个巨坑,然后讲方法,这个坑其实楼主可以绕过去,楼主可以尝试着去spark的github的pull request里找找灵感(多在pull request里搜一些什么improve啦,accelerate啦什么的),pull request里的很多有趣的的东西可以给楼主灵感,比如这个:
https://github.com/apache/spark/pull/19232
这个pr的楼主用treeAggregate加速了某些算法:
I test on a dataset of about 13M instances, and found that using treeAggregate give a speedup in following algs:
Algs SpeedUp
OneHotEncoder 5%
StatFunctions.calculateCov 7%
StatFunctions.multipleApproxQuantiles 9%
RegressionEvaluator 8%
性能提高了一些是吧,但是社区一开始是拒绝的,社区表示性能提升太小,test不全面云云,然而最后还是merge了
然后看看这个pullrequest一共改了多少代码?
https://github.com/apache/spark/pull/19232/files
一共改了四行,加了16个字符,而且这四行完全不是核心代码,是spark上层的工具代码,你看,是不是有一种你上你也行的感觉?而且讲道理某种程度上写论文比提pr还简单,因为并没有人会在你的论文里跟你唱反调。。
spark是一个很庞大的项目,能改进的地方太多太多了,如果楼主没有能力改核心部分代码,改改外围代码获得优化应该并不是那么难的,一方面楼主可以去论文里找思路,另一方面开源社区真的也很有帮助