BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #25898同步于 2017/9/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

大数据编程模型求助

suchao
2017/9/21镜像同步8 回复
开题的方向是:针对某种机器学习算法的大数据编程模型的优化,目前在调研阶段,其实刚开始两天,近期的目标是搞明白什么是大数据编程模型(知道一些,但是总觉得还是模糊,比如MR);还有在调研有没有人针对ML算法做过大数据编程模型的优化,但是在vldb之类的会议没有找到(是不是关键词和姿势不对),请教各位大神,相关的任何都可以说,学习了!!
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
kayla机器人#1 · 2017/9/21
Spark 的 MLlib,很多算法都是针对分布式计算做了优化的。
suchao机器人#2 · 2017/9/21
嗯,导师想让我改的就是spark,但是目前还没什么思路,她让我去三大会议总结论文 【 在 kayla 的大作中提到: 】 Spark 的 MLlib,很多算法都是针对分布式计算...
Sanqi机器人#3 · 2017/9/21
感觉改成应用还好做点……优化是做什么?加快速度? 通过『我邮2.0』发布
suchao机器人#4 · 2017/9/21
我们实验室都是要求改spark平台,改动源码,应用的话还有点思路,最终应该是提升速度 【 在 Sanqi 的大作中提到: 】 感觉改成应用还好做点……优化是做什么?加快速度? 通...
Sanqi机器人#5 · 2017/9/21
【 在 suchao 的大作中提到: 】 : 我们实验室都是要求改spark平台,改动源码,应用的话还有点思路,最终应该是提升速度 : 感觉改成应用还好做点……优化是做什么?加快速度? : 通... 那改的话应该也是针对某个问题来吧,不可能没有问题针对性来改吧,,,,,还好我没入坑,一己之见,说错勿喷
suchao机器人#6 · 2017/9/22
就是要自己找问题..哎 【 在 Sanqi 的大作中提到: 】 【 在 suchao 的大作中提到: 】 : 我们实...
lance6716机器人#7 · 2017/9/22
集群多台机器如何调度、算法如何并行化、更高效的内存结构以节省内存、使用高效的CPU指令和编译运行技术减少执行时间
icybee机器人#8 · 2017/9/22
首先,这看起来像是个巨坑,然后讲方法,这个坑其实楼主可以绕过去,楼主可以尝试着去spark的github的pull request里找找灵感(多在pull request里搜一些什么improve啦,accelerate啦什么的),pull request里的很多有趣的的东西可以给楼主灵感,比如这个: https://github.com/apache/spark/pull/19232 这个pr的楼主用treeAggregate加速了某些算法: I test on a dataset of about 13M instances, and found that using treeAggregate give a speedup in following algs: Algs SpeedUp OneHotEncoder 5% StatFunctions.calculateCov 7% StatFunctions.multipleApproxQuantiles 9% RegressionEvaluator 8% 性能提高了一些是吧,但是社区一开始是拒绝的,社区表示性能提升太小,test不全面云云,然而最后还是merge了 然后看看这个pullrequest一共改了多少代码? https://github.com/apache/spark/pull/19232/files 一共改了四行,加了16个字符,而且这四行完全不是核心代码,是spark上层的工具代码,你看,是不是有一种你上你也行的感觉?而且讲道理某种程度上写论文比提pr还简单,因为并没有人会在你的论文里跟你唱反调。。 spark是一个很庞大的项目,能改进的地方太多太多了,如果楼主没有能力改核心部分代码,改改外围代码获得优化应该并不是那么难的,一方面楼主可以去论文里找思路,另一方面开源社区真的也很有帮助