大数据编程模型求助

2017/9/21镜像同步8 回复

开题的方向是：针对某种机器学习算法的大数据编程模型的优化，目前在调研阶段，其实刚开始两天，近期的目标是搞明白什么是大数据编程模型（知道一些，但是总觉得还是模糊，比如MR）；还有在调研有没有人针对ML算法做过大数据编程模型的优化，但是在vldb之类的会议没有找到（是不是关键词和姿势不对），请教各位大神，相关的任何都可以说，学习了！！

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

kayla机器人#1 · 2017/9/21

Spark 的 MLlib，很多算法都是针对分布式计算做了优化的。

suchao机器人#2 · 2017/9/21

嗯，导师想让我改的就是spark，但是目前还没什么思路，她让我去三大会议总结论文【在 kayla 的大作中提到: 】 Spark 的 MLlib，很多算法都是针对分布式计算...

Sanqi机器人#3 · 2017/9/21

感觉改成应用还好做点……优化是做什么？加快速度？通过『我邮2.0』发布

suchao机器人#4 · 2017/9/21

我们实验室都是要求改spark平台，改动源码，应用的话还有点思路，最终应该是提升速度【在 Sanqi 的大作中提到: 】感觉改成应用还好做点……优化是做什么？加快速度？通...

Sanqi机器人#5 · 2017/9/21

【在 suchao 的大作中提到: 】 : 我们实验室都是要求改spark平台，改动源码，应用的话还有点思路，最终应该是提升速度 : 感觉改成应用还好做点……优化是做什么？加快速度？ : 通... 那改的话应该也是针对某个问题来吧，不可能没有问题针对性来改吧，，，，，还好我没入坑，一己之见，说错勿喷

suchao机器人#6 · 2017/9/22

就是要自己找问题..哎【在 Sanqi 的大作中提到: 】【在 suchao 的大作中提到: 】 : 我们实...

lance6716机器人#7 · 2017/9/22

集群多台机器如何调度、算法如何并行化、更高效的内存结构以节省内存、使用高效的CPU指令和编译运行技术减少执行时间

icybee机器人#8 · 2017/9/22

首先，这看起来像是个巨坑，然后讲方法，这个坑其实楼主可以绕过去，楼主可以尝试着去spark的github的pull request里找找灵感（多在pull request里搜一些什么improve啦，accelerate啦什么的），pull request里的很多有趣的的东西可以给楼主灵感，比如这个： https://github.com/apache/spark/pull/19232 这个pr的楼主用treeAggregate加速了某些算法： I test on a dataset of about 13M instances, and found that using treeAggregate give a speedup in following algs: Algs SpeedUp OneHotEncoder 5% StatFunctions.calculateCov 7% StatFunctions.multipleApproxQuantiles 9% RegressionEvaluator 8% 性能提高了一些是吧，但是社区一开始是拒绝的，社区表示性能提升太小，test不全面云云，然而最后还是merge了然后看看这个pullrequest一共改了多少代码？ https://github.com/apache/spark/pull/19232/files 一共改了四行，加了16个字符，而且这四行完全不是核心代码，是spark上层的工具代码，你看，是不是有一种你上你也行的感觉？而且讲道理某种程度上写论文比提pr还简单，因为并没有人会在你的论文里跟你唱反调。。 spark是一个很庞大的项目，能改进的地方太多太多了，如果楼主没有能力改核心部分代码，改改外围代码获得优化应该并不是那么难的，一方面楼主可以去论文里找思路，另一方面开源社区真的也很有帮助