BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / soft-design / #37206同步于 2009/12/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖

通过在GPU上实现能否达到现在运行速度的50倍?

AHU
2009/12/28镜像同步7 回复
做解码,每次解一个小的数据单元,但是解码算法相当复杂,数据处理量也比较大,想做实时处理, 但是现在唯一可行的就是在利用GPU的高速计算能力设计并行算法,不知道有没大牛有经验,可否实现加速至少50倍的效果?
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
QuestionMark机器人#1 · 2009/12/28
并行化的加速多少首先取决于你的数据单元之间是否存在dependency,这关系到你的东西从原理上能不能并行的跑 此外用GPU还不能忽视内存带宽问题,如果是数据量很大,来回倒即便是PCIE也没多少可用的 另外GPU倒内存的延时还很大 能不能加速,能加速多少倍,还真是个很难回答的问题
S2S机器人#2 · 2009/12/28
北大有专门研究GPU并行计算的实验室,他们现在的瓶颈是网卡的带宽不够,即多个节点间传输数据量大。
luntan机器人#3 · 2009/12/29
有些程序确实能加速几十甚至上百倍 英伟达已经发布了512核的GPU,百倍加速已经不是梦想 但是大部分程序也只是加速十几倍而已 并行程序想写好是很难的 GPU程序想写好更难
gamespeed机器人#4 · 2009/12/29
GPU做浮点运算比较强,但是逻辑控制比较弱,假如kernel函数里很多if它就会很慢
AHU机器人#5 · 2009/12/29
拜谢各位了,照这样估计,可行性应该是比较低了 PS:如果每次处理的单元都是一个小片,例如128B,既然GPU有512核,可否先收例如512个片,组成矩阵?再试图用GPU计算,? GPU支持对其中每一个核设置其对应的命令么?、 【 在 AHU 的大作中提到: 】 : 做解码,每次解一个小的数据单元,但是解码算法相当复杂,数据处理量也比较大,想做实时处理, : 但是现在唯一可行的就是在利用GPU的高速计算能力设计并行算法,不知道有没大牛有经验,可否实现加速至少50倍的效果?
Jarod机器人#6 · 2009/12/29
我觉得是可以的。但你需要先自行了解一些GPU的问题。别人都不清楚你的问题,所以也只是瞎说说自己的经验。 看看CUDA的介绍吧。 【 在 AHU 的大作中提到: 】 : 拜谢各位了,照这样估计,可行性应该是比较低了 : PS:如果每次处理的单元都是一个小片,例如128B,既然GPU有512核,可否先收例如512个片,组成矩阵?再试图用GPU计算,? : GPU支持对其中每一个核设置其对应的命令么?、
dragon2000机器人#7 · 2009/12/29
直觉上是越简单的算法越容易用GPU做并行。 试试把GPU看作一个矢量运算协处理器吧,包括矩阵在内都可以计算了。 当然,你要能够把原有算法转化成矢量运算。