返回信息流做解码,每次解一个小的数据单元,但是解码算法相当复杂,数据处理量也比较大,想做实时处理,
但是现在唯一可行的就是在利用GPU的高速计算能力设计并行算法,不知道有没大牛有经验,可否实现加速至少50倍的效果?
这是一条镜像帖。来源:北邮人论坛 / soft-design / #37206同步于 2009/12/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖
通过在GPU上实现能否达到现在运行速度的50倍?
AHU
2009/12/28镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
并行化的加速多少首先取决于你的数据单元之间是否存在dependency,这关系到你的东西从原理上能不能并行的跑
此外用GPU还不能忽视内存带宽问题,如果是数据量很大,来回倒即便是PCIE也没多少可用的
另外GPU倒内存的延时还很大
能不能加速,能加速多少倍,还真是个很难回答的问题
有些程序确实能加速几十甚至上百倍
英伟达已经发布了512核的GPU,百倍加速已经不是梦想
但是大部分程序也只是加速十几倍而已
并行程序想写好是很难的
GPU程序想写好更难
拜谢各位了,照这样估计,可行性应该是比较低了
PS:如果每次处理的单元都是一个小片,例如128B,既然GPU有512核,可否先收例如512个片,组成矩阵?再试图用GPU计算,?
GPU支持对其中每一个核设置其对应的命令么?、
【 在 AHU 的大作中提到: 】
: 做解码,每次解一个小的数据单元,但是解码算法相当复杂,数据处理量也比较大,想做实时处理,
: 但是现在唯一可行的就是在利用GPU的高速计算能力设计并行算法,不知道有没大牛有经验,可否实现加速至少50倍的效果?
我觉得是可以的。但你需要先自行了解一些GPU的问题。别人都不清楚你的问题,所以也只是瞎说说自己的经验。
看看CUDA的介绍吧。
【 在 AHU 的大作中提到: 】
: 拜谢各位了,照这样估计,可行性应该是比较低了
: PS:如果每次处理的单元都是一个小片,例如128B,既然GPU有512核,可否先收例如512个片,组成矩阵?再试图用GPU计算,?
: GPU支持对其中每一个核设置其对应的命令么?、
直觉上是越简单的算法越容易用GPU做并行。
试试把GPU看作一个矢量运算协处理器吧,包括矩阵在内都可以计算了。
当然,你要能够把原有算法转化成矢量运算。