CUDA GPU Pytorch - 搜索 News

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「 ...

腾讯网

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

在深度学习工程实践中，当训练大型模型或处理大规模数据集时，上述错误信息对许多开发者而言已不陌生。这是众所周知的CUDA out of memory错误——当GPU尝试为张量分配空间而内存不足时发生。这种情况尤为令人沮丧，特别是在已投入大量时间优化模型和代码后 ...

电子工程专辑

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「CUDA版本 ...

36氪

英伟达CUDA垄断地位难保：PyTorch不断拆塔，OpenAI已在偷家

英伟达的软件护城河正在逐渐消失。随着PyTorch支持更多GPU厂商，再加上OpenAI的Triton搅局，英伟达手中的利器CUDA逐渐锋芒不再。上述观点来自Semi Analysis首席分析师Dylan Patel，相关文章已引发一波业内关注。当英伟达之前提出要收购Arm时，我就对潜在的垄断感到 ...

新浪网

天下苦英伟达久矣！PyTorch免CUDA加速推理，Triton时代要来？

在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的 GPU 和 CUDA 是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖 CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然 CUDA 在加速计算领域占据主导地位，并成为英伟达重要的 ...

电子工程专辑

PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍

更多精彩内容请点击上方蓝字关注我们吧！今年 3 月，苹果发布了其自研 M1 芯片的最终型号 M1 Ultra，它由 1140 亿个晶体管组成，是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗，M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。随着用户 ...

快科技

努力替代CUDA！摩尔线程Torch-MUSA插件升级v1.3.0 完全开源

快科技10月31日消息，摩尔线程宣布，针对PyTorch深度学习框架的MUSA插件“Torch-MUSA”，迎来重大更新新版本v1.3.0，全面兼容PyTorch 2.2.0。新版进一步提升了PyTorch在摩尔线程GPU MUSA架构上的模型性能与覆盖度，能更友好地支持模型迁移到摩尔线程GPU。 PyTorch是全球 ...

36氪

AI生成苹果Metal内核，PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核，比官方的还要好？ Gimlet Labs的最新研究显示，在苹果设备上，AI不仅能自动生成Metal内核，还较基线内核实现了87%的PyTorch推理速度提升。更惊人的是，AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速，其中一些 ...

快科技

AMD与CUDA竞争重要一步！ROCm 6.4.4发布：为Windows上RX 90/70带来PyTorch

快科技9月25日消息，在2025年Computex大会上，AMD承诺将通过ROCm为Windows系统带来PyTorch支持，如今这一承诺终于兑现。 AMD发布了ROCm 6.4.4预览版本，为Windows系统下的Radeon RX 9000和RX 7000系列显卡以及Ryzen AI系列APU带来了PyTorch支持。 ROCm是由AMD开发的开源GPU计算生态系统 ...

腾讯网

CUDA vs OpenCL：GPU 编程模型该如何选？

Hello folks，我是 Luga，今天我们来深入探讨一下人工智能生态中的基石技术——GPU 编程。作为目前最为流行的两种 GPU 编程框架，CUDA 和 OpenCL 各有何异同？如何选择适合自己的工具？让我们一探究竟。‍ 近年来，GPU（图形处理单元）已从最初的图形 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果