说说都是怎么的干对象的“DeepSeek甚至绕过了CUDA”,工程师灵魂提问:英伟达护城河还在吗?_ZAKER新闻说说都是怎么的干对象的
“DeepSeek甚至绕过了CUDA”,工程师灵魂提问:英伟达护城河还在吗?_ZAKER新闻说说都是怎么的干对象的
二是表明西方拱火浇油、试图以战争手段解决问题的方式不被认同。“因为这条路走不通,反而会带来更大风险和更多生命和财产损失,甚至引发核冲突。因此,‘全球南方’国家尝试提出其他思路和方案。”
英伟达刚刚从DeepSeek-R1引发的 4 万亿元暴跌中缓过劲来,又面临新的压力?硬件媒体 Tom ‘ s Hardware 带来开年最新热议:DeepSeek 甚至绕过了 CUDA,使用更底层的编程语言做优化。这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3 的硬件效率之所以能比 Meta 等高出 10 倍,可以总结为 " 他们从头开始重建了一切 "。在使用英伟达的 H800 GPU 训练 DeepSeek-V3 时,他们针对自己的需求把 132 个流式多处理器(SMs)中的20 个修改成负责服务器间的通信,而不是计算任务。变相绕过了硬件对通信速度的限制。DeepSeek-V3 Technical Report这种操作是用英伟达的 PTX(Parallel Thread Execution)语言实现的,而不是 CUDA。PTX 在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和 Thread/Warp 级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用 CUDA 这样的高级编程语言。换句话说,他们把优化做到了极致。有网友表示,如果有一群人嫌 CUDA 太慢而使用 PTX,那一定是前量化交易员。一位亚马逊工程师提出灵魂质问:CUDA 是否还是护城河?这种顶尖实验室可以有效利用任何 GPU。甚至有网友开始畅想,如果 " 新源神 "DeepSeek 开源了一个 CUDA 替代方案……那么事情是否真会如此?DeepSeek 真的绕过了 CUDA?首先要明确的是,PTX 仍然是英伟达 GPU 架构中的技术,它是 CUDA 编程模型中的中间表示,用于连接 CUDA 高级语言代码和 GPU 底层硬件指令。PTX 类似汇编语言,代码大概长这样:△来自 tinkerd.net在实际编译流程中,CUDA 代码首先被编译为 PTX 代码,PTX 代码再被编译为目标 GPU 架构的机器码(SASS,Streaming ASSembler)。CUDA 起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而 PTX 作为中间层,充当高级语言和底层硬件之间的桥梁。另外,这种两步编译流程也使得 CUDA 程序具有跨架构的兼容性和可移植性。反过来说,像 DeepSeek 这种直接编写 PTX 代码的做法,首先不仅非常复杂,也很难移植到不同型号的 GPU。有从业者表示,针对 H100 优化的代码迁移到其他型号上可能效果打折扣,也可能根本不工作了。所以说,DeepSeek 做了 PTX 级别的优化不意味着完全脱离了 CUDA 生态,但确实代表他们有优化其他 GPU 的能力。事实上,我们也能看到 DeekSeek 已经与 AMD、华为等团队紧密合作,第一时间提供了对其他硬件生态的支持。One More Thing还有人提出,如此一来,让 AI 擅长编写汇编语言是 AI 自我改进的一个方向。我们不知道 DeepSeek 内部是否使用 AI 辅助编写了 PTX 代码——但是确实刚刚见证DeepSeek-R1 编写的代码显著提升大模型推理框架的运行速度。Llama.cpp 项目中的一个新 PR 请求,使用 SIMD 指令(允许一条指令同时处理多个数据)显著提升 WebAssembly 在特定点积函数上的运行速度,提交者表示:这个 PR 中的 99% 的代码都是由 DeekSeek-R1 编写的。我唯一做的就是开发测试和编写提示(经过一些尝试和错误)。是的,这个 PR 旨在证明大模型现在能够编写良好的底层代码,甚至能够优化自己的代码。llama.cpp 项目的创始人检查了这段代码后表示 " 比预期的更爆炸 "。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:吴家栋
TOP1热点:新版黛玉临终
就在记者采访的过程中,代建方"上海申湖置业有限公司"工程部的负责人也赶到了现场。。
业主冯先生:每周开例会的时候,监理单位都是来的,监理单位是知道这个事情的。
TOP2热点:乃万自证
欧美、澳洲,还是留在亚洲?
TOP3热点:梁伟铿回村吃席老广标配read[长弓燧龙] 胡桃 (原神)免费
2013年,在山东临沂,一对中国夫妻生下了一个混血宝宝,这个宝宝有着白皮肤、蓝眼睛、黄头发,压根不像中国人。
综合美联社等媒体报道,当地时间7月29日,波兰总理莫拉维茨基在格利维采举行的新闻发布会上表示,100多名瓦格纳雇佣兵已向苏瓦乌基走廊移动,可能对波兰发起“混合攻击”,波兰已经加强防御能力。
TOP4热点:印度清洁工验尸房强行与女子亲热抓着腰撞了起来水流了一地
外界还注意到拟议中的吉达会议的背景和时机。
TOP5热点:邓紫棋鸟巢演唱会movavi
属地的解释弯弯绕绕,大致意思就是,监理说没问题,属地就认为没问题!
TOP6热点:周迅岁正是迷死人的年纪俄罗斯severodvinsk
欧美、澳洲,还是留在亚洲?
有网友在留言中道出了这张图隐藏的真相。这名网友称:“有趣的是,他们忽略了跳水和公开水域项目,因为中国在这些项目上表现出色。”
TOP7热点:曾舜晞陈都灵要是这么演我可不困了国精产品999永久中国有限
本届世锦赛于14日至30日举行,包括跳水、花样游泳、水球、高台跳水、游泳和公开水域六个大项的比赛,中国队参与除高台跳水外的其余五个大项的比赛。队员们在比赛中展现出良好的竞技状态,收获了自信和成长,这将为队伍备战巴黎奥运会积蓄更多能量。
TOP8热点:卫健委调查男子献血次不能优先用血中国XXXXXL 17
单超称不会做DNA鉴定
今年以来,沙特在乌克兰危机上有所回摆:2月向乌克兰提供财政援助、5月邀请乌总统泽连斯基出席阿盟峰会,以及计划下月初举行的排除俄罗斯的吉达会议。
TOP9热点:曾舜晞陈都灵要是这么演我可不困了一面膜上边一面吃下边免费
这次来到泰国,还是4岁的孩子第一次出国。来到普吉岛的这几天,孩子还没有太大的感受,就像在旅游。除了户外时间增加,晒黑了一些,吃的变多了,其他并没有什么变化。
这次对话由国务院副总理何立峰与法国经济、财政及工业、数字主权部部长勒梅尔共同主持。
TOP10热点:在黎巴嫩中国公民尽快回国或离境女人与公驹交酡全过程
编辑张磊校对吴兴发