一浅二深三大叫什么清华团队突破算力难题:4090显卡单枪匹马就能跑“满血版”DeepSeek-R1!有用户称整套一浅二深三大叫什么方案成本不到7万元,直降95%以上_ZAKER新闻
清华团队突破算力难题:4090显卡单枪匹马就能跑“满血版”DeepSeek-R1!有用户称整套一浅二深三大叫什么方案成本不到7万元,直降95%以上_ZAKER新闻
在吉林延边光东村,水冲式厕所成为家家户户的“标配”,村民感叹“厕所变了样,生活大不同”。
随着大规模语言模型(LLMs)的不断发展,模型规模和复杂性急剧提升,其部署和推理常常需要巨大的计算资源,这对个人研究者和小型团队带来了挑战。2 月 10 日,清华大学 KVCache.AI 团队联合趋境科技发布的 KTransformers 开源项目公布更新:一块 24G 显存的 4090D 就可以在本地运行 DeepSeek-R1、V3 的 671B" 满血版 "。预处理速度最高达到 286 tokens/s,推理生成速度最高能达到 14 tokens/s。KTransformers 通过优化本地机器上的 LLM 部署,帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段,提升了模型的计算效率,并具备处理长上下文序列的能力。KTransformers 的更新发布后,不少开发者也纷纷用自己的设备进行测试。他们惊喜地发现,本地运行完全没有问题,甚至显存消耗比 github 里的技术文档中提到的显存消耗还要少,实际内存占用约 380G,显存占用约 14G。另外,有用户对方案成本进行分项分析后称,只要不到 7 万元就能实现 R1 模型的本地运行,与 A100/H100 服务器动辄 200 万元的价格相比,便宜了 95% 以上。清华团队突破算力难题:24G 显存即可运行 R1 和 V3 的 671B" 满血版 "之前,671B 参数的 MoE 架构大模型 DeepSeek-R1 经常出现推理服务器高负荷宕机的现象,而如果选择其他云服务商提供的专属版云服务器则需按 GPU 小时计费。这一高昂成本让中小团队无力承担,而市面上的 " 本地部署 " 方案多为参数量大幅缩水的蒸馏版。但 KTransformers 开源项目近期的更新,成功打破了大模型推理算力门槛:支持 24G 显存在本地运行 DeepSeek-R1、V3 的 671B" 满血版 "。早在 DeepSeek-V2 时代,这一项目就因 " 专家卸载 " 技术出名了,因为它支持 236B 参数的大模型在仅有 24GB 显存的消费级显卡上流畅运行,把显存需求砍到十分之一。KTransformers 开源项目重点关注的就是在资源有限的情况下进行大模型的本地部署。一名 Ktransformers 开发团队成员表示:" 项目在创始之初就已经讨论过项目的场景和目标,我们所针对的是中小型用户的场景,用领域的话讲,就是低并发 + 超低显存的场景。而显存目前的成本已经和 CPU 的内存不是一个数量级了,对于中小用户内存可能完全不缺,但是找一个显存很大的显卡却很难。"图片来源:知乎KTransformers 的原理大致为将参数较少、计算比较复杂的 MLA 注意力放在 GPU 上进行计算,而参数大的、计算比较轻松的 FNN(MOE)则放到 CPU 上去计算。MoE 结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。因此,MoE 架构需要大量的存储空间,但并不需要很多的计算资源。在这样的情况下,同样使用 4bit 量化,只需要一个 4090 GPU 就可以满足这个参数需求。此外,KTransformers 团队还公布了 v0.3 预览版的性能指标,将通过整合英特尔的 AMX 指令集,CPU 预填充速度最高至 286 tokens/s,相比 llama.cpp 快了近 28 倍。对于需要处理上万级 Token 上下文的长序列任务来说,相当于能够从 " 分钟级等待 " 瞬间迈入 " 秒级响应 ",彻底释放 CPU 的算力潜能。用户:成本相比 A100/H100 服务器可直降 95% 以上KTransformers 的更新发布后,不少开发者也纷纷在自己的设备上进行测试。他们惊喜地发现,本地运行完全没有问题,显存消耗甚至比 github 里的技术文档中提到的还要少,实际内存占用约 380G,显存占用约 14G。图片来源:哔哩哔哩有 B 站 up 主实测发现,本地部署的速度可以达到约 6-8 tokens/s,与硅基流动免费版速度差不多(但硅基流动有上下文关联数、输出数限制等因素)。还有用户规划出了这套方案的成本:CPU:Gold 6454S 两颗价格 1w4 左右(QS 版)主板:技嘉 ms73 价格 6500 元以内(双路主板一共 16 个 DDR5 RDIMM 接口)内存:单根 64G 的 RDIMM DDR5 服务器内存要 1800 元总共 1T 需要 3w 元左右显卡:低档 4060Ti 16G,大概 3999 元。更加建议 4090 24G,因为可以增加上下文长度。该用户总结称,整体成本 7 万元不到,相比于 A100/H100 服务器动辄 200 万元的价格,便宜了 95% 以上。就算是租用服务器每小时也得花费数千元。当然,这一本地方案还是有着诸多的限制,比如推理速度并不能和高价的服务器成本相提并论,并且只能给单人服务,而服务器可以同时满足几十个用户的需求。目前整体方案也依赖于英特尔的 AMX 指令集,其他品牌的 CPU 暂时还无法进行这些操作。并且这一方案主要是针对于 DeepSeek 的 MOE 模型,其他主流模型的运行可能并不理想。有用户认为,短期来看,KTransformers 可能刺激消费级显卡(如 4090)的需求,尤其是高显存型号。但内存涨价的可能性较低,因为其核心创新在于优化显存利用率,而非直接增加内存消耗。但对于英伟达的影响并不会太大,因为这一技术归根结底还是对于现有资源的优化而非颠覆硬件需求。免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:张志远
TOP1热点:铁路售票员手速超快英语超溜
以生态文明建设助力乡村高质量发展是事关美丽生态的民安工程。打造“千村宜居、万村美丽”的民安工程,以扭转粗放式经济发展惯性为切入点,坚持生态优先、以人为本与共建共享,突破“思想关”“利益关”。其一,“不做选择题,要做必答题”,提高农民生态文明建设的认知,增强他们参与农村环保事业的主人翁行动,使其环保意识上升到与衣食住行同样重要的高度。其二,说到底,“千万工程”最宝贵的经验和财富是形塑人的精神、人的品格,应利用好农村广播、乡村数字平台、县域融媒体等载体,宣介农村生态政策,不仅让广大农民懂环保方法,而且厚植其环保理念。其三,群众不仅要发动和带动,更要通过合适的制度安排来激励。为此,应积极推进农村环保奖惩制度,将农村环境污染监测结果作为农户评奖推优的前置条件,“把选择权交给农民,由农民选择而不是代替农民选择”,从制度上解决好农村生态环境保护问题。。
TOP2热点:哥伦比亚拒绝载遭驱逐移民美军机入境
教育部官网今天发布2022年全国教育经费执行情况统计快报。数据显示,2022年全国教育经费总投入达61344亿元。比上年增长6%。其中,国家财政性教育经费为48478亿元,比上年增长5.8%。
TOP3热点:OneRepublic将登上春晚商务旅行中绿子女老板帽02经典
最早提及《乐记》作者之名者,为《隋书·音乐志》引南梁沈约之《奏答》:
1840年之前,香港的生活如同平静的海面,偶有移民带起点点浪花。鸦片战争的西风骤起,惊涛骇浪袭来,英国殖民者强行侵占香港岛,异质的文化,开始疯狂涌入这座城市。
TOP4热点:男子花6元中1500万元:一夜没睡国产又黄又硬又粗
历史充分表明,没有中国共产党就没有新中国,就没有中国人民的幸福生活,就没有中华民族的伟大复兴;历史和人民选择了中国共产党,中国共产党也没有辜负历史和人民的选择。新时代的伟大变革,是全党全国各族人民一道拼出来、干出来、奋斗出来的,最根本在于有习近平总书记掌舵领航,有习近平新时代中国特色社会主义思想科学指引。实践充分证明,“两个确立”是推动党和国家事业取得历史性成就、发生历史性变革的决定性因素,是战胜一切艰难险阻、应对一切不确定性的最大确定性、最大底气、最大保证,对新时代党和国家事业发展、对推进中华民族伟大复兴历史进程具有决定性意义。
TOP5热点:杨丽萍蛇舞麻花传MD0174苏蜜清歌
“变化大得很哪!现在的团结村已经成为远近闻名的度假地和旅游地,每天都要接待一拨又一拨的客人……不少人家开起了农家乐,日子比以前红火多了!”听得出,这是黄大发老人家最开心的事。
TOP6热点:新娘坐高铁去结婚给乘客发喜糖成品人和精品人的区别
在香港回归祖国26周年之际,牢记习近平主席的嘱托和希望,香港特区政府重申,会坚定不移全面准确实施香港国安法,进一步健全特区维护国家安全的法律制度和执行机制,依法防范、制止和惩治危害国家安全的行为和活动,同时依法保障香港市民的权利和自由,确保“一国两制”实践行稳致远。
TOP7热点:年前最后一个工作日了成免费的crm
“放心吧,我都接过您的鞭子好几年啦!倒是你们,在家要注意着点儿,别太累了。”魏萍一边吃早饭一边叮嘱。
神舟十六号载人飞船发射圆满成功,国产大飞机C919圆满完成商业航班首飞……自立自强勇攀科技高峰,广大科技工作者不断书写新时代的创新答卷,让中国人的飞天梦、科学梦延展到更远的天际。
TOP8热点:医生机上救人后被要求出示执业证书linode成熟iphone
从“大钊路”到“延乔路”,从“钱学森星”到“屠呦呦星”,他们的名字刻在大街小巷,闪耀在璀璨星空。英雄之名,见证艰辛历程,未来之路,更需接续奋斗。
TOP9热点:美副总统:40年了美国一场仗都没赢欧美肥妇BWBWBWBXX小说
坚持不懈用习近平新时代中国特色社会主义思想凝心铸魂,要全面把握其精髓要义,避免知其然而不知其所以然。科学的世界观和方法论是我们研究问题、解决问题的“总钥匙”。学深悟透习近平新时代中国特色社会主义思想,就必须把握这一思想的世界观、方法论和贯穿其中的立场观点方法。党的二十大报告提出的“六个必须坚持”,即必须坚持人民至上、必须坚持自信自立、必须坚持守正创新、必须坚持问题导向、必须坚持系统观念、必须坚持胸怀天下,高度凝练、科学概括了习近平新时代中国特色社会主义思想的世界观和方法论,是习近平新时代中国特色社会主义思想的立场观点方法的重要体现。只有准确把握包括“六个必须坚持”在内的习近平新时代中国特色社会主义思想的立场观点方法,才能更好领会这一思想的精髓要义,才能把思想方法搞对头,认识问题才站得高,分析问题才看得深,开展工作也才能把得准,确保张弛有度、收放自如。我们要在融会贯通“六个必须坚持”的基础上,深化对习近平新时代中国特色社会主义思想的学习理解和贯彻落实,从而深入领会党的创新理论的道理学理哲理,做到知其言更知其义、知其然更知其所以然,切实把党的创新理论贯彻落实到党和国家工作各方面全过程。
TOP10热点:"颜十六"在王星案扮演了什么角色40岁阿姨荒野大镖客一电影导演
多年来,中非经贸合作生机勃勃、发展步伐坚实稳固。中非经贸合作规模不断扩大,通过“一带一路”倡议、中非经贸博览会等合作平台将“大写意”的谋篇布局落实为一大批看得见、摸得着的合作项目。