时尚焦点-"感动小站感动之星show time"-DeepSeek V3爆火背后:“AI感动小站感动之星show time界拼多多”能否复制?

感动小站感动之星show timeDeepSeek V3爆火背后:“AI感动小站感动之星show time界拼多多”能否复制?

感动小站感动之星show timeDeepSeek V3爆火背后:“AI感动小站感动之星show time界拼多多”能否复制?

DeepSeek V3爆火背后:“AI感动小站感动之星show time界拼多多”能否复制?

  9月27日,北京市疾控中心发布提醒:国庆假期,倡导市民朋友就地过节,减少出京。进返京人员需要持48小时内核酸阴性证明和“北京健康宝”绿码,严格遵守各项防疫规定。

界面新闻记者 | 伍洋宇 李彪界面新闻编辑 | 文姝琪2024年底,DeepSeek(深度求索)再次凭借模型性能在行业中掀起一个小高潮。这家独立于大模型“六小虎”格局之外、不容行业所忽视的公司,发布了新一代MoE模型DeepSeek-V3首个版本并同步开源。V3拥有6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。 从DeepSeek公开披露的信息来看,在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近当前表现最好的Claude-3.5-Sonnet-1022,在代码能力上同样稍好于后者,而在数学能力上,V3已明显领先其他开闭源模型,包括Qwen2.5 72B-Inst,LIama3.1 405B-Inst,GPT-4o 0513。这已经是一个足够好的开源模型,但真正让其受到大量关注的,是DeepSeek在技术论文中表示,DeepSeek-V3模型总训练成本为557.6万美元,完整训练消耗了278.8万个GPU小时,几乎是同等性能水平模型训练所需十分之一。这让它在海内外再度爆火。事实上,大模型在2024年第一场API价格战正是由DeepSeek开启。彼时,其“MoE架构+MLA(Multi-head Latent Attention)技术”在降低大模型使用成本上发挥了重要作用。如今看来,这项创新在DeepSeek手中完成了稳定延续。至此,同行业的大模型厂商更需审慎对待这家作风低调、输出稳定的公司,不知何时,它就会发起一场商业奇袭。“AI拼多多”模式能否复制根据海外调研机构SemiAnalysis的数据,OpenAI GPT-4训练成本高达6300万美元,而DeepSeek-V3只有前者十分之一不到。这让行业首先开始思考这种低成本模式是否可复制。自从英伟达高端GPU显卡在中国大陆遭禁后,算力不足始终是摆在国内AI公司面前的一大难题。相比于国外微软、Meta、特斯拉等科技巨头动辄购入10万张英伟达显卡搭建算力中心训练AI模型,国内拥有1万张以上显卡的公司屈指可数。DeepSeek背后的开发公司幻方就是其中之一,2023年在接受36氪专访时,幻方创始人梁文锋称“公司已囤有1万张英伟达A100显卡”。 而DeepSeek-V3此次的特别之处在于仅用少量卡就完成了模型训练。 据官方论文介绍,DeepSeek-V3训练使用了2048张英伟达H800 GPU(注:H800GPU为H100 GPU被禁后面向中国大陆推出的特供版,性能约为其一半),这些GPU通过英伟达高速互联网络NVLink和InfiniBand连接搭建成AI算力集群。作为性能对标模型,Meta旗下的开源模型Llama-3.1(模型参数量与训练数据大致相当)则动用了超过16000张英伟达H100GPU,业内估计训练成本高达数亿美元。 Meta AI科学家田渊栋在X(原推特)平台上盛赞DeepSeek V3的低成本训练方法是“黑科技”。特斯拉前人工智能和自动驾驶视觉总监、著名AI研究学者Andrej Karpathy转发了DeepSeek的论文,并评价说“如果DeepSeek V3能够通过各项评估,就证明了在资源有限的情况下,开发出性能强大的大语言模型是有可能的”。目前,降低AI模型开发成本已经是最重要的行业趋势之一。过去一年,OpenAI仍然未发布行业期待已久的下一代模型GPT-5,而是发布了GPT-4o、4o mini等一系列低成本的轻量化模型。山姆·奥特曼(Sam Altman)也表示,部署和维护高级AI模型造成了OpenAI的运营成本不断上升,无论是出于公司持续运营的需要,还是实现AI人人可用的目标,都需要进一步降低成本。而对于国内来说,先进算力受限国内AI公司必须直面的现实。从2023年开始,国内掀起了智算中心的基建热潮。但由于当前国产GPU在单卡性能不足,与英伟达产品相比至少存在1至2代的差距,国内建设智算中心时需要通过堆更多的GPU来实现所需的算力,这不仅加大了建设难度,又进一步拉高了成本。一位参与过国产智算中心建设的AI公司负责人曾告诉记者,目前真正有能力建设万卡智算中心的厂商寥寥无几,国内算力建设的首要目标仍然增加供给,保障“能用”。 如何在算力受限的情况下降低模型成本,DeepSeek的“AI拼多多”模式给行业提供了一种可能。根据DeepSeek开发团队介绍,V3模型采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术降低成本。这些技术对于行业探索一条低成本的训练模式具有借鉴意义,但要复制并不容易。国内一家AI芯片公司创始人告诉记者,DeepSeek这次用到的FP8训练技术是一个亮点。FP8是一种使用8位浮点数表示的格式,相比于传统的16位(FP16)和32位(FP32)浮点数,FP8是一种新兴的低精度训练方法,通过减少数据表示所需的位数。显著降低了内存占用和计算需求。目前除了DeepSeek,国内公司如零一万物,国外的谷歌、Inflection AI都已将这种技术引入模型训练与推理中。上述芯片公司创始人称,引入FP8后,也有可能导致模型计算导致在某些情况下精度不足,造成性能不稳定,需要开发团队去进一步调优。“FP8接下来很有希望成为一种行业趋势,会有更多的算力芯片厂商提供原生的FP8算力”。另一位GPU芯片公司CEO认为,DeepSeek V3作为DeepSeek第三代模型,模型开发本身涉及大量的计算资源和数据支持,而幻方能够为其储备上万张英伟达显卡用于算力基建,这对许多中小型团队或公司来说都是一个障碍。但在他看来,最核心、也最难复制的是人才储备。DeepSeek核心架构用到的技术都具有相当高的创新门槛,前期开发和后期的调优升级都需要人才积累。DeepSeek在人才储备上也独具特点。据创始人梁文峰此前接受采访时介绍,DeepSeek V2模型的开发团队没有海外回来的人,都是一批本土的“Top高校的应届毕业生、没毕业的博四、博五实习生,以及些毕业才几年的年轻人”,小米近期被报道以千万年薪招聘DeepSeek研究员、V2模型的开发团队成员罗福莉直接证明了这些年轻人才的价值。梁文峰称,顶尖人才在中国是被低估的,而正因为DeepSeek“做最难的创新”,创新对于顶级人才具有特殊的吸引力。技术围墙背后的商业想象力总体而言,在算力基础和训练技巧之外,DeepSeek-V3在技术上的核心亮点仍然是高效的架构设计,也就是在V2身上便得到验证的MoE+MLA。DeepSeekMoE采用了更细粒度的专家分配和共享专家机制,每个MoE层包含1个共享专家和256个路由专家,以确保计算的高效;MLA通过低秩压缩技术减少了推理时的Key-Value缓存,提高了推理效率。与此同时,DeepSeek-V3首次引入了无辅助损失的负载均衡策略。传统方法中,强制负载均衡将导致模型性能下降,但通过为每个专家引入偏置项,动态调整路由决策,可以确保专家负载均衡。实际上,一个大模型的架构设计与其想要达成的目标高度相关,因此并不能泛泛而谈其他模型厂商如何跟进这套技术策略。但如果按照同等目标而言,一名大模型行业从业者对界面新闻记者表示,“MoE+MLA”虽然难,但是能够复现,在V3中,更难的是无辅助损失的负载均衡策略,因为它需要以一个训练得足够好的MoE模型为前提。“这个比较看模型训练的能力,就算DeepSeek的人手把手教也不一定能搞定。”面对DeepSeek-V3的爆火,也有观点提出应该冷静看待,不要过度神话。一名AI大模型投资人表示,DeepSeek-V3的确是现在看来最好的开源模型。尤其在国内,它最直接可对标的是通义千问模型系列,从技术实现来看,其更大总参数对概念的建模更精准,更小的激活量又让推理成本更低。 但在GPT-4发布近两年后,整个开源模型框架及算法系统也在同步迭代,他认为DeepSeek-V3所达成的效果可以视为顺其自然的事情。 相比而言,更值得思考的是DeepSeek的商业触角会向哪片领域进一步延伸。目前,DeepSeek仍以开源模型API接口为主服务开发者和企业,在更具体的ToB(企业端)和ToC(用户端)应用场景,它还没有明确动作,但在部分层面也有迹可循。 据记者了解,在第三方招聘平台上,幻化量方在众多系统及算法研发岗位中释放出了“DeepSeek-客户端研发”、“DeepSeek C端产品的视觉引导者”,以及面向Web端及移动端AI产品的“UI视觉设计师”等。 其中,客户端研发岗要求负责DeepSeek iOS及安卓开发工作。而视觉产品岗在“期望特质”中描述到,“能在某个大主题的背景下细化创作,比如我们的App可以是交互偏向的人文关怀、或者去突出科技感、也可能会走偏向办公效率的方向。”这意味着,DeepSeek或许已经在筹备自己的C端产品,并且有明确的应用方向。从模型层面来看,DeepSeek-V3作为开源模型,在数学和代码两项能力上已经非常突出,在补齐产品端能力后,或将在相关领域迅速形成自己的独特优势。另外,公司对于AGI(通用人工智能)目标的追求明确,团队必定会不断拉升基座模型性能。也就是说,尽管还看不清DeepSeek的最终抉择,但它自身具备的模型实力和成本优势,无论切入哪一个领域都可能对同赛道公司形成压力。“从根本上来说,DeepSeek对没有找到自己核心场景的大模型公司都是一个巨大的威胁。”前述投资人表示。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:节振国

TOP1热点:印度奸杀案引发30万医护罢工抗议

  根据国务院联防联控机制有关部署,9月10日至10月31日,乘坐飞机、高铁、列车、跨省长途客运、跨省客运船舶等交通工具需查验48小时内核酸检测阴性证明,建议广大乘客提前做好相关准备,确保出行顺畅。。

  9月27日0时—24时,宁夏全区新增确诊病例4例(中卫市4例),无症状感染者205例,其中中卫市181例(中宁县140例、沙坡头区33例,海原县8例),吴忠市17例(利通区16例,红寺堡区1例),银川市5例(西夏区3例,兴庆区1例,金凤区1例),固原市2例(原州区2例),均在管控状态发现,无新增疑似病例。社会面连续5日未发现阳性人员。

TOP2热点:7岁女孩用防晒喷雾后接近白肺

  根据国务院联防联控机制有关规定,经专家组综合评估研判,佳木斯市应对新型冠状病毒肺炎疫情工作领导小组指挥部决定,自2022年9月28日19时起,将原中风险区富锦市幸福社区时代鑫城小区升为高风险区。新增富锦市太东林场、富锦市二龙山镇太东村为中风险区,其他区域风险等级不变。

  9月27日21:46,到达合肥火车站,落地检后(核酸检测阴性),其儿子自驾接站,于22:30到达新站区绿都少荃府小区儿子家中,当天未外出。

TOP3热点:印尼女子被近4米长鳄鱼吃掉爸爸让我爱妈妈小新外婆的心机是

  9月27日21:46,到达合肥火车站,落地检后(核酸检测阴性),其儿子自驾接站,于22:30到达新站区绿都少荃府小区儿子家中,当天未外出。

  9月28日0—24时,31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例170例。其中境外输入病例64例(广东21例,上海13例,福建10例,北京5例,山东5例,江苏4例,四川2例,天津1例,内蒙古1例,辽宁1例,河南1例),含14例由无症状感染者转为确诊病例(广东7例,北京2例,山东2例,江苏1例,河南1例,四川1例);本土病例106例(贵州38例,广东18例,天津13例,黑龙江9例,云南6例,四川5例,西藏5例,山西3例,山东2例,宁夏2例,内蒙古1例,江苏1例,浙江1例,河南1例,陕西1例),含14例由无症状感染者转为确诊病例(四川4例,贵州4例,广东3例,江苏1例,山东1例,河南1例)。无新增死亡病例。无新增疑似病例。

TOP4热点:沃尔玛回应减持京东斗1斗2神界慰问所活动详情

  华山官网26日公告称,对外省游客或有旅居史人员必须查验3日内陕西省内医疗机构出具的2次及以上的核酸检测阴性证明,方可入园。华山官网强调,必须在陕西省内待满3天,且核酸检测正常,并于游玩日当日持24小时内核酸采样或核酸阴性证明进入景区。

  根据国务院联防联控机制有关规定,经专家组综合评估研判,佳木斯市应对新型冠状病毒肺炎疫情工作领导小组指挥部决定,自2022年9月28日19时起,将原中风险区富锦市幸福社区时代鑫城小区升为高风险区。新增富锦市太东林场、富锦市二龙山镇太东村为中风险区,其他区域风险等级不变。

TOP5热点:医保断缴后该如何再参保?官方回应幸福宝8008免费章节小说

  华山官网26日公告称,对外省游客或有旅居史人员必须查验3日内陕西省内医疗机构出具的2次及以上的核酸检测阴性证明,方可入园。华山官网强调,必须在陕西省内待满3天,且核酸检测正常,并于游玩日当日持24小时内核酸采样或核酸阴性证明进入景区。

  此外,内蒙古额济纳旗26日通告,今年各景区景点均不发售纸质门票,实行线上实名制售票,每日限量预定发售。游客须提前48小时预约景区景点电子门票等。

TOP6热点:凉山多地出现人贩子?假的你啊你啊普通话翻译

  稻城亚丁景区26日提示,省外低风险区人员入州后严格落实“3天3检”,最后1检保持在24小时内,核酸检测阴性证明未出前不外出,不聚集,不入园。

  当日解除医学观察的无症状感染者885例,其中境外输入105例,本土780例(西藏291例,贵州202例,广西58例,江西28例,山东28例,湖北23例,四川23例,内蒙古22例,辽宁20例,新疆19例,甘肃14例,黑龙江11例,陕西10例,吉林6例,天津5例,河北5例,河南4例,海南4例,青海2例,上海1例,江苏1例,浙江1例,重庆1例,云南1例);当日转为确诊病例28例(境外输入14例);尚在医学观察的无症状感染者10820例(境外输入715例)。

TOP7热点:全红婵给妈妈买手机:要最好的老版黄品汇

  境外输入现有确诊病例632例(无重症病例),无现有疑似病例。累计确诊病例24020例,累计治愈出院病例23388例,无死亡病例。

  累计收到港澳台地区通报确诊病例6787570例。其中,香港特别行政区413656例(出院84270例,死亡10148例),澳门特别行政区793例(出院787例,死亡6例),台湾地区6373121例(出院13742例,死亡10950例)。(总台央视记者史迎春)

TOP8热点:球员累积转会费排行榜:内马尔居首草莓+香蕉+丝瓜+绿巨人+秋6

  累计收到港澳台地区通报确诊病例6787570例。其中,香港特别行政区413656例(出院84270例,死亡10148例),澳门特别行政区793例(出院787例,死亡6例),台湾地区6373121例(出院13742例,死亡10950例)。(总台央视记者史迎春)

  9月27日0—24时,全省新增本土无症状感染者转确诊病例1例(为省外协查途经人员点对点闭环管理),新增本土无症状感染者5例(平顶山市汝州市3例,开封市龙亭区1例,焦作市武陟县1例)。

TOP9热点:美民主党大会 警方逮捕超50名抗议者松下纱荣子四小时服务

  9月28日10时左右,陈某某到小区物业办公室办理业务后,出小区西门沿围墙散步至南门返回小区,再次到物业办公室办理业务,10:50返回家中,至13:30隔离管控未再外出。

  当日解除医学观察的无症状感染者885例,其中境外输入105例,本土780例(西藏291例,贵州202例,广西58例,江西28例,山东28例,湖北23例,四川23例,内蒙古22例,辽宁20例,新疆19例,甘肃14例,黑龙江11例,陕西10例,吉林6例,天津5例,河北5例,河南4例,海南4例,青海2例,上海1例,江苏1例,浙江1例,重庆1例,云南1例);当日转为确诊病例28例(境外输入14例);尚在医学观察的无症状感染者10820例(境外输入715例)。

TOP10热点:辽宁洪灾村一夜出现51米机械化桥大学生4

  根据国务院联防联控机制有关部署,9月10日至10月31日,乘坐飞机、高铁、列车、跨省长途客运、跨省客运船舶等交通工具需查验48小时内核酸检测阴性证明,建议广大乘客提前做好相关准备,确保出行顺畅。

  去哪儿平台数据显示,9月以来,“十一”期间平均支付价格不断增长,9月15日平均支付价格是一周前的三倍,不少航线9月30日出发机票价格已从2-3折飙至全价。

发布于:武宁县