环球新闻-"申鹤开襟乳液狂飙"-显卡并不愁卖?黄仁勋首次公开回应DeepSeek,点赞DeepSeek模型推理能力,指出申鹤开襟乳液狂飙后训练是“智能核心”_ZAKER新闻

申鹤开襟乳液狂飙显卡并不愁卖?黄仁勋首次公开回应DeepSeek,点赞DeepSeek模型推理能力,指出申鹤开襟乳液狂飙后训练是“智能核心”_ZAKER新闻

申鹤开襟乳液狂飙显卡并不愁卖?黄仁勋首次公开回应DeepSeek,点赞DeepSeek模型推理能力,指出申鹤开襟乳液狂飙后训练是“智能核心”_ZAKER新闻

显卡并不愁卖?黄仁勋首次公开回应DeepSeek,点赞DeepSeek模型推理能力,指出申鹤开襟乳液狂飙后训练是“智能核心”_ZAKER新闻

  2010年,工程项目老板王某承揽凤山县某道路建设工程,在施工建设过程中遇到纠纷问题,工程难以推动,王某就找到了时任县国土资源局副局长杨平,请求其出面帮忙协调。在杨平多次到场出面协调下,该工程得以顺利开展。为表感谢,王某给杨平送去了5万元的“感谢费”。

在   DeepSeek   出圈将近一月之久,英伟达 CEO 黄仁勋终于首次公开回应 DeepSeek。当地时间 2 月 21 日,在美国 AI 数据情报平台 DataDirect Networks(DNN)公司举办的名为 "Beyond Artificial" 的主题活动上,DNN 的 CEO 亚历克斯 · 布扎里(Alex Bouzari)和黄仁勋进行了面对面对话。对话中,黄仁勋表示 DeepSeek 模型在推理阶段表现出色,但是他认为后训练才是智能的核心。同时,黄仁勋表示:"DeepSeek 从天而降,人们说不再需要进行任何计算,事实恰恰相反。因为 DeepSeek 所在做的让人们意识到,大模型可以比我们想象得更有效。因此它正在扩张和加速 AI 的使用。"(来源:https://www.linkedin.com/events/7293474398047502337/comments/)那么,为什么黄仁勋会说后训练才是智能的核心?为何黄仁勋能够如此淡定?下面为大家尝试揭开上述问题的答案。Scaling Law 放缓,DeepSeek R1 在后训练阶段 " 闪现智慧 "阿联酋阿布扎比先进技术研究所研究员邹航表示,大语言模型的训练成本主要集中在预训练阶段,通常需要千卡甚至万卡集群在万亿级别的词元上训练数百万个 GPU 小时。而后训练的成本的数量级一般远小于预训练。比如 DeepSeek V3 在 2048 张英伟达 H800 集群上训练了 14.8 万亿个词元,一次完整训练的成本约为 533 万美金。单次后训练只花费约 1 万美金,仅相当于预训练的千分之二,同时模型并非一定要在万卡集群上训练。因此,Deep Seek R1 模型的后训练成本肯定高于 DeepSeek V3 模型,但是单次训练成本的数量级应该是相近的。邹航指出,目前我们能够明显观察到预训练的缩放定律(Scaling Law)正在放缓。例如,马斯克的 xAI 公司刚刚发布的大模型 Grok3,虽然在 20 万个英伟达   H100 上完成训练,但是该模型相比 GPT-4o 以及 DeepSeek V3 的提升却是相当有限。所以,在预训练边际成本正在急速加大的同时,边际收益却几乎陷入停滞。因此,OpenAI   于 2024 年 9 月份发布的 o1 模型所代表的推理时缩放(inference-time scaling),正在成为业界的新范式。然而,在 OpenAI o1 模型发布之后,业界思路一直停留在过程奖励模型以及蒙特卡洛树搜索上。在 OpenAI o1 发布之后长达 3 个多月的空白期里,据邹航所知围绕 OpenAI o1 类模型的复现模型,几乎都无法达到与 OpenAI o1 相当的水平。这在以日为更新单位的大模型领域是非常难以想象的。推理时缩放的难点在于,大模型的内嵌思维链到底该如何设计。业界早先的思路之所以效果不好(这一点在 DeepSeek R1 的技术报告中也被证实),主要是因为过程奖励监督以及蒙特卡洛树搜索很大程度上限制了模型推理时思维链的结构。类比一下,人类在思考复杂问题时,思路是千变万化的,并不存在一个固定的结构。因此,邹航认为 DeepSeek 之所以能够轰动全球,包含了两个缺一不可的要素:第一,DeepSeek V3 模型通过工程技术以及算法的共同优化,大大降低了预训练的成本;第二,DeepSeek R1 独立探索出了有效的推理时缩放范式,其中最核心的发现是在数学、代码等具有明确答案的推理任务中,仅仅依靠强化学习(而非人类标注数据监督)的奖励,模型便能实现顿悟,展现出类似人类思考中的反思、多角度验证及反证等认知过程。这一核心思路结合后续精巧的强化学习算法,使得基于 DeepSeek V3 模型进行后训练得到的 DeepSeek R1 模型,达到甚至超过了 OpenAI o1 的效果。因此,如果没有 DeepSeek R1 媲美 OpenAI o1 的惊人表现,那么 DeepSeek V3 中训练成本优化的意义显然会大大减低。所以,邹航认为在预训练缩放规律放缓的前提下,基本可以认为 DeepSeek R1 所代表的深度思考类大模型的智慧是在后训练过程中出现的。需要说明的是,这里的智慧和知识有着明显区别,因为知识通常是在预训练阶段获得的。中国人民大学陈旭教授则表示,所谓的开悟指的是,当模型在前期训练到一定程度时,突然展现出类似人类的自我反思和策略调整能力。此前,大模型开发者已经在实验中观察到这类现象。对于其背后的原理,目前领域内并没有达成共识,仍然处于观察阶段。DeepSeek R1 浪潮将会刺激高性能 GPU 的需求此外,很多人关注到 DeepSeek V3 的预训练成本较高,后训练成本较低。这是因为基础模型在训练的时候需要非常多的语料,比如可能需要接近 1T 的 Token。而使用人类反馈强化学习(RLHF,Reinforcement Learning fromHuman Feedback)的话,就不用太多的语料训练。那么,后训练一定会消耗更多资源吗?对于 DeepSeek 以及 OpenAI 这样的产业级大模型来说,的确会消耗比较多的资源。但如果训练稍微小的模型,所消耗的资源就会比较少。以 DeepSeek 的 R1 模型为例,它在推理阶段会进行大量的思考。当你向 DeepSeek R1 提出一个问题,在给出最终问题之前,它会在回答框里先输出一段由灰色字体组成的段落,这段灰色字体代表着它的思考过程,即模型正在输出思维链。那么,它推理的过程越长,消耗的算力就越多。而此前英伟达的股价大跌事实上并不是一个理性的表现。陈旭认为,之所以 DeepSeek 能够在短期内影响英伟达的股价,是因为 DeepSeek 在训练上找到了一条捷径,这让它在预训练阶段节约了很多算力,也许让大家看到了降低算力成本的希望。但是,对于一家小公司或者一个小团队来说,这依然是非常多的算力。举个不恰当的例子,以星巴克的杯型为例,以前需要的可能是 " 超大杯的算力 ",现在需要的是 " 大杯的算力 "。假如一直按照这样的趋势来发展,很有可能发展为只需要 " 中杯的算力 "。那么,预训练和后训练到底谁重要?陈旭表示,他认为目前很难讲两者谁更重要。OpenAI 前首席科学家伊利亚 · 苏茨克维(Ilya Sutskever)曾表达过预训练已经走到尽头的说法,即仅仅依靠预训练将无法再提高预训练的性能。正因此,人们开始越来越侧重于在模型的推理阶段,使用测试时扩展定律(inference time scaling)来做更复杂的推理,以此来提高模型性能。但是,如果没有针对基座模型开展大规模的训练,就很难实现较好的推理能力。(来源:资料图)那么,DeepSeek 是否真的极大影响了英伟达?陈旭表示,英伟达的股价之所以受到影响,可能是因为人们认为, DeepSeek 找到了训练大模型的捷径,与此同时,DeepSeek 开源了更多模型的细节,让人们更有信心做复现并进行进一步的开发。自从 OpenAI 于 2022 年末以闭源形式出圈,到 DeepSeek 于 2025 年初以开源形式出圈以来,领域内一直在自行摸索,有时甚至不知道往哪儿发力。在这段时间内大家完全是两眼一抹黑,既不清楚未来的路,也不知道能否探索出来,就好比所有大模型开发者都站在一个迷雾森林里,没有人知道从哪条路可以走出森林。而 DeepSeek 的开源,等于为大家提供了一条 " 公开的路 ",让大模型开发者沿着这条路并辅以适当的 " 修路 ",就可以往降本增效的方向去努力。这极大增加了大模型开发者的信心,正是这种信心让大家觉得算力还会得到进一步降低。那么,为什么仍然需要英伟达显卡?对于中国来说,如果美国一直封禁英伟达的高端显卡,其实这才是真正会让英伟达感到担心的事情。" 因为这是锁不住的,像华为以及其他公司研发的芯片,目前已经具备还算不错的性能。美国越是封锁,中国人的能力被激发得越快。" 陈旭表示," 目前,中国和美国是两个大模型研发投入较高的国家,而只有美国撤销封锁禁令,才会对英伟达产生利好。同时,我非常期待国产显卡的快速发展。"而随着外部企业甚至连中小学都要接入 DeepSeek 模型,这必将产生更多算力需求。(来源:资料图)对于一款大模型来说,它在预训练阶段所使用的算力是相对固定的,即大模型完成训练之时,也是预训练结束使用算力之时。而推理阶段发生于大模型回答问题的时候,每当 DeepSeek 回答一位真人用户的问题,它就会进行一次推理。以腾讯的混元大模型为例,其已经接入 DeepSeek 的 R1 模型,这就意味着腾讯将 DeepSeek R1 部署到了自家服务器上,那么这时腾讯就要为模型推理时所使用的算力付费。同理,目前百度搜索也已经已经接入 DeepSeek R1,那么百度搜索就要为算力付费。也就是说,假如有越来越多的外部企业接入 DeepSeek,必然要使用更多的算力,进而必然要使用更多的显卡。邹航也表达了同样的观点。他表示,DeepSeek R1 类深度思考模型在推理能力的增强上并非毫无代价。相对于没有应用推理时计算缩放的大模型,DeepSeek R1 必须先思考(即便思考时间非常短暂)然后再回答。DeepSeek R1 内嵌的思维链就像人类在思考时打腹稿或者把思路写在草稿纸上。而思维链的生成过程实际上也是推理的一部分。因此,显而易见的是此类模型在数学等复杂推理类任务时,推理成本会急速上升。例如,DeepSeek R1 在解决数学竞赛难度的问题上思考时间常常会长达数分钟,OpenAI o3 在高推理成本的设定下单次推理的成本就高达数千美金。短期看来,近期大规模部署 DeepSeek R1 类深度思考模型的浪潮反而会刺激对于英伟达高性能 GPU 的需求。而从长期来看,DeepSeek 在 V3 模型探索中所展现出来的训练以及推理成本优化,更是会让业界进一步推进大模型各方面成本的降低,从而让大模型能够走入寻常百姓家。对于英伟达来讲,这似乎也不算坏消息。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:刘造时

TOP1热点:王毅会见俄罗斯外长拉夫罗夫

  虽然中国只有3艘航母,而美国有11艘,但北京建造军舰计划的步伐十分迅速。美方预测,到2035年,中国战舰的数量将比目前多出120艘。。

  广西防城港市防汛抗旱指挥部办公室7月17日发布通告,受今年第4号台风“泰利”影响,防城港市将出现暴雨、大暴雨,局地特大暴雨,叠加风暴潮和海水顶托,城市内涝风险较大,并可能伴随12级及以上大风。经研究决定,自7月18日0时起至19日0时止,在全市范围内采取防台风紧急措施。具体如下:

TOP2热点:从“三大案”到特朗普“复仇”:美国会出现“白宫魔咒”吗?

  在供给端,除投资数据加速下行外,房屋施工面积、房屋新开工面积均同比下降。但在“保交楼”政策作用下,近期房屋竣工面积一直保持正增长。

  中国社科院亚太与全球战略研究院研究员、东南亚研究中心主任许利平14日对《环球时报》记者表示,本届东盟外长会及系列会议对促进中国与东盟关系发展起到积极推动作用。会议通过了关于中国加入《东南亚友好合作条约》20周年纪念联合声明和加快达成“南海行为准则”指针文件,对过去20年来双方关系给予了充分肯定,为未来深化合作奠定了基础,指明了方向。此外,通过数场多边和双边会晤,与会国对存在的分歧进行了沟通,这有助于维护东盟地区的和平稳定。

TOP3热点:国家金融监管总局:要保持对民营企业稳定有效的增量信贷供给∪v板怎么贴在墙面上

  预计,台风中心将以每小时15公里左右的速度向西北方向移动,强度逐渐增强,并于17日夜间在广东台山到海南文昌一带沿海登陆(台风级或强台风级,35-42米/秒,12-14级),18日进入北部湾,以后趋向越南北部沿海和广西沿海。

  对于中国申请加入CPTPP,该协定内部早就传出欢迎的声音。据日本《朝日新闻》报道,马来西亚国际贸易和工业部长东姑扎夫鲁在5月访问日本期间表示,马方欢迎中国加入CPTPP,中国是马来西亚和东南亚最大的贸易伙伴,深化与中国的经济伙伴关系可以为民众带来利益。达米恩·奥康纳去年4月参加博鳌亚洲论坛2022年年会时表示,非常赞赏中国申请加入CPTPP。

TOP4热点:100比58大胜日本完成复仇,中国男篮晋级亚洲杯正赛金银瓶4葡萄熟了

  “有了高德的流量支持,我们可以抽出更多的精力放在擅长的领域,深耕区域,强化规范引领,提升服务效能。两年以来,风韵出行高速成长,订单量翻了5番。”风韵出行董事长杜玲方说。

  董倩:今年上半年,我国货物进出口总额201016亿元,同比增长2.1%,但是单拿出6月份来看,是同比下降6.0%,这说明什么?接下来又该怎么办?

TOP5热点:100比58大胜日本完成复仇,中国男篮晋级亚洲杯正赛好听的歌曲推荐语录

  中国现代国际关系研究院涉台事务研究中心主任谢郁认为,面对面的深入交流可以起到融合感情、消弭隔阂、深化两岸人民的心灵契合,夯实民族精神的引领作用。以青年交流作为两岸重启交流后的先行项目,实际上是为两岸交流注入了来自民间青年一代的新动力。

  7月14日,纵览新闻记者以消费者身份联系了永城市多家餐饮店询问是否能销售凉皮。店主们证实,该市的确要求最近下架凉皮不得售卖。一名店主称,他听到的原因是可能有人批发凉皮存放时间过长,没有保存好,导致变质吃“坏”人了。另一名店主称,要求禁售的时间大概已有四天时间,原因她不是很清楚,但对于政府的要求她表示支持,也希望尽快查清楚。也有店主称,他店里的凉皮是自己店里制作的,因为属于现做现卖,没有受到限制,可以进行销售。

TOP6热点:深一度|新赛季“撞墙”?不利因素夹击,郑钦文有时间慢慢来广材网-建筑材料价格查询

  过去,大多数人会在惯用的一两个网约车平台上叫车,而现在更多人会直接打开高德地图、腾讯地图、美团等app“一键下单,多平台叫车”。

  黄奎博指出,青年交流是两岸民间交往中非常重要的一环,让两岸的年轻世代开始承担未来的部分责任,提早认识对方、增进互信,对两岸关系发展有较好的正面作用。

TOP7热点:直播丨我回家了!“国家的孩子”赵丽俊在合肥与亲姐弟相认一边亲着一面膜下怎么回事

  2021年8月,在姬赓获得政府特殊津贴数月前,石家庄市政府工作报告中就提到,“要提升城市文化软实力,讲好石家庄故事,打造‘Rock Home Town’为独特品牌的现代音乐新时尚”。

  该人士透露,最近两年来,公司未在公开市场获取任何项目。且由于再售项目减少,公司已做出多轮裁员行为。他表示,希望政策端进一步加强对需求的提振,从而使市场有所恢复。但公司也需做好准备,来应对市场风险继续出清的阶段。

TOP8热点:哨兵计划正式启动!澎湃3·15消费维权线索征集中canopen国产

  2021年8月,在姬赓获得政府特殊津贴数月前,石家庄市政府工作报告中就提到,“要提升城市文化软实力,讲好石家庄故事,打造‘Rock Home Town’为独特品牌的现代音乐新时尚”。

  价格方面,根据统计局发布的数据,全国70个大中城市中,从4月开始,房价环比下降的城市数量逐月增加。到6月,新房价格环比下降的城市有38个,二手房价格下降的城市更是达到63个。

TOP9热点:特朗普威胁乌克兰“国将不国”,还称泽连斯基是喜剧演员锕锵锵锵铜铜铜铜好多水

  对于中国申请加入CPTPP,该协定内部早就传出欢迎的声音。据日本《朝日新闻》报道,马来西亚国际贸易和工业部长东姑扎夫鲁在5月访问日本期间表示,马方欢迎中国加入CPTPP,中国是马来西亚和东南亚最大的贸易伙伴,深化与中国的经济伙伴关系可以为民众带来利益。达米恩·奥康纳去年4月参加博鳌亚洲论坛2022年年会时表示,非常赞赏中国申请加入CPTPP。

  广西水文中心预测,7月17日到21日:受今年第4号台风“泰利”影响,广西桂南大部、桂西部分地区江河可能出现2到12米的明显涨水过程,其中左江支流明江、黑水河,右江支流武鸣河,红水河支流清水河,北仑河、防城河及南流江上游等桂南沿海江河可能出现警戒水位左右洪水,北海、防城港、钦州、崇左、南宁、玉林及百色等市暴雨区部分中小河流可能出现超警洪水。

TOP10热点:官方回应“环卫招聘要求35岁以下”:确实不合理,立即整改大奉打更人插花弄玉的背景故事

  7月14日,央行货币政策司司长邹澜在“2023年上半年金融统计数据情况新闻发布会”上称,“按照市场化、法治化原则,我们支持和鼓励商业银行与借款人自主协商变更合同约定,或者是新发放贷款置换原来的存量贷款。”

  新组建的中央港澳工作办公室,承担在贯彻“一国两制”方针、落实中央全面管治权、依法治港治澳、维护国家安全、保障民生福祉、支持港澳融入国家发展大局等方面的调查研究、统筹协调、督促落实职责。中央港澳工作办公室在国务院港澳事务办公室基础上组建,作为党中央办事机构。

发布于:得荣县