14MAY18_XXXXXL56ENDIAN手机_政治新闻_复旦大学副教授郑骁庆谈DeepSeek:AI行14MAY18_XXXXXL56ENDIAN手机业不只有“规模法则”,开源将加速模型更新,芯片需求可能不降反增_ZAKER新闻

14MAY18_XXXXXL56ENDIAN手机复旦大学副教授郑骁庆谈DeepSeek:AI行14MAY18_XXXXXL56ENDIAN手机业不只有“规模法则”,开源将加速模型更新,芯片需求可能不降反增_ZAKER新闻

14MAY18_XXXXXL56ENDIAN手机复旦大学副教授郑骁庆谈DeepSeek:AI行14MAY18_XXXXXL56ENDIAN手机业不只有“规模法则”,开源将加速模型更新,芯片需求可能不降反增_ZAKER新闻

复旦大学副教授郑骁庆谈DeepSeek:AI行14MAY18_XXXXXL56ENDIAN手机业不只有“规模法则”,开源将加速模型更新,芯片需求可能不降反增_ZAKER新闻

  景建峰中将表示,上午美国国防部长奥斯汀在大会发言中阐述了美方的观点,明里暗里多次对中方进行不实指责,对此我们绝不接受,坚决反对。

每经记者:宋欣悦 每经编辑:高涵图片来源:视觉中国近日,中国 AI 初创公司深度求索(DeepSeek)在全球掀起波澜,硅谷巨头恐慌,华尔街焦虑。短短一个月内,DeepSeek-V3 和 DeepSeek-R1 两款大模型相继推出,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖模型相当。作为 "AI 界的拼多多 ",DeepSeek 还动摇了英伟达的 " 算力信仰 ",旗下模型 DeepSeek-V3 仅使用 2048 块英伟达 H800 GPU,在短短两个月内训练完成。除了性价比超高,DeepSeek 得到如此高的关注度,还有另一个原因——开源。DeepSeek 彻底打破了以往大型语言模型被少数公司垄断的局面。被誉为 " 深度学习三巨头 " 之一的杨立昆(Yann LeCun)在社交平台 X 上表示,这不是中国追赶美国的问题,而是开源追赶闭源的问题。OpenAI 首席执行官萨姆 · 奥尔特曼(Sam Altman)则罕见地表态称,OpenAI 在开源 AI 软件方面 " 一直站在历史的错误一边 "。DeepSeek 具有哪些创新之处?DeepSeek 的开源策略对行业有何影响?算力与硬件的主导地位是否会逐渐被削弱?针对上述疑问,《每日经济新闻》记者(以下简称 NBD)专访了复旦大学计算机学院副教授、博士生导师郑骁庆。他认为,DeepSeek 在工程优化方面取得了显著成果,特别是在降低训练和推理成本方面。" 在业界存在着两个法则,一个是规模法则(Scaling Law),另外一个法则是指,随着技术的不断发展,在既有技术基础上持续改进,能够大幅降低成本。"对于 DeepSeek 选择的开源策略,郑骁庆指出,"开源模型能够吸引全世界顶尖人才进行优化,对模型的更新和迭代有加速作用。" 此外,开源模型的透明性有助于消除使用安全的顾虑,促进全球范围内人工智能技术的公平应用。尽管 DeepSeek 的模型降低了算力需求,但郑骁庆强调,AI 模型仍需要一定的硬件基础来支持大规模训练和推理。此外,大规模数据中心和预训练仍是 AI 发展的重要组成部分,但未来可能会更注重高质量数据的微调和强化学习。郑骁庆 图片来源:受访者供图规模法则之外,还有另一个法则NBD:微软 CEO 萨提亚 · 纳德拉在微软 2024 年第四季度财报电话会上提到,DeepSeek" 有一些真正的创新 "。在您看来,DeepSeek 有哪些创新点呢?郑骁庆:在深入研读 DeepSeek 的技术报告后,我们发现,DeepSeek 在降低模型训练和推理成本方面采用的方法,大多基于业界已有的技术探索。比如,键值缓存(Key-Value cache)管理,对缓存数据进行压缩。另一个是混合专家模型(MoE,Mixture of Experts),实际上是指,在推理的时候,只需使用模型的某一个特定的模块,而不需要所有模型的网络结构和参数都参与这个推理过程。此外,Deepseek 还采用了 FP8 混合精度训练的技术手段。这些其实之前都有所探索,而DeepSeek 的创新之处就在于,很好地将这些能够降低技术和推理成本的技术整合起来。NBD:您认为 DeepSeek 现阶段的技术水平上是否已经接近或者达到了全球领先水平呢?郑骁庆:DeepSeek 目前在现有技术基础上,包括网络结构训练算法方面,实现了一种阶段性的改进,并非是一种本质上的颠覆性创新,这一点是比较明确的。其改进主要是针对特定任务,例如,DeepSeek 在数学、代码处理以及推理任务等方面,提出了一种在性能与成本上相对平衡的解决方案。然而,它在开放领域(open domain)上的表现,优势并不是十分明显。在业界存在着两个法则,一个是规模法则(Scaling Law),即模型的参数规模越大、训练数据越多,模型就会更好。另外一个法则是指,随着技术的不断发展,在既有技术基础上持续改进,能够大幅降低成本。比如说,以 GPT-3 为例,早期它的成本就很高。但随着研究的深入,研究人员逐渐清楚哪些东西是工作的,哪些东西是不工作的。研究人员基于过往的成功经验,研究目标会逐渐清晰,成本实际上也会随之降低。DeepSeek 的成功,我更觉得可能是工程优化上的成功。当然也非常高兴看到中国的科技企业在大模型的时代,在性能与成本的平衡方面取得了显著进展,不断推动大模型的使用和训练成本下降。符合刚才我提到的第二个法则的情况之下,走到世界前列。DeepSeek 有效平衡性能和成本,但对芯片需求影响不大NBD:DeepSeek 旗下模型的最大亮点之一是在训练和推理过程中显著降低了算力需求。您认为这种低成本大效能的技术创新,长期来看,会对英伟达等芯片公司产生什么影响呢?郑骁庆:我个人认为,它并不会对芯片采购量或出货量产生太大的影响。首先,像 DeepSeek 或者类似的公司,在寻找有效的整合解决方案时,需要进行大量的前期研究与消融实验。所谓的消融实验,即指通过一系列测试来确定哪个方案是有效的以及哪些方案的整合是有效的。而这些测试就非常依赖于芯片,因为芯片越多,迭代次数就越多,就越容易知道哪个东西工作或者哪个东西不工作。比如说,DeepSeek 的训练预算不到 600 万美元。它的技术报告中提到,不到 600 万美元的资金,是按照 GPU 的小时数(每小时两美元)来估算的。也就是说,他们基于之前的很多研究,把整条训练流程都已经搞清楚的情况之下(哪些是工作,哪些不工作的),重新走一遍。它的 GPU 的运算速度是多少,运算小时数是多少,然后再乘以每小时两美元得到的这个结果。报告中也提到了,600 万美元其实没有包含先期研究成本,比如,在结构上的探索、在算法上的探索、在数据上采收集上的探索的成本,也没有涵盖消融实验的开销以及设备的折旧费。所以,我个人判断,对英伟达其实影响不是那么大。另外,DeepSeek 的研究表明,很多中小企业都能用得起这样的大模型。尽管训练成本的下降可能会暂时减少对 GPU 的需求,但大模型变得更加经济,会使原本因为模型成本太高而不打算使用大模型的企业,加入到使用模型的行列,反而会增加对于芯片的需求。NBD:随着 DeepSeek-V3、R1 等低成本大模型的问世,传统的大规模数据中心和高投入的大模型训练是否仍然值得继续推进呢?郑骁庆:我觉得仍然值得。因为首先 DeepSeek 模型是语言模型,还没有扩展到多模态,甚至于我们以后要研究世界模型。那么一旦引入多模态之后,对算力的要求和基础设施要求就会成指数的增长。因为人工智能不可能仅仅局限于语言体本身,语言只是智慧的一种表现,而在这方面的探索仍然需要这样的一个基础设施。刚才也提到 DeepSeek 其实是在很多先期研究的基础之上,找到了一条性能和成本平衡的一个解决方案。先期研究包括各种各样的尝试,怎样去加速它呢?这个还是需要强大的硬件支持。否则,每迭代一次,就可能需要长达一年多的时间,这显然是无法赶上现在 AI 军备竞赛的。而如果有几万张卡,迭代可能几天就完成了。另外就是应用方面。即便是模型的推理成本再低,当需要支持数千、数万甚至更大规模的并发使用时,仍然需要一个配备大量显卡的强大基础架构来确保稳定运行。我觉得大规模预训练这一波潮流可能会弱化,可能不会成为下一步大家争夺的主战场。之前这个领域曾是竞争激烈的战场,但现在看来,成本和产出之间的比例正逐渐趋于紧缩。但是后面两步——高质量数据的微调和基于强化学习的人类偏好对齐,我相信未来会有更多的投入。图片来源:视觉中国开源加速模型更新和迭代,降低安全顾虑NBD:DeepSeek 采用开源模式,与许多国外大模型巨头闭源的做法不同。您怎么看开源模型在推动 AI 行业发展中的作用?郑骁庆:DeepSeek 目前受到了广泛地关注和认可。从开源模型与闭源模型的角度来看,我们观察到,开源模型在积累了以往研究成果的基础上,在目标明确的情况之下,借助于各种训练技巧以及模型结构上的优化,特别是吸收先前研究者在大模型领域已验证有效的原理和方法,开源模型已能够大致追上闭源模型。开源模型最大的好处就在于,一旦模型开源,全球的顶尖人才都能基于这些代码进行进一步的迭代与优化,这无疑加速了这个模型的更新与发展进程。相比之下,闭源模型肯定是没有这样的能力的,只能靠拥有这个闭源模型所属机构的内部人才去推动模型的迭代,迭代速度相对受限。另外,开源模型透明开放,也缓解了公众对于大模型使用安全的一些顾虑。如果模型闭源,大家在使用过程当中可能或多或少会有一些顾虑。而且开源模型对于人工智能的普及以及全球范围内的公平应用起到了非常好的促进作用,特别是技术平权方面。也就是说,当一项科学技术发展起来以后,全世界的人,不管来自哪个国家、身处何地,都应用享有平等地享受这种技术所带来的优势及其产生的经济效益。现在的 AI 竞争是在中国的中国人和在美国的中国人竞争NBD:DeepSeek 团队成员多为国内顶尖高校的应届毕业生、在校博士生。您认为中国 AI 是否存在独特的竞争优势?郑骁庆:我觉得我们的 AI 上面的竞争优势,其实是我们的人才数量上的优势。这几年,从我个人来看,我们的高等教育,包括硕士、博士的培养,有了长足进步。现在从中国的头部高校来看,对博士生、硕士生的培养已经比较接近于美国。在这样的情况之下,我们的基础高等教育质量的提升,使得我们储备了大量的人才。在这样的过程当中,我们能够对现有的技术进行迅速的消化。实际上,美国许多大模型研究团队,不乏有华人的身影。大家开玩笑说,现在的人工智能竞争是在中国的中国人和在美国的中国人竞争。要说劣势,其实我觉得还是很遗憾的,那就是我们很少能有颠覆性的创新。每日经济新闻

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:吴家栋

TOP1热点:外交部回应演员星星失联

  河南省委农办主任,省农业农村厅党组书记、厅长孙巍峰表示,河南全省上下正在最大限度保障夏粮抢收,预计6月1日基本具备农机下地作业条件,6月2日黄河以南进入集中收获期,6月4日至7日可形成收获高峰,预计6月15日前后麦收基本结束。。

  5月28日至30日,四川南部攀枝花、凉山州等多地出现高温天气,最高温度甚至超过40摄氏度。目前,攀枝花和凉山州均已发布高温橙色预警,梅州市发布高温红色预警。据中国天气网显示,截至5月30日00时至14时,四川攀枝花、广西百色、福建漳州、广东河源等多地位列全国前十高温榜中,其中云南玉溪位列榜首。

TOP2热点:运20飞往西藏日喀则地震灾区

  据上述章丘粮食收购商介绍,目前其还未拿到新麦的价格指标。“之前预计可能在1.25元/斤左右,但是现在很难说了,随着陈麦价格持续上涨,估计新麦应该也能卖到1.3元/斤左右。”

  种植大户刘超(化名)尝试着在短视频等社交媒体上联系收割机,但是“能看到的都已被别人预定”,往年合作过的收割机,都被困在淮南那边。没办法的他来到服务点碰运气,得知现在全都是登记等待的农户,收割机只要一露面,就会被拦下去收麦子,根本开不到服务点。

TOP3热点:哪吒2喜剧效果顶满一面膜上边一面膜下边免费的

  四、及时报告相关情况。鉴于河南省小麦普通保险和完全成本保险并存、赔付标准不尽相同,各地要密切关注2023年小麦保险工作开展情况,务必要在全力保障农民利益基础上,做好沟通解释工作,确保小麦保险理赔稳定有序。对本地小麦投保、查勘理赔工作存在困难和问题,要在配合本地财政部门尽快解决的同时,及时报告省委农村工作领导小组办公室。

  中新经纬在北京朝阳区某超市内看到,五得利面粉最近并未调价,分产品类别,每袋(5kg)25-32元不等。“还没收到涨价通知,不知道下一次进货的时候会不会涨。”该超市工作人员称。

TOP4热点:西藏发布会现场为遇难者默哀打扑克不盖被子的视频

  中美高层互动的增加,当然有助于两国关系止跌企稳。但需要先对此轮互动的性质进行界定,确定当前两国关系是否发生了基础性的变化。应该说,近一个多月来两国的密集交往,首先是针对年初以来长时间不正常状态的纠偏,是基于各自国内外环境而作出的合理选择。从目前看,其主要成果在于对话渠道的逐步恢复,尚未就两国关系的相处原则或功能性议题取得突破性共识。因此,针对双方此轮互动的预期应首先停留在为两国关系止损降温的层面上,不宜注入过多积极预期。更需保持清醒的是,冰冻三尺非一日之寒,中美间存在的重大矛盾分歧,不可能在短时间内得到有效化解。换句话说,增加高层交往只是起点,而非终局。

  近几天,有不少网友在社交平台上吐槽“大雨一下,面粉涨价”,有人称,五得利面粉5月29日、30日、31日连续三天提价,一袋25kg的面粉涨了近20元。

TOP5热点:演员星星的现实版孤注一掷将终结5G天天奭多人 运动入口在线网站

  “整体看,持续降雨天气影响到的主要为黄河以南陆续进入收割期的小麦,以及黄河北部部分早熟小麦品种。目前部分地区已经陆续放晴开始抢收新季小麦,在颗粒归仓之前难言整体产情,还需持续关注。”王晓康预计,待6月中旬小麦集中收割上市后,短期小麦供应的增加或导致小麦市场整体价格重心下移,在探至相对低点后,在多方竞收下价格或再度缓慢上涨。(中新经纬APP)

  据气象部门预计,未来3到5天,攀枝花市东区城区、银江镇、西区城区等地午后至傍晚最高气温将达到38摄氏度,部分地区甚至达到41摄氏度。

TOP6热点:白月梵星你要毁了一代妖王吗一面亲上边一面膜下边的免费

  2022年7月,叶牛平任陕西省副省长、党组成员。官网显示,叶牛平分管省民政厅、省交通运输厅、省商务厅(省自贸办)、省外事办、省港澳办。负责“一带一路”建设、自贸试验区等方面工作。

  美国国防部长奥斯汀在当天的发言中多次对中国进行不实指责,对此,景建峰中将表示,奥斯汀在讲话中鼓吹所谓“印太战略”,其实质是继续巩固其霸权地位。首先它是在挑动集团对抗,冷战已过去32年,美国没有清除冷战残余,反而炮制“四边机制”“三边安全伙伴”,以意识形态划分阵营,挑起对抗。

TOP7热点:西藏定日县地震这些问题一起关注密芽

  此外,据河南省农业农村厅,河南省有400多万亩小麦种子田,种子产量38亿斤,占全国的38%以上,其中60%分布在豫北地区,受此次降雨影响较小,但今年豫南的小麦种子可能会受一些影响。

  中美高层互动的增加,当然有助于两国关系止跌企稳。但需要先对此轮互动的性质进行界定,确定当前两国关系是否发生了基础性的变化。应该说,近一个多月来两国的密集交往,首先是针对年初以来长时间不正常状态的纠偏,是基于各自国内外环境而作出的合理选择。从目前看,其主要成果在于对话渠道的逐步恢复,尚未就两国关系的相处原则或功能性议题取得突破性共识。因此,针对双方此轮互动的预期应首先停留在为两国关系止损降温的层面上,不宜注入过多积极预期。更需保持清醒的是,冰冻三尺非一日之寒,中美间存在的重大矛盾分歧,不可能在短时间内得到有效化解。换句话说,增加高层交往只是起点,而非终局。

TOP8热点:印度人因有牛肉打砸英国餐厅被打跑47147大但人文艺术欣赏

  另外,中央的会议还特别提到,要以新安全格局保障新发展格局,主动塑造于我有利的外部安全环境,更好维护开放安全,推动发展和安全深度融合。

  近日,河南多地接连降雨导致待收割小麦发霉发芽的视频刷爆网络。眼下恰逢小麦收获季,25日以来,连续6天的大雨给当地小麦收割带来较大影响,也引起了公众的高度关注。

TOP9热点:曝五条人买衣服表演后退货后营露营无增减

  河南省农业农村厅公布的最新信息显示,5月25日以来出现的大范围持续阴雨天气,已经严重影响小麦正常成熟收获。这次降雨过程与豫南地区小麦成熟期高度重合,持续长达6天,覆盖全省17个省辖市和济源示范区,特别是对驻马店、南阳等地影响更大。

  ——丧失理想信念,背弃初心使命,严重违背新时代党的治藏方略和新发展理念,肆意滥用中央和地方专项资金,落实党中央重大决策部署不力,不履行全面从严治党主体责任,造成严重政治危害,对抗组织审查;

TOP10热点:杨紫剧粉GOGOGO大但人文艺术

  中方主张以和平方式解决南海争议,中方始终致力于同直接有关方在国际法基础上通过对话协商解决争议。中方认为地区国家有能力、信心、智慧处理好南海问题,不需要域外国家多管闲事。

  会议还提到,要加快推进国家安全体系和能力现代化,突出实战实用鲜明导向,更加注重协同高效、法治思维、科技赋能、基层基础,推动各方面建设有机衔接、联动集成。

发布于:梧州市