宝宝把腿拾起来靠墙上怎么回事爆火的DeepSeek-V3强在哪?_ZAKER宝宝把腿拾起来靠墙上怎么回事新闻
爆火的DeepSeek-V3强在哪?_ZAKER宝宝把腿拾起来靠墙上怎么回事新闻
践行ESG可持续发展,是高质量发展道路上的“必答题”。未来,长江养老将持续建设符合养老金融特点的ESG投资管理体系,打造ESG特色的公益品牌,践行绿色运营新举措,坚持做一家负责任、有担当的养老金融专业机构,不断彰显国有金融企业的情怀使命。
最近,DeepSeek-V3 在国外火了。它为什么火呢?主要有三个原因:一,性能非常出色。在许多测试中,它都超过了其他顶尖模型,比如 GPT-4o 和 Claude 3.5 Sonnet。特别在数学和代码生成方面,表现尤为突出。二,它的训练成本相对较低。只要 600 万美元就能完成训练,与其他顶级模型相比,性价比极高。三,它是开源的。全球的开发者都可以免费使用和测试它。因此,它火了。不过,随着它的火爆,很多人开始好奇:这个模型来自哪里?它与其他模型有何不同?带着同样的疑问,我查看了它 12 月 26 日在 GitHub 上发布的报告—— DeepSeek-V3 Technical Report。总结出五点内容,关于模型架构设计、基础设施、预训练、后训练模型,以及评估结果。现在向你汇报一下。一先来说说这家公司:DeepSeek-V3 由中国幻方量化公司开发,它是基于自研 MoE 模型的新一代大语言模型。MoE,全称 Mixture of Experts,也叫混合专家技术,是一种机器学习架构,是通过组合多个专家模型,在处理复杂任务时,让效率和准确度都大大提升。以前,人们总爱把 "DeepSeek" 比作 AI 界的拼多多。因为它开启了中国大模型的价格战。2024 年 5 月,它们推出了一个名为 DeepSeek V2 的开源模型。这个模型的性价比超级高,每百万个 token 的推理计算成本只要 1 块钱。这个价格,大概是 Llama3 70B 的 1/7,也是 GPT-4 Turbo 的 1/70。这个消息一出,字节、腾讯、百度、阿里,还有 kimi 这些 AI 公司都跟着降价。所以,DeepSeek 凭借它的高性价比,在中国大模型市场掀起了第一场价格战。但是,V2.5 版本的更新速度不快,直到 9 月份才有动静;现在又过了 3 个月,V3 版本终于来了。这次,大家最想知道的就是,它的架构有什么新变化。这家公司的老板梁文锋说过,以前中国公司习惯于做应用变现,但现在 DeepSeek 的目标是走在技术前沿。他希望用技术推动整个生态的发展。他认为,中国公司应该从 " 搭便车 " 的角色,转变为 " 贡献者 ",主动参与到全球创新的大潮中。那么,DeepSeek-V3 到底有哪些技术架构上新亮点呢?图释:DeepSeek-V3MoE 架构工作流程 报告中说:DeepSeek-V3 的架构设计非常精巧,主要有四点:分别是什么意思呢?首先,DeepSeek-V3 有 671 亿个参数,像一个超级大脑。这个大脑采用的技术叫做 MoE 架构,就是混合专家技术。这意味着它里面有很多专家模型,但每次只需要调用 37 亿个参数来工作就可以了。为了让专家模型高效工作,DeepSeek-V3 得有个聪明的调度员,确保每个专家都有活干,不会有的很忙,有的很闲。因此,DeepSeek-V3 装载了信息过滤器,叫做 "MLA",它能让模型只关注信息中的重要部分,不会被不重要的细节分散注意力。但是,这样还不够,DeepSeek-V3 还得确保每个专家都能得到合理的工作量,并且训练模型去预测接下来的几个步骤,不只是下一步;这就是无辅助损失的负载平衡策略和多令牌预测训练目标的用处。简单来说,让每个专家都有合理的工作量,同时训练模型去预测接下来的几个步骤,这样模型在实际工作中就能表现得更好,比如在处理长篇文章时能更好地理解上下文。所以,DeepSeek-V3 的架构有四个要点:一,MLA 技术,通过压缩注意力机制减少需要处理的信息量,提高效率。二,DeepSeekMoE 技术,用更细粒度的专家和共享专家提高训练效率,并且动态调整专家间的工作量均衡。三,无辅助损失的负载平衡策略,确保专家间工作量均衡,不依赖额外的损失项;四,多令牌预测训练目标,提高模型的预测能力和数据效率。总之,DeepSeek-V3 的架构,像一个高效的团队,每个成员都有特定的任务,而且团队能够预测并准备接下来的工作,这样的设计才能让模型在处理信息时既快速又准确。二报告第 11 页到第 12 页详细讲解了 DeepSeek-V3 的训练技术。首先,DeepSeek-V3 是在拥有 2048 个 NVIDIA H800 GPU 的超级计算机上进行训练的。这些 GPU 通过 NVLink 和 NVSwitch 在单个节点内连接,节点之间则通过 InfiniBand 连接,形成了一个强大的分布式计算网络。接下来说说训练框架。DeepSeek-V3 用了一个叫做 DualPipe 的算法,这个算法能让模型更智能地分配任务,减少等待时间,确保每个部分都能在正确的时间做正确的事。这个算法具体包括两点:一,DualPipe 和计算通信重叠。就像两组工人,一组加工零件,一组准备材料。如果他们不同步,加工好的零件就会堆积。DeepSeek-V3 的 DualPipe 算法让这两组工人的工作节奏同步,一边加工零件,一边准备材料,这样就没有等待时间,生产过程更流畅。二,高效实现跨节点全对全通信。你可以想象一个大工厂的不同车间需要共享信息。DeepSeek-V3 通过高效的通信技术,确保不同 " 车间 " 之间的信息能快速共享,就像建立了一个快速的信息传递网络。两者组合,就能在有限的硬件资源下训练更大的模型。有了算法还不够,还要精练。怎么精练?DeepSeek-V3 推出了一种叫 FP8 的新技术。简单来说,通过五个步骤用更小的数字代替原来的大数字,让计算机更快地做计算,同时节省电力。举个例子:在超市买东西,大多数情况下不用精确到小数点后,大概齐就行了。但是,用小数字代替大数字可能会影响精细工作。怎么办?DeepSeek-V3 在关键的地方会用更精确的大数字来确保质量,比如:矩阵乘法,这就像在做精细活儿时,在关键步骤用上好工具,其他时候用差点的也没事。在训练过程中,DeepSeek-V3 还会用 FP8 存储中间结果,节省更多的内存空间。这就像整理东西时,不用把所有东西都放在显眼的地方,而是合理地收纳起来,需要时再拿出来。最后,DeepSeek-V3 在实际使用时也会根据情况来决定用不用 FP8,这样就能在保证效果的同时,让模型跑得更快,更省资源。如同我们在日常生活中会根据不同的情况来选择不同的工具,既高效又节约,这就是它的底层基础技术。三DeepSeek-V3 是怎么做预训练的呢?报告里说,DeepSeek-V3 的预训练涉及六个方面:数据建设、超参数调整、长上下文扩展、评估基准、消融研究,还有辅助无损耗平衡策略。首先是 " 数据建设 "。DeepSeek-V3 用了 14.8 万亿个高质量的数据点来训练,这些数据覆盖了很多不同的领域和语言,这样模型就能学到很多不同的知识。然后,在训练开始之前,得设置一些重要的参数,比如学习率。DeepSeek-V3 会仔细挑选这些参数,让模型能以最好的方式学习,这叫超参数调整。紧接着,对长上下文扩展。这就像教模型读长故事。DeepSeek-V3 用了一些特别的技术,比如 YaRN,来增加模型能处理的文本长度,从 4K 字节增加到 128K 字节。这样,模型就能理解更长的文章和故事了。在学习的过程中,还得检查模型学得怎么样。这就是 " 评估基准 " 的作用。DeepSeek-V3 会在各种测试上进行评估,比如 MMLMU-Pro、GPQA-Diamond 等,确保模型在不同的任务上都能表现得很好。图释:DeepSeek-V3 训练数据的方法 消融研究是什么?DeepSeek-V3 会做很多实验,看看哪些方法最管用。比如研究无辅助损失的负载平衡策略,找出哪些技术最能提高模型的性能等。最后,模型通过动态调整,使得每个专家的工作量更加均衡,而不是通过辅助损失来强制平衡。如此一来,预训练阶段就能吸收和处理很多信息,学会理解和生成文本,为后面的训练打下坚实的基础。看完这段报告后我觉得,训练模型就像给一个 5 岁孩子提供学习资源和环境一样,让它在成长过程中能够全面发展。四问题是:只有预训练还不够,后训练才能让模型更成熟。那么,DeepSeek-V3 是怎么做的后训练呢?首先是监督微调。DeepSeek 团队为模型准备了 150 万个实例的特别训练集,就像是一本包含各种生活场景的百科全书。每个训练集都是精心设计,确保模型能学会在不同情况下应该怎么处理。对于那些需要逻辑和计算的数据,比如数学问题或者编程挑战,团队用了一个已经训练好的模型来生成例子。虽然这些例子通常很准确,但有时可能太复杂或者格式不规范。所以,团队的目标是让数据既准确又容易理解。为了做到这一点,他们结合了监督微调和强化学习的方法,训练了一些 " 专家模型 "。这些专家模型就像专业的老师,负责教模型如何在特定领域做得更好。在训练过程中,他们会创造两种类型的例子:一种是直接的问题和答案,另一种加上了 " 系统提示 " 的问题、答案和 R1 模型的响应。这些系统提示就像教学大纲,指导模型如何给出有深度和经过验证的答案。对了,在 " 强化学习 " 阶段,模型会尝试不同的回答,根据效果得到奖励或惩罚。通过这个过程,模型就学会了给出更好的答案;最后,团队会用 " 拒绝采样 " 的方法挑选最好的示例,用于最终模型的训练,这确保了用于模型学习的数据既准确又容易理解。对于非推理数据,比如:写故事或者角色扮演,团队用了另一个模型来生成回答,然后让人工检查这些回答是否准确和合适。这两个步骤,报告中称之为 " 评价标准 "。最后,DeepSeek 团队对 DeepSeek-V3-Base 进行了两个时期的微调,采用了从 5×10-6 到 1×10-6 的 " 余弦衰减学习率调度 "。在训练期间,每个序列都由多个样本组成,但他们采用了 " 样本屏蔽策略 ",确保示例相互独立,这是一种 " 开放评估 " 的模型。通过这些后训练步骤,DeepSeek-V3 能够在实际应用中做到更加精准,就像完成基础训练后,再给它进行一些专业技能的培训。他们给它起的名字叫 " 生成奖励模型 ",这让它不仅是一个学习者,还成为了一个评委;如此周而复始,建立一套正向反馈机制。五那么,通过这套模型训练出来的成果如何呢?DeepSeek-V3 做了一系列的全面基准测试,这些测试相当于给超级大脑出了一套标准化的试卷,看看它在各个科目上能得多少分。这些科目包括教育知识、语言理解、编程技能、数学问题解决等。在数学推理上:在 MATH-500 测试中,DeepSeek-V3 得了 90.2 分,这个分数不仅比所有开源竞争对手高,比如 Qwen 2.5 的 80 分和 Llama 3.1 的 73.8 分,也超过了闭源模型 GPT-4o 的 74.6 分。在 MGSM 测试中,DeepSeek-V3 得了 79.8 分,超过了 Llama 3.1 的 69.9 分和 Qwen 2.5 的 76.2 分。在 CMath 测试中,DeepSeek-V3 得了 90.7 分,比 Llama 3.1 的 77.3 分和 GPT-4o 的 84.5 分都要好。图解:DeepSeek-V3 基准测试数据 在编程和编码能力方面:在 LiveCodeBench 测试中,DeepSeek-V3 的通过率达到了 37.6%,领先于 Llama 3.1 的 30.1% 和 Claude 3.5 Sonnet 的 32.8%。在 HumanEval-Mul 测试中,DeepSeek-V3 得了 82.6%,比 Qwen 2.5 的 77.3% 高,并且和 GPT-4o 的 80.5% 差不多。在 CRUXEval-I 测试中,DeepSeek-V3 得了 67.3%,明显优于 Qwen 2.5 的 59.1% 和 Llama 3.1 的 58.5%。在多语言和非英语任务上:在 CMMLU 测试中,DeepSeek-V3 得了 88.8 分,超过了 Qwen 2.5 的 89.5 分,并且领先于 Llama 3.1 的 73.7 分。在 C-Eval,中国评估基准测试中,DeepSeek-V3 得了 90.1 分,远远领先于 Llama 3.1 的 72.5 分。其他数据还有很多,总的来说,DeepSeek-V3 成绩遥遥领先;对了,还有一句要提的是:DeepSeek-V3 的训练成本只有 557.6 万美元,这只是训练 Meta 的 Llama 3.1 所需估计的 5 亿美元的一小部分。所以,DeepSeek-V3 新的模型结构,无疑是如今人工智能领域中一次新的变革。高效、省力、省成本;难怪连 OpenAI 的前首席科学家 Andrej Karpathy 也表示,这是一次 " 令人印象深刻的展示 "。如果 DeepSeek-V3 在资源有限的情况下,都能表现出如此卓越的工程能力,以后是不是不需要大型 GPU 集群了?这个问题值得我们思考。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:马建国
TOP1热点:手机刷的越多,心越静不下来,你就更不可能成功!
溶液、成型、退火、切割、抛光……走进位于重庆市九龙坡区的重庆隆满玻璃制品有限公司生产车间,一条条生产线正有序运转。“今年公司订单较去年同期明显增加,国家政策还持续支持,大家干劲都更足了。”该公司负责人王智说。。
TOP2热点:我就说多上网能学到真东西吧!
青年一代要敢担当。国家的前途,民族的命运,人民的幸福,是当代中国青年必须和必将承担的重任。广大青年生逢其时,既拥有广阔发展空间,也承担着伟大时代使命。对广大青年来说,这是最大的人生际遇,也是最大的人生考验。前进道路上,不可避免会遇到各种重大挑战、重大风险、重大阻力、重大矛盾,迫切需要迎难而上、挺身而出的担当精神。新时代中国青年只有将小我融入大我,把人生理想融入国家和民族的事业中,勇于担负起时代赋予的重担,在应对重大挑战、抵御重大风险、克服重大阻力、解决重大矛盾中经风雨、见世面、壮筋骨、长才干,才能不负青春、不负韶华,赢得党和人民的信任。
《办法》共九章五十二条,包括“总则、地名规划、地名的命名与更名、标准地名使用、地名标志、地名文化保护、地名数字管理、监督管理和附则”等内容,旨在为进一步提升地名公共服务提供政策支撑。
TOP3热点:羊村第四季(4)美国xaxwas9977777
党的十八大以来,习近平总书记高度重视网络内容建设,强调要做强网上正面宣传,培育积极健康、向上向善的网络文化。
“卫青”所编码的蛋白含有4个跨膜螺旋,具有全新的蛋白质折叠类型。“卫青”编码的蛋白定位于内质网,介导钙离子释放。通过将内质网中的钙离子释放到细胞质,在植物细胞中拉响病菌入侵的“警报”,开启防卫反应。
TOP4热点:我的世界:极简丐版物品分类,为懒人玩家而生老妇BBW操BBBB操BBBB
临近暑假,北京景山学校校长邱悦关注到了一名小学生写的期末总结――“体育方面,除了课上开设的仰卧起坐、跳绳等基本项目外,我还没有养成一项‘看家本领’。期末复习阶段,仍存在强复习、轻锻炼的情况……”
TOP5热点:爆火全网的迪拜巧克力真有这么好吃吗...另类老妇性BBWBBW
也有游客发现,在官方渠道抢不到的门票,有时却可以通过第三方平台或“黄牛”买到:还有的场馆,免费门票预约不到,收费的套票、特展则有余票;面对散客的票早早显示“售罄”,通过旅行社则可以买到票。
宣誓结束,学员毕桓毓带着高昂的情绪投入一天的学习训练和见习值更中。
TOP6热点:临榆炸鸡腿:秘方就偷走了???亚洲精华国产精华液的护肤功效
主新闻中心主要包含媒体工作间、新闻发布厅、媒体采访间等区域。媒体工作间配有LED大屏和电视,可实时收看大运会开闭幕式和竞赛直播信号画面;两间新闻发布厅分别为熊猫厅和银杏厅,均配有同声传译间,提供语言同传服务,这里将举行每日例行新闻发布会、竞赛相关发布会、媒体吹风会等。
TOP7热点:爆火全网的迪拜巧克力真有这么好吃吗...中国MACBOOKPRO高清
《办法》共九章五十二条,包括“总则、地名规划、地名的命名与更名、标准地名使用、地名标志、地名文化保护、地名数字管理、监督管理和附则”等内容,旨在为进一步提升地名公共服务提供政策支撑。
TOP8热点:谭乔:《谭谈交通》二十年,节目里的普通人治好了我的抑郁症 |【热点面孔】乐可全文番外TXT百度免费下载
再次,空调温度调得越低,耗电量就越高,制冷温度设定每提高1摄氏度,至少可以节省10%的电。晚上睡觉时,将空调设定为睡眠模式,也可以达到省电的目的。
TOP9热点:靖康之耻与《搜山图》秘辛FUCKGAY❌❌❌
商用终端也与英特尔携手合作,推出了H3CBookUltra14T高端商务超薄笔记本电脑,搭载13代英特尔酷睿处理器,支持英特尔vPro技术,通过英特尔Evo严苛认证,创新推出紫盾安全SSD技术捍卫数据安全,为客户提供全方位的非凡体验,为百行百业数字化转型提供坚实可靠的支撑。
“战火还未完全平息,我就接到命令,赴南沙建设海洋观测站,就这样,我和战友们在那里战斗和生活了422天。”气象教员孙成志的讲述,将朱昊和学员们带回到上世纪80年代的南沙礁盘上。
TOP10热点:只存在1天的乌托邦?72小时极限前往日本最北端露营跨年欧洲家庭史7726
今年4月,该院组织召开公开听证会,邀请市、县两级人大代表、听证员及县文化和旅游局、县自然资源和规划局、县财政局、高店乡政府等相关单位工作人员参加会议。听证会上,承办检察官当场展示了革命旧址现场视频资料,介绍了基本案情,并宣讲了文物和文化遗产保护法规及相关行政机关应当履行的职责。行政机关代表和听证员对如何保护中共汪洋店党支部旧址等问题进行了充分讨论并发表意见。最终,各方就中共汪洋店党支部旧址保护达成共识,均表示将加强沟通协作,按照各自职责做好文物保护工作。