欧美巨大巨粗黑人性AAAAAA_娱乐圈新_不断有人在问，这个中国模型到底有什么魔力？

不断有人在问，这个中国模型到底有什么魔力？_ZAKE欧美巨大巨粗黑人性AAAAAAR新闻

豆粕

作者｜ Yoky邮箱｜ yokyliu@pingwest.comDeepSeek、李飞飞、LIMO，全球的 AI 界近期几乎都被这几个名词环绕，而这一切的背后，都要从一个 " 大隐隐于市 " 的高手谈起。2 月 3 日，李飞飞和斯坦福大学等团队在 arXiv 上发表了一篇名为《s1: Simple test-time scaling》的论文，仅在 16 块 H100 上微调 26 分钟，以不到 50 美元的价格训练出的新模型 s1-32B，数学及编程能力与 OpenAI o1 及 DeepSeek R1 等尖端推理模型效果相当。几乎同一时间，来自上海交大的本科生 Yixin Ye 与团队训练出的 LIMO 新模型，用 1% 的数据量，训练出 MATH 测试准确率高达 94.8% 的新模型。一般认为，低成本训练强劲性能模型的方法，基本上始于 DeepSeek 推出 R1 模型时顺手做的蒸馏示范。这一系列工作涌现，海外 AI 社区惊奇地发现，他们采用的基座模型，居然都是 Qwen ——这位真正的幕后高手。中国人更熟悉的名字是，通义千问，阿里云自研并开源的大模型 Qwen 系列。加拿大滑铁卢大学助理教授陈文虎更是直言，他们也在别的模型上作了尝试，同样的训练数据却完全不奏效，他总结称："Qwen 模型里头一定有一些 magical 的东西！"那么，这些充满魔力的东西到底是什么？1从研究到实践，他们为何都选择 Qwen?李飞飞团队在这篇论文里提到，性能优化的核心技术是 s1K 数据集和预算强制法（budget forcing）。s1K 的数据集包含 1000 个精心挑选的问题，李飞飞团队还使用谷歌的 Gemini Flash Thinking 模型生成每个问题的推理轨迹（reasoning traces）和答案。预算强制方法的特点，则是在模型终结思考时添加 "wait"，鼓励探索更多答案。最后，李飞飞团队对开源的 Qwen2.5-32B-Instruct 进行 s1K 的监督微调并应用预算强制后，得到模型 s1-32B。也就是在 16 个 H100 GPU 上训练 26 分钟、花费 50 美元的阶段。首先应该破除的迷思是，这绝不仅仅是只花 50 美元就能办到的事情。李飞飞的新方法，并不是从零训练一个模型，而是基于 Qwen 模型做的微调。公开数据显示，Qwen2.5 模型系列，仅预训练就用了 18 万亿 tokens，可以想见是怎样一笔支出。陈文虎在 X 上的留言，更是一语道破天机，绝非所有模型微调后都能有这样的效果。上海交大团队的 LIMO，几乎是对同样技术的探讨，使用了更少的 817 个精选训练样本，通过构建更高质量的推理链，结合推理时计算扩展和微调，就在极具挑战性的 AIME 基准测试中从 6.5% 的准确率提升到 57.1% ，在 MATH 基准测试中更是达到了 94.8% 的准确率。这一数据规模，仅占经典方法能达到模型水平所需数据量的 1% 左右。在 X 上，即将成为 MIT 助理教授、现 Databricks 的研究科学家 Omar Khattab 评价 LIMO 称，此类的论文更像是关于 Qwen 的研究成果而非推理。前三星研究院科学家 Rakshit Shukla 也表示，这些新成果印证了基础模型（也即 Qwen）的性能之强。事实上，国际开源社区对 Qwen 非常熟识，从 Qwen2 到 Qwen2.5，不同代际的开源 Qwen 模型，屡屡登上 HuggingFace 的 Open LLM Leaderboard、Chatbot Arena 大模型盲测榜单，多次斩获 " 全球开源冠军 "，性能强劲毋庸置疑。更重要的是，Qwen 推出了不同尺寸的开源模型，小到 0.5B，大到 110B，可以更好满足千行百业的需求，开发者用脚投票，纷纷来下载 Qwen 模型。这在 HuggingFace 平台上，仅 Qwen 的一款小型模型就占据了去年所有模型下载量的 26.6%。HuggingFace 官方供图全球火爆出圈的 DeepSeek，同样选择了 Qwen。在发布 R1 时，DeepSeek 官方透露，打样蒸馏 R1 的能力给到 6 个模型，其中 4 个模型就是 Qwen，分别选择了 1.5B、7B、14B 和 32B 四个尺寸，其中基于 Qwen-32B 的蒸馏模型，在多项能力上实现了与 OpenAI o1-mini 相当的效果。全球越来越多的开发者和企业选择了 Qwen，也将他们研发出的 Qwen 衍生模型贡献于开源社区。目前，开发者二创的 Qwen 衍生模型数量已经突破了 9 万，成为全球最大的 AI 模型族群。或许，这是李飞飞、Yixin Ye 乃至 DeepSeek 选择 Qwen 的又一原因，毕竟从学术界到产业界都用的 Qwen，是最容易被对比的性能标杆基座模型。2不止是最佳开源模型，更强的 Qwen2.5-Max 来了正当大家为性能出色的开源 Qwen 模型欢呼时，大年初一，阿里云在凌晨 1 点半又放出了新年第一弹：Qwen2.5-Max。在与业界领先的所有模型对比中，Qwen2.5-Max 依然展现出极强的性能。在测试大学水平知识的 MMLU-Pro、评估编程能力的 LiveCodeBench、全面评估综合能力的 LiveBench，以及近似人类偏好的 Arena-Hard 等主流测评中，Qwen2.5-Max 比肩 Claude-3.5-Sonnet，并几乎全面超越了 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。而就在这两天，Qwen 的新模型又再次以超强性能冲上主流大模型评测榜单全球前十：2 月 4 日，业界最知名的三方评测榜单—— Chatbot Arena 大模型盲测榜单放榜。Qwen2.5-Max 以 1332 分，超过 DeepSeek V3、o1-mini 和 Claude-3.5-Sonnet 等国内外强手，获得全球第七名，并且获得数学和编程的单项第一。2 月 6 日，在 Meta 杨立昆牵头的 LiveBench 最新榜单中，Qwen2.5-Max 也闯进全球前十，领先于 DeepSeek-V3、Gemini-2.0-flash-lite 等诸多好手。Qwen 团队关于 Qwen2.5-Max 的技术博客里最后一段提到，" 持续提升数据规模和模型参数规模能够有效提升模型的智能水平。"这等同于解答了这个超大规模 MoE 模型里的秘密：Scaling Law，基于 MoE（混合专家）架构开发，持续扩大参数规模，不断改进训练方案。Scaling Law，既是观念，也是实践。在预训练数据规模上，Qwen2.5-Max 模型基于高达 20 万亿 tokens 的数据进行预训练，规模比训练 Qwen2.5 的 18 万亿 Tokens 还要多。Qwen2.5-Max 的预训练数据覆盖领域广泛，且知识密度高，同时通过精心设计的数据过滤及配比，保证了数据的数量与质量。此外，全面优化的后训练数据及强化学习方法让 Qwen2.5-Max 产出的内容也更符合广大用户的偏好。而在训练技术层面，Qwen 团队在今年 1 月提交的这篇名为《魔鬼在细节》（Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models）的论文中，着重解释了 MoE 模型训练改进的方法。在 DeepSeek 训练 V3 的技术报告中，就曾在小规模上讨论了基于全局均衡来优化专家选择的效果。而 Qwen 更进一步，通过轻量的通信代价实现了全局均衡，在大规模上系统验证了这种方法的有效性，使得 MoE 模型的性能和专家特异性都得到了显著的提升。也正因这些关键改进，在模型裸性能也即基座模型的 11 项评测对比中，Qwen2.5-Max 与业界领先的 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B 以及同系列的 Qwen2.5-72B 比拼中，全面领先。3不是从 DeepSeek 到 Qwen，而是从 Qwen 到开源世界当不少人为 Qwen2.5-Max 性能超越 DeepSeek-V3、再度为中国大模型欢呼时，实际上忽略了一个重要的事实：在 DeepSeek 爆火之前，海外大模型圈，早就熟知了 Qwen 这一名字。在我们此前对硅谷的数次探访中，每当谈及中国大模型，不少 CEO、开发者蹦出来的第一个名字，是 Alibaba's Qwen。过去两年来，Qwen 的确是开源最多、最深入的中国大模型代表。Qwen 模型性能强劲，开源尺寸多样化，并且拥有全球最大的衍生模型群，成为学术界到产业界都广受欢迎的最重要的开源模型系列。从 2023 年 8 月首个开源模型 Qwen-7B 的发布开始，Qwen 就陆续开源了覆盖不同参数规模、不同模态、不同应用场景的数十款模型。这些模型不仅包括通用大语言模型，还涵盖了多模态、对话、代码生成等专业领域的特化版本。在 GitHub 社区，Qwen 收获了来自全球开发者的好评。特别是 2024 年 9 月发布的 Qwen2.5 系列模型，在代码生成和调试任务中表现卓越。有开发者成功通过本地部署 Qwen2.5-32B 模型并配合 VS Code 扩展工具，完全替代了此前依赖的 ChatGPT 和 Claude 3.5 Sonnet 的编程辅助功能。图源 X 截图仅仅在过去的 3 个月，Qwen 就陆续开源了推理模型 QwQ、多模态推理模型 QVQ、数学推理过程奖励模型 Qwen2.5-Math-PRM、支持 100 万 Tokens 的长文本模型 Qwen2.5-1M 以及最新一代视觉理解模型 Qwen2.5-VL。以视觉理解模型为例，阿里云曾开源 Qwen-VL 及 Qwen2-VL 两代模型，全球总下载量突破 3200 万次，是开源社区里最受欢迎、性能最强的视觉理解模型，开发者用它来理解难以辨认的手写稿，解答书本上艰深的数学物理题，甚至尝试去探索月球和银河的秘密。也正因此，Qwen2.5-VL 一开源发布，就引发了大波的海外 Qwen 粉丝们的狂欢，开源社区大佬 VB 一句话总结：它持续变得越来越好了。一个业界的共识是，Qwen 最早扛起了中国 AI 大模型开源的大旗，也带起了一波开源的浪潮，孕育起一个 AI 生态。阿里云牵头建设的魔搭社区，已经上架了 4 万多个 AI 模型，服务超过 1000 万名开发者。李飞飞这样的学术大咖选择 Qwen，Yixin Ye 这样的年轻本科生基于 Qwen 探索新技术，甚至 DeepSeek 这样现象级的创业公司也用 Qwen 模型做蒸馏。更多来自阿拉伯语、法语、日语、西班牙语地区的开发者，因为 Qwen 的强劲语言能力而第一次拥有了性能超群的本国语言大模型。Qwen 让 AI 技术从杭州走向了世界。4「神秘东方力量」的公开秘密人往往高估一年的变化，但会低估五年的变化。不到一年前，还有大佬认为闭源才是 AI 大模型发展的主流，现在，全世界的开发者都在为开源的中国 AI 技术挑战传统霸权而欢呼。今天，当我们谈中国大模型集体崛起，我们会谈论 DeepSeek，谈它背后充足的量化资本以及追求 AGI 的纯粹初心；我们也会谈通义千问 Qwen，谈孕育它的阿里云和更庞大的阿里巴巴生态。巧的是，这两个扬名海外的中国大模型，都来自杭州，因此也有人称之为开源世界里的杭州「内战」，甚至一度传出阿里要入股 DeepSeek 的谣言。一个不争的事实是，在 DeepSeek 最需要算力支持的时候，阿里云官宣支持部署 DeepSeek-V3 和 R1 模型。AI 不是零和博弈，最后胜利也不会只属于某一家公司。在这样一个激动人心的大时代，齐头并进或许是个最优解。当然，时间会考验所有人，而一切才刚刚开始。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:马继

TOP1热点：方大同和大S一样常年吃素

据悉，上述项目包含56GW单晶拉棒、56GW硅片、56GW高效电池和56GW组件一体化产能。项目共分四期，建设周期约两年，一期项目预计2024年第一季度投产，二期项目预计2024年第二季度投产，三期、四期项目预计2025年建成投产。。

道指涨8.17点，涨幅为0.02%，报35289.57点；纳指跌47.02点，跌幅为0.34%，报13597.83点；标普500指数跌7.39点，跌幅为0.17%，报4456.66点。

TOP2热点：韩歆毅正式接任蚂蚁集团CEO

中国新能源汽车企业，甚至只要有创意就可以创业，生产端完全可以由本土发达供应链代工，而英法车企现在则需要克服种种贸易、技术和交流问题，到中国或德国采购组装，难度远远大于我国车企。

认购转股协议存款由地方财政部门直接认购中小银行的转股协议存款，补充其他一级资本，还款来源为中小银行经营所得。间接入股注资为地方政府以地方金融控股公司作为桥梁，对中小银行进行间接入股注资支持，通过普通股补充核心一级资本，还款资金来源为股利分红和股权市场化转让所得。

TOP3热点：北京警方紧急提醒：这些是诈骗软件MACBOOKPRO高清

近几年西方一些政客，如特朗普主义者，为了捍卫所谓的国家利益，推动各个经济体之间脱钩。而这些跨国企业是全球化最大受益者，脱钩断链将给他们带来严重损失。

半年报显示，上半年，晶科能源共向全球销售了33.1GW光伏产品，其中组件约30.8GW，N型组件占比一半以上，约16.4GW。

TOP4热点：媒体谈门诊全面取消预交金1377大但人文艺术

一个有效的杯柄形态，杯柄的回撤幅度需要比杯身小。杯柄不应低于杯身的下撤幅度的50%，理想情况下，杯柄应保持在杯身的上半部。

发行2023年度第四期中期票据募集资金用于偿还借款的用途。

TOP5热点：女排联赛江苏争冠抢占先机天津5连败202.GGY.钙站

“贝”是最早的货币之一。在过去，海贝是非常珍贵的，所以很多和财务、财富、贸易相关的字里都有“贝”，像图中列的这些，比如赚、赏、货、贸等等。所以“贝”是“财富101”，是入门级的财富！

尽管应对瞬息万变的营商环境，集团将优先实施严紧的成本控制措施、开拓新业务及市场，并研发新产品和技术，从而促进其横向业务扩张，并提升其作为领先材料解决方案供应商的地位。集团亦会密切监察市场形势，在有需要时调整对其供应链上游整合的策略和运营。

TOP6热点：快递业“跑”出加速度粉色苏州晶体

无论是股票ETF/LOF基金，都是属于较高预期风险和预期收益的证券投资基金品种，其预期收益及预期风险水平高于混合型基金、债券型基金和货币市场基金。

策略之王监测到，证通电子股价向上穿破了BBI指标线，指明价格走势的运行方向。BBI指标是MA均线的一种优化和升级，一条简单的白线直接表达多空市场，线上为多，线下为空。

TOP7热点：泽连斯基离开美国留下一串谢谢女儿初长成爸爸来尝鲜的说说

“策略之王”发现，葵花药业三连阳同时成交量缩小，表示空头不支，多头乘势追击，以最小的代价取得胜利，上涨过程中遇到的阻力很小，是后市看好的二次确认。

房地产承压

TOP8热点：习近平对抓好三农工作这样叮嘱最好免费观看高清视频大全

存款方面，上海7月人民币存款保持增长，个人存款出现了减少。

碧桂园称，集团将与各持份者沟通，并考虑采取各种债务管理措施，维护投资者的合法权益。后续集团亦将继续稳妥推进各项风险化解措施和经营策略，以保障集团的未来长远发展。

TOP9热点：单依纯哽咽唱《才二十三》打扑克打了又疼又叫

其中，茅台集团董事长丁雄军上月率队到访西凤也曾引发市场联想。彼时，张正表示，名酒之名，先在品质，后在品类，终于受众，作为凤香型和酱香型白酒的典型代表，西凤和茅台应同中国名酒企业一道，为行业作出表率。

“当市场关注的焦点要么是美国经济的相对优异表现，要么是美国国债收益率上升趋势时，美元很难出现实质性的下跌趋势。”KamakshyaTrivedi领导的

TOP10热点：气胸是什么2022Ggy钙站不能用了

对于西凤酒，陕西省及其所在宝鸡市均给予了大力支持。今年6月，陕西省工信厅公示了陕西省重点产业链第二批链主企业拟确定名单，西凤集团是唯一入选的白酒产业链企业。此外，2021年，陕西省提出“打造百亿西凤、培育千亿产业”的发展思路；宝鸡市则是在去年底推出了宝鸡市凤香酒城建设和宝鸡市千亿级产业集群项目政策。

1500元/人，学生凭学生证：800元/人（注：会务费包括听课、观展、资料、餐费等，交通及住宿费用自理）

发布于：蓬莱市

欧美巨大巨粗黑人性AAAAAA不断有人在问，这个中国模型到底有什么魔力？_ZAKE欧美巨大巨粗黑人性AAAAAAR新闻

欧美巨大巨粗黑人性AAAAAA不断有人在问，这个中国模型到底有什么魔力？_ZAKE欧美巨大巨粗黑人性AAAAAAR新闻