男生女生修修修轮滑鞋免费_紧急通知_微软：两个AI相互纠错，数学再涨5男生女生修修修轮滑鞋免费分

微软：两个AI相互纠错，数学再涨5男生女生修修修轮滑鞋免费分_ZAKER新闻

――以前所未有的力度打好污染防治攻坚战。

提升 LLM 数学能力的新方法来了——一个大模型不行，那就两个。让他们彼此合作，纠正对方的错误。这就是来自加州大学和微软研究院的最新研究成果：Flow-DPO。通过使用在线学习流（Flow）和直接偏好优化（DPO, Direct Preference Optimization），可以让 LLM 生成更加详细和精确的推理轨迹。同时，这种在线多智能体（Agent）的学习形式还能挖掘数据中的深层信息，有效避免了人类标注数据不够准确的问题。我们先一起看个例子感受一下。比如针对下面这道题：方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问 ax + 2y + 3 = 0 中，a 的值是多少？基准回答是这样的：方程 x + 2y + 3 = 0 的图形的斜率为 -1/2，因为图形垂直，所以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此，方程 ax + 2y + 3 = 0 的斜率为 2，改写为 2y = -ax - 3，然后两边除以 2，得到 y = -a/2x-3/2。将此与斜率截距形式 y = mx + b 相比，我们发现斜率 m 为 -a/2。由于我们知道斜率为 2，所以 - a/2= 2。将两边乘以 -2，得到 a = -4，答案为：-4。而Flow-DPO 的回答是这样的：要解决这个问题，我们需要了解线性方程中垂直线的概念。当两条直线垂直时，它们的斜率互为负倒数。让我们以斜率 - 截距形式复述给定方程 x + 2y + 3 = O，即 y = -1/2x - 3/2。这告诉我们直线的斜率是 - 1/2。现在，我们需要找出方程 ax + 2y + 3 = 0 所表示的直线的斜率。我们可以将方程改写成斜率 - 截距形式，即 y = -a/2x - 3/2。这告诉我们这条直线的斜率是 -a/2。由于两条直线垂直，因此它们的斜率互为负倒数。这意味着 -1/2 * ( -a/2 ) = 1，简化为 a = -4。因此，a 的值为 -4。让GTP-4o当裁判，针对两个模型的回答分析了一下，它认为答案 B（FLow-DPO）更好，原因有两点：1. 概念解释答案 A 的回答是：" 我们可以利用斜率之间的负倒数关系来求解 a"。答案 B 花时间明确解释了垂直的概念，强调垂直线的斜率是负倒数。这种回答更有教育意义，可以让读者理解数学背后的推理。2. 解题思路清晰答案 A 推导出了正确的方程并正确地求解了方程，但引入了一些不必要的步骤。例如，中间步骤涉及将方程改写为 2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。答案 B 立即使用两个方程的斜截距形式简化了方法。它有效地解释了如何提取斜率，并直接比较了两个等式的斜率，过程更直接，更容易理解。结论答案 B 的解释更清晰、更透彻，既注重概念和公式，又避免了不必要的复杂性，这种循序渐进的方法更易于理解和掌握。可以看到，在解决真实数学问题的时候，Flow-DPO 生成的推理过程不仅有更详细的指导，还避免了不必要的复杂性，增强了可读性和理解性。这是怎么做到的呢？两个大模型彼此合作针对 LLM 解决数学问题时反馈信息有限、标注数据质量不高等问题，团队提出了一种新的方法。那就是通过在线学习流（Flow）和直接偏好优化（DPO）学习来生成高质量的推理轨迹。具体分为 2 个部分：1. 增量输出生成 Flow（Incremental Output Production Flow）Flow-DPO 采用了增量输出生成 Flow，其中有两个独立的 LLM（Answer LLM 和 Stop LLM）协同工作，通过迭代通信构建解决方案。具体来说，Answer LLM 一次会生成一个有限的答案块，而 Stop LLM 则判断部分答案是否达到最终状态，两个 LLM 通过迭代式学习不断进步。Answer LLM 和 Stop LLM 的底层都是相同的基础模型，但它们使用不同的 LoRA 适配器进行了微调，可以专门完成各自的任务。而且在训练过程中，Flow-DPO 可实现更精细的控制较小的块大小，灵活适应不同的概念和方法，较大的块大小近似于单次模型生成。2. 在线 Flow 学习与回滚（Online Flow Learning with Rollouts）Flow-DPO 还会通过在线 DPO 学习和回滚来增强 Flow。对于每个输入问题，Answer LLM 会生成一个答案片段，一直持续到产生完整的回答。然后模型会在每个输出节点进行随机展开，比如在生成初始答案片段且 Stop LLM 判断为 " 否 " 后，Flow 还会生成另一个答案片段，基于之前的部分答案继续构建。如果两个答案在正确性上不同，就把它们作为答案语言模型的 DPO 对，引导到正确答案的那个片段被选为首选响应。显著提高 LLM 数学推理能力显著提高为了验证 Flow-DPO 的性能，研究团队还设计了精密的验证实验，具体设置如下数据集：实验使用了 MetaMath 数据集，该数据集基于于 GSM8K 和 MATH 数据集，并通过数据增强技术进行了增强。模型选择：实验采用了两种不同规模的模型：Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct ( 14B ) Flow 学习阶段：在 Flow 学习阶段，团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调，让它们在 DPO 训练中的能力更加专业。编译阶段：在编译阶段，收集 Flow 生成的正确推理轨迹和基线模型生成的正确推理轨迹，进行独立评估。最终结果显示，使用了 Flow-DPO 之后，Llama3 模型和 Phi3 在数学推理上的能力都大幅提升了！一起来看看具体结果分析：1.渐进验证准确率（Progressive Validation Accuracy）渐进验证准确率的准确定义，是模型在训练前对输入训练数据的累积准确度，公式和变量含义如下图所示：实验结果显示，在线 DPO 训练显著提高了 Flow 的泛化能力。对于 Llama-3-8B-Instruc 模型，在线 DPO 学习在仅 2000 个训练实例内将 Flow 的性能提高了 20%。对于 Phi-3-medium-128k-instruct 模型，在线 DPO 学习使其准确率提高了 4 个百分点，达到了83%.2.推理轨迹质量Flow 生成的推理轨迹在质量上也优于基线和模型生成的正确推理轨迹。对于 Llama-3-8B-Instruct 模型，Flow 生成的推理轨迹在 GSM8K 和 MATH 数据集上的微调准确率分别提高了 6% 和 7.8%。对于 Phi-3-medium-128k-instruct 模型，Flow 生成的推理轨迹在两个数据集上的微调准确率分别提高了 1.9% 和 2.1%.除了刚开始的垂直直线问题，研究团队还放出了很多真实的解题回答和对比，感兴趣的朋友可以查看论文的更多相关信息。没想到，不久前还让 LLM 非常头疼的数学问题现在也进步飞快！有了优秀的逻辑分析能力，我们也能期待 LLM 未来能解决更多复杂的问题了。参考链接： [ 1 ] https://arxiv.org/abs/2410.22304

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:马建国

TOP1热点：看周雨彤的文字想姥姥了

――这是一切为了人民的深厚情怀。。

5月16日，习近平总书记在山西运城市考察时强调：“黄河流域生态保护和高质量发展，是党中央从中华民族和中华文明永续发展的高度作出的重大战略决策，黄河流域各省区都要坚持把保护黄河流域生态作为谋划发展、推动高质量发展的基准线，不利于黄河流域生态保护的事，坚决不能做。”

TOP2热点：杨子也没放过李莲花

当前，在促进群众体育消费、提升体育场地设施水平等产业政策带动下，我国本土体育品牌迅速崛起，体育产业发展结构得到进一步优化。展望未来，在产品科技创新、销售渠道改革、服务升级、拓展品牌国际影响力等方面协同发力，体育品牌与用户加强交互，体育产业与其他产业进一步融合，群众不断升级的体育健身需求必将得到更好满足。

牢记嘱托，当好秦岭“生态卫士”，秦岭陕西段生态状况评价为“优”“优良”等级面积已首次超过99%。

TOP3热点：DeepSeek评中国最宜居城市打扑克不盖被子床上运动

（作者为本报青海分社记者）

“我们每天都会抽检几家商户，每周会把集市上的商户巡查一遍。”朱仁兴说，除了定期对从业人员健康证明、进货票据、贮存条件等情况进行督查，监管人员还应商户邀请，到现场宣传各类食品安全常识。“我们和商户的心愿一致，都希望集市越来越好。”

TOP4热点：为什么不能挖鼻孔新版金银瓶1-5

学习了习近平总书记的重要指示精神，紫金山实验室未来网络研究中心主任黄韬表示：“我们的团队一直以实现网络自主可控为科研攻关的方向，这也是实现网络安全的一个重要保障。”

小花集市里每个店铺都配发了垃圾桶，石坪桥街道还安排专门人员每天对集市旁的河道进行清漂保洁。“附近就是居民区，不能让集市给居民造成困扰。”张建图说。

TOP5热点：和平精英宣布接入DeepSeek白嫩白嫩BBBBBBBBB-

习近平新时代中国特色社会主义思想内容涵盖改革发展稳定、内政外交国防、治党治国治军等方方面面，是一个逻辑严密、内涵丰富、系统全面、博大精深的科学体系。在理论学习的深化上下功夫，就要全面学习领会这一重要思想的科学体系、精髓要义、实践要求，做到整体把握、融会贯通。要坚持原原本本学，准确把握这一重要思想的世界观、方法论和贯穿其中的立场观点方法，努力掌握蕴含其中的道理学理哲理，知其言更知其义、知其然更知其所以然。要坚持联系实际学，大力弘扬理论联系实际的马克思主义学风，紧密结合新时代新实践，多思多想、学深悟透。要坚持及时跟进学，习近平总书记发表的最新重要讲话、作出的最新重要指示批示，都要第一时间组织学习、深入领会、坚决贯彻，做到学习跟进、认识跟进、行动跟进。要把全面学习和重点学习结合起来，坚持干什么就重点学什么、缺什么就重点补什么，增强学习的针对性，努力提高学习实效。