男生女生修修修轮滑鞋免费微软:两个AI相互纠错,数学再涨5男生女生修修修轮滑鞋免费分_ZAKER新闻
微软:两个AI相互纠错,数学再涨5男生女生修修修轮滑鞋免费分_ZAKER新闻
――以前所未有的力度打好污染防治攻坚战。
提升 LLM 数学能力的新方法来了——一个大模型不行,那就两个。让他们彼此合作,纠正对方的错误。这就是来自加州大学和微软研究院的最新研究成果:Flow-DPO。通过使用在线学习流(Flow)和直接偏好优化(DPO, Direct Preference Optimization),可以让 LLM 生成更加详细和精确的推理轨迹。同时,这种在线多智能体(Agent)的学习形式还能挖掘数据中的深层信息,有效避免了人类标注数据不够准确的问题。我们先一起看个例子感受一下。比如针对下面这道题:方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问 ax + 2y + 3 = 0 中,a 的值是多少?基准回答是这样的:方程 x + 2y + 3 = 0 的图形的斜率为 -1/2,因为图形垂直,所以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此,方程 ax + 2y + 3 = 0 的斜率为 2,改写为 2y = -ax - 3,然后两边除以 2,得到 y = -a/2x-3/2。将此与斜率截距形式 y = mx + b 相比,我们发现斜率 m 为 -a/2。由于我们知道斜率为 2,所以 - a/2= 2。将两边乘以 -2,得到 a = -4,答案为:-4。而Flow-DPO 的回答是这样的:要解决这个问题,我们需要了解线性方程中垂直线的概念。当两条直线垂直时,它们的斜率互为负倒数。让我们以斜率 - 截距形式复述给定方程 x + 2y + 3 = O,即 y = -1/2x - 3/2。这告诉我们直线的斜率是 - 1/2。现在,我们需要找出方程 ax + 2y + 3 = 0 所表示的直线的斜率。我们可以将方程改写成斜率 - 截距形式,即 y = -a/2x - 3/2。这告诉我们这条直线的斜率是 -a/2。由于两条直线垂直,因此它们的斜率互为负倒数。这意味着 -1/2 * ( -a/2 ) = 1,简化为 a = -4。因此,a 的值为 -4。让GTP-4o当裁判,针对两个模型的回答分析了一下,它认为答案 B(FLow-DPO)更好,原因有两点:1. 概念解释答案 A 的回答是:" 我们可以利用斜率之间的负倒数关系来求解 a"。答案 B 花时间明确解释了垂直的概念,强调垂直线的斜率是负倒数。这种回答更有教育意义,可以让读者理解数学背后的推理。2. 解题思路清晰答案 A 推导出了正确的方程并正确地求解了方程,但引入了一些不必要的步骤。例如,中间步骤涉及将方程改写为 2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。答案 B 立即使用两个方程的斜截距形式简化了方法。它有效地解释了如何提取斜率,并直接比较了两个等式的斜率,过程更直接,更容易理解。结论答案 B 的解释更清晰、更透彻,既注重概念和公式,又避免了不必要的复杂性,这种循序渐进的方法更易于理解和掌握。可以看到,在解决真实数学问题的时候,Flow-DPO 生成的推理过程不仅有更详细的指导,还避免了不必要的复杂性,增强了可读性和理解性。这是怎么做到的呢?两个大模型彼此合作针对 LLM 解决数学问题时反馈信息有限、标注数据质量不高等问题,团队提出了一种新的方法。那就是通过在线学习流(Flow)和直接偏好优化(DPO)学习来生成高质量的推理轨迹。具体分为 2 个部分:1. 增量输出生成 Flow(Incremental Output Production Flow)Flow-DPO 采用了增量输出生成 Flow,其中有两个独立的 LLM(Answer LLM 和 Stop LLM)协同工作,通过迭代通信构建解决方案。具体来说,Answer LLM 一次会生成一个有限的答案块,而 Stop LLM 则判断部分答案是否达到最终状态,两个 LLM 通过迭代式学习不断进步。Answer LLM 和 Stop LLM 的底层都是相同的基础模型,但它们使用不同的 LoRA 适配器进行了微调,可以专门完成各自的任务。而且在训练过程中,Flow-DPO 可实现更精细的控制较小的块大小,灵活适应不同的概念和方法,较大的块大小近似于单次模型生成。2. 在线 Flow 学习与回滚(Online Flow Learning with Rollouts)Flow-DPO 还会通过在线 DPO 学习和回滚来增强 Flow。对于每个输入问题,Answer LLM 会生成一个答案片段,一直持续到产生完整的回答。然后模型会在每个输出节点进行随机展开,比如在生成初始答案片段且 Stop LLM 判断为 " 否 " 后,Flow 还会生成另一个答案片段,基于之前的部分答案继续构建。如果两个答案在正确性上不同,就把它们作为答案语言模型的 DPO 对,引导到正确答案的那个片段被选为首选响应。显著提高 LLM 数学推理能力显著提高为了验证 Flow-DPO 的性能,研究团队还设计了精密的验证实验,具体设置如下数据集:实验使用了 MetaMath 数据集,该数据集基于于 GSM8K 和 MATH 数据集,并通过数据增强技术进行了增强。模型选择:实验采用了两种不同规模的模型:Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct ( 14B ) Flow 学习阶段:在 Flow 学习阶段,团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调,让它们在 DPO 训练中的能力更加专业。编译阶段:在编译阶段,收集 Flow 生成的正确推理轨迹和基线模型生成的正确推理轨迹,进行独立评估。最终结果显示,使用了 Flow-DPO 之后,Llama3 模型和 Phi3 在数学推理上的能力都大幅提升了!一起来看看具体结果分析:1.渐进验证准确率(Progressive Validation Accuracy)渐进验证准确率的准确定义,是模型在训练前对输入训练数据的累积准确度,公式和变量含义如下图所示:实验结果显示,在线 DPO 训练显著提高了 Flow 的泛化能力。对于 Llama-3-8B-Instruc 模型,在线 DPO 学习在仅 2000 个训练实例内将 Flow 的性能提高了 20%。对于 Phi-3-medium-128k-instruct 模型,在线 DPO 学习使其准确率提高了 4 个百分点,达到了83%.2.推理轨迹质量Flow 生成的推理轨迹在质量上也优于基线和模型生成的正确推理轨迹。对于 Llama-3-8B-Instruct 模型,Flow 生成的推理轨迹在 GSM8K 和 MATH 数据集上的微调准确率分别提高了 6% 和 7.8%。对于 Phi-3-medium-128k-instruct 模型,Flow 生成的推理轨迹在两个数据集上的微调准确率分别提高了 1.9% 和 2.1%.除了刚开始的垂直直线问题,研究团队还放出了很多真实的解题回答和对比,感兴趣的朋友可以查看论文的更多相关信息。没想到,不久前还让 LLM 非常头疼的数学问题现在也进步飞快!有了优秀的逻辑分析能力,我们也能期待 LLM 未来能解决更多复杂的问题了。参考链接: [ 1 ] https://arxiv.org/abs/2410.22304koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:马建国
TOP1热点:看周雨彤的文字想姥姥了
――这是一切为了人民的深厚情怀。。
TOP2热点:杨子也没放过李莲花
当前,在促进群众体育消费、提升体育场地设施水平等产业政策带动下,我国本土体育品牌迅速崛起,体育产业发展结构得到进一步优化。展望未来,在产品科技创新、销售渠道改革、服务升级、拓展品牌国际影响力等方面协同发力,体育品牌与用户加强交互,体育产业与其他产业进一步融合,群众不断升级的体育健身需求必将得到更好满足。
牢记嘱托,当好秦岭“生态卫士”,秦岭陕西段生态状况评价为“优”“优良”等级面积已首次超过99%。
TOP3热点:DeepSeek评中国最宜居城市打扑克不盖被子床上运动
(作者为本报青海分社记者)
TOP4热点:为什么不能挖鼻孔新版金银瓶1-5
学习了习近平总书记的重要指示精神,紫金山实验室未来网络研究中心主任黄韬表示:“我们的团队一直以实现网络自主可控为科研攻关的方向,这也是实现网络安全的一个重要保障。”
小花集市里每个店铺都配发了垃圾桶,石坪桥街道还安排专门人员每天对集市旁的河道进行清漂保洁。“附近就是居民区,不能让集市给居民造成困扰。”张建图说。
TOP5热点:和平精英宣布接入DeepSeek白嫩白嫩BBBBBBBBB-
习近平新时代中国特色社会主义思想内容涵盖改革发展稳定、内政外交国防、治党治国治军等方方面面,是一个逻辑严密、内涵丰富、系统全面、博大精深的科学体系。在理论学习的深化上下功夫,就要全面学习领会这一重要思想的科学体系、精髓要义、实践要求,做到整体把握、融会贯通。要坚持原原本本学,准确把握这一重要思想的世界观、方法论和贯穿其中的立场观点方法,努力掌握蕴含其中的道理学理哲理,知其言更知其义、知其然更知其所以然。要坚持联系实际学,大力弘扬理论联系实际的马克思主义学风,紧密结合新时代新实践,多思多想、学深悟透。要坚持及时跟进学,习近平总书记发表的最新重要讲话、作出的最新重要指示批示,都要第一时间组织学习、深入领会、坚决贯彻,做到学习跟进、认识跟进、行动跟进。要把全面学习和重点学习结合起来,坚持干什么就重点学什么、缺什么就重点补什么,增强学习的针对性,努力提高学习实效。
长汀经验推向全国。兴修梯田、打坝淤地、固沟保土,一座座濯濯童山变成“花果山”。新时代十年,全国共治理水土流失面积近60万平方公里,水土流失呈现面积强度“双下降”趋势。
TOP6热点:徐梦桃体验极氪离车泊入啊哈又加一指啊哈
思想领航,笃志前行,社会主义中国坚定迈向生态文明新时代。
新冠疫情防控关键期,习近平总书记多次实地察看各地生态保护情况,用意深远:不能因为经济发展遭遇困难,就开始动铺摊子上项目、突破生态保护红线的念头。
TOP7热点:李佳琦穿越短剧今日上映旗袍全开襟双人运动
村史馆记录着社会的发展变迁。新时代以来,我们如期打赢脱贫攻坚战,曾经的贫困县、贫困村,如今产业兴、环境美、人气旺,群众生活更上一层楼。小小村史馆是时代大窗口,生动记录着这段波澜壮阔的历程。
“环境就是民生,青山就是美丽,蓝天也是幸福。”“老百姓的幸福感来自哪里?就来自良好的生活环境。”“生态文明建设最能给老百姓带来获得感,环境改善了,老百姓体会也最深。”
TOP8热点:咖啡店摆满奥特曼周边赔了40万申鹤乳液狂飙开襟流口水图
浙江余杭良渚古城遗址,考古人员正在对周边平原区域进行万年以来古环境的精准复原。这一实证中华5000多年文明史最直接、最有力的证据,让世界“对中国早期文明的认识提前1000多年”。
TOP9热点:造林护林总书记始终心系这抹绿色姬小满无限奖励别人的英雄
面对消费新需求,体育产业应深化供给侧结构性改革。当前,人们的体育消费需求从“有没有”转向“好不好”,呈现多样化、多层次、多方面的特点。面对这一新趋势、新变化,体育品牌只有主动识变应变求变,加快创新步伐,加快向数字化智能化方向升级,才能更好满足群众需求,在未来的市场竞争中占据主动。
TOP10热点:白敬亭脸上笑嘻嘻心里哭唧唧全国反差婊吃瓜黑料热门网曝