积积桶积积免费软件网站推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队积积桶积积免费软件网站的这项技术_ZAKER新闻
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队积积桶积积免费软件网站的这项技术_ZAKER新闻
如果没有这次停电,人们或许不会认识垣曲。这座距离河南省界两三百公里、面积1620平方公里的晋南县城,三面环山,97.2%以上是山地丘陵。群山之中,垣曲的一张名片是丰富的矿藏。据官方记载,垣曲迄今探明的矿产资源有46种,列山西之冠;铜矿储量3亿吨,居全国县级第三。不过,直到2019年,垣曲县才正式退出贫困县序列。
2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:" 这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧!"一时间,Kimi k1.5 成了话题王者。但在一个月后的 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的技术爆料帖,博主直言 k1.5 所用到的强化学习算法,其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。消息一出,瞬间吸引了数万人关注。Kimi k1.5 背后的 SPPO 技术在这则爆料中,博主 Yue Wu 先是对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO 是一种自博弈算法,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:值得一提的是,点开论文链接,你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。紧接着,他开始对 SPPO 技术进行解析:通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:SPPO 中的胜率充当奖励函数(红色部分)。分区函数项自然地成为(软)值函数(蓝色部分)。那么这到底意味着什么呢?标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的发展趋势:离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法更加精细的迭代 → 回归到在线强化学习鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。SPPO 技术背后的科研大牛除了提出助力 Kimi k1.5 大获成功的 SPPO 技术外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学人工智能实验室继续着自己的科研之路。除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab 和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药物发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式人工智能的发展做出了贡献。雷峰网还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:孙寿康
TOP1热点:手机补贴不用交旧手机
英国市场情报提供商蓝色计划公司的研究主管大卫·梅里曼表示:“建立分散但分布于友好国家的供应链,或许是最有可能的发展方式。确实要强调的是,中国人在这方面遥遥领先。”。
夜渐渐深了,在第一晚的慌乱与意外中,人们最终睡去。对于一些人来说,停电前吃过的热乎晚饭与厚实墙体保存的暖气余温仍在继续发挥作用。难题是,电还要停多久,他们接下来如何抵御寒冷与饥饿。
TOP2热点:“星舰”第七次试飞 第二级飞船失联
估摸着地震过去了,老师们跑回宿舍,为学生抱来被子,又找到些废旧桌凳,试着烧火取暖。与此同时,学校与学生家长取得联系,陆续有学生被接走。走的人要拍一张照片发到班级群里,确认安全。
他家的房子扛不住,瓦片砖头一块块往下掉,张冬峰慌忙拖着父母和孩子跑到屋外的空地。二女儿的老师打来电话,他没说两句,手机没电了,村里又断了水电。直到第二天,张冬峰才和学校恢复联系。
TOP3热点:贾玲张小斐被拍到一起工作世界姓交大比赛女冠军美国
9月22日,中央纪委国家监委第十三审查调查室二级巡视员汪幼勇涉嫌严重违纪违法,主动投案,接受中央纪委国家监委纪律审查和监察调查。汪幼勇也是中纪委重磅部署后,首个主动投案的中纪委“内鬼”。
TOP4热点:多地迎新春活动缤纷多彩7x7x7x任意槽2023进口
此外,供气企业面临沉重的供气需求,而分散零碎的基础设施又导致企业运行成本居高不下,政府要求居民生活供气必须限价,而承诺的补贴又难以及时到位,于是供气企业供的越多亏的越多,干脆停供或限供。
在寻求打造不含中国的稀土供应链过程中,加拿大新性能材料公司也遇到了自己的挑战。该公司已在中国生产磁铁,但它着手建立一条替代供应链,以满足对不含中国元素的稀土与日俱增的需求。
TOP5热点:麦琳回应“从11万恶评删到1万”一面膜上边一面膜下边免费的
方正证券研报称,大盘既已破位,具体最低点在哪里不得而知,但无论是基本面因素,还是情绪面因素,乃至技术面因素,可以确定的是,大盘低点就在附近。大盘的每一次破位运行,都会对场外中长期投资资金形成引力,也就制约了大盘回调空间,反而会打开向上空间。(中新经纬APP)
TOP6热点:曾黎双语科普中国非遗抹额幼儿幼儿幼儿nouuu幼儿
一位晋中供电公司的工作人员参与了支援。他在13日晚上10点接到支援垣曲的通知,随后便开始装设备,走高速直奔垣曲。他回忆,一路行车,一路在高速口收各个县送的发电机,日常不过4小时车程,那天总共花费12小时才到达垣曲。
梅里曼说,西方公司在稀土磁铁生产方面的专业知识有限,而且往往很难让金融资助者相信它们的企业能成活。由于严格的环保要求,搞定矿区并不容易。梅里曼说:“有很多困难需要克服。”
TOP7热点:泰国预计近77万中国游客将入境Zoom与人性Zoom-Doc
差不多在同一时间,柳沟乡尕集春蕾小学和积石山县移民初级中学的老师也踏上了送学生回家的路途。积石山县移民初级中学教师乔海龙回忆,12月19日10点左右,学校为滞留学生买了包子、煮了鸡蛋,派了5名教师、3辆车,送学生回家。有学生家里受灾严重,道路难以直通村庄,学校便与当地乡政府联系,将他们送至乡政府大院,由政府工作人员将孩子们挨个护送回家。
TOP8热点:高校开减肥营 42人12周减重900斤钢钢钢钢钢钢钢好多痛
美国《华尔街日报》网站12月15日发表题为《通往没有中国参与的供应链之路是漫长的》的文章,作者为乔恩·埃蒙特。全文摘编如下:
家里一切平安,韩福成却怎么都睡不着,持续刷新着手机里关于地震的新闻,“感觉自己除了给家里人情绪宽慰,其他什么事都做不了”。
TOP9热点:女厅官花4000万买别墅850万装修八重神子被焯出白水了怎么办
他家的房子扛不住,瓦片砖头一块块往下掉,张冬峰慌忙拖着父母和孩子跑到屋外的空地。二女儿的老师打来电话,他没说两句,手机没电了,村里又断了水电。直到第二天,张冬峰才和学校恢复联系。
积石山县移民初级中学副校长长永胜记得,送走全部学生后,学校的几名教师开始打扫操场,其中一名教师流泪了。他说他感到后怕,不敢设想前一晚,快2000名学生遭遇危险的任何可能。
TOP10热点:手机补贴不用交旧手机坤吧放到欧派上
2017年,河北因取暖难而闹出了诸如“小学供暖延迟,学生隆冬跑步取暖”“医院发出求救信,请求不要限气”“村民晒太阳取暖”等热点事件。笔者就是从当时开始关注华北地区的冬季取暖难问题的。
现代社会中人们的命门——手机——也被断电拿捏了。干了一天的活,又陪着孩子写作业,安亚鹏的手机很快就要没电了。一位垣曲居民也记得,停电后,她才发现自己的手机只有40%的电,吓得她当晚不敢再玩手机。