jbl698家庭影院OpenAI天团集体亮相揭秘O1打造经历、美好的事物需要更多思考和时间来成就、jbl698家庭影院将出现思考数年的模型_ZAKER新闻
OpenAI天团集体亮相揭秘O1打造经历、美好的事物需要更多思考和时间来成就、jbl698家庭影院将出现思考数年的模型_ZAKER新闻
“从趋势上看,随着经济和金融恢复常态,居民资产配置也将逐步向常态回归,提前还贷预计有所减少。”周茂华表示,“鼓励金融机构通过市场化、法治化方式自主协商存量房贷利率及房贷置换等,有助于维护市场契约精神,有效降低部分购房者的按揭月供,同时也有助于缓解少数购房者提前还贷的影响。”
来源 | 瓜哥AI新知,管理智慧咨询合作| 13699120588文章仅代表作者本人观点,图片来源于pixabayOpenAI O1项目团队内部访谈完整版★内容导读:O1 系列模型主打推理能力: O1 与之前的模型(如 GPT-4)相比,最大的区别在于它是推理模型,会在回答问题之前进行更多思考,从而提供更优质的答案。O1 系列包含两个模型: O1 Preview 是 O1 的预览版,O1 Mini 是体量更小、速度更快的模型,但采用了与 O1 相似的训练框架。O1 模型的研发灵感来自于 AlphaGo: OpenAI 团队受到 AlphaGo 在深度强化学习方面成果的启发,致力于将深度强化学习与 GPT 的监督学习范式相结合,最终研发出 O1 模型。O1 模型的训练过程充满了挑战: 训练大型模型需要克服大量的技术难题,OpenAI 团队在训练过程中付出了巨大的努力。O1 模型在多个方面表现出色: O1 模型在解决数学问题、代码生成、创意写作等方面都展现出强大的能力,甚至在某些方面已经超越了人类专家。访谈全文主持人: 好的。我是 Bob McGrew,OpenAI 研究团队的负责人。我们刚刚发布了新模型系列 O1 和 O1 Mini 的预览版,我们对此感到非常兴奋。我们邀请了整个团队来向大家介绍它们。究竟什么是 O1?团队成员A: 我们将使用新名称 O1 推出一系列新模型。这是为了强调这样一个事实:与 GPT-4等以前的模型相比,您在使用 O1 时可能会感到不同。正如其他人稍后将解释的那样,O1 是一个推理模型,因此它会在回答您的问题之前进行更多思考。我们正在发布两个模型:O1 Preview 和 O1 Mini,前者是 O1 的预览版,后者是一个更小、更快的模型,使用与 O1 相似的框架进行训练。所以我们希望你喜欢我们的新命名方案 O1。主持人: 那么什么是推理呢?团队成员B: 将推理视为一种思考方式,有时我们会提出问题并需要立即得到答案,因为这些问题很简单。例如,如果您问意大利的首都是哪里,您知道答案是罗马,而且您不必想太多。但如果您对一个复杂的谜题感到疑惑,或者您想写一份真正好的商业计划书,想写一部小说,您可能需要思考一段时间。而且你想得越多,结果就越好。因此,推理是将思考时间转化为更好结果的能力,无论您正在执行什么任务。主持人: 那么你们研究这个有多久了?团队成员C: 早在 OpenAI,我们就深受 AlphaGo 成果和深度强化学习潜力的启发。因此,我们一直在深入研究这个问题,我们看到了数据和机器人技术方面的巨大规模,我们正在思考如何在通用领域进行强化学习,以获得非常强大的人工智能。然后,我们看到了 GPT 范式在规模和监督学习方面的惊人成果。因此,我们一直在思考如何将这两种不同的范式结合在一起。团队成员D: 很难精确指出这项工作的确切开始时间,但我们已经与 Jakob 和 Shimon 进行过早期探索。我们也和 Lukash、Ilya 进行过早期探索。当然,我认为这里有一个时间点是与 Jerry 一起巩固工作,让他来构建这个大规模的项目。主持人: 所以,我的意思是,这已经持续了很长时间,但我认为研究真正酷的地方在于,总有灵光乍现的时刻。在某个特定的时间点,会发生一些令人惊讶的事情,而事情真的就水到渠成了。你们有没有经历过这种灵光乍现的时刻?团队成员E: 从 GPT-2、GPT-3 到 GPT-4,当模型新鲜出炉时,总有那么一刻,人们会惊叹"哇,这个模型真的很棒",然后开始用它做一些事情。我认为在我们训练过程中,有一个特定的时刻,我们投入了比以往更多的计算资源,并首次训练模型生成连贯的思维链,我们看到模型的表现与以往截然不同,我认为这就是我的灵光乍现时刻。团队成员F: 与此相关的是,当我们考虑训练一个用于推理的模型时,首先想到的是,你可以让人类写下他们的思维过程,然后用这些数据进行训练。我的一个"啊啊哈时刻"是,当我们看到,如果你使用强化学习来训练模型,让它生成和磨练自己的思维链,它可以比让人类为它编写思维链做得更好。这是一个"啊哈时刻",表明你可以真正地扩展这个方法,并探索模型以这种方式进行推理。团队成员G: 在我到这里工作的大部分时间里,我们一直在努力让模型更好地解决数学问题,这只是一个例子。我们为此投入了大量的工作,并想出了许多不同的方法。但有一件事让我一直很困扰,每次我阅读模型的输出时,我都会感到非常沮丧。该模型似乎永远不会质疑哪里出了问题,或者它什么时候犯了错误等等。但是,在早期的一个 O1 模型中,当我们训练它并开始与它对话,开始问它这些问题时,我们发现它在我们给出的数学测试中得分更高了。我们可以观察它的推理过程,你会发现它开始质疑自己,并进行非常有趣的反思。对我来说,那是一个我意识到我们发现了一些不同的东西的时刻。这将是全新的东西。而这只是众多令人印象深刻的时刻之一。主持人: 所以当你阅读模型的思路时,你感觉像是在观察一个人,还是像是在观察一个机器人?团队成员H: 这就像是一种精神体验。团队成员I: 这是一种精神体验,但你可以与模型产生共鸣。你会想,哦,这是很多人都会犯的错误。或者你可以看到它对传统惯例的质疑。是的,这是一种精神体验,但它的行为却奇特地像人类。团队成员H: 有一次我们限制了模型的思考时间,非常有趣的是,就在时间限制快到的时候,模型就像是在说,"我必须现在就完成它,然后我就能得到答案了。"团队成员J: 于是我就继续往下说答案。我年轻的时候花了很多时间参加数学竞赛,那也是我进入人工智能领域的全部原因——试图将这个过程自动化。所以对我来说,看到模型能够像我解决这些问题时那样,一步一步地进行下去,这是一个非常重要的、完整的循环。虽然这和我当时想说的不太一样,但却非常非常相似。团队成员H: 同样令人兴奋的是,这些模型即将真正推动工程和科学的进步,这一点是可信的。如果它们看起来能够解决问题(对于我们这些自称专家的人来说可能很难),那么对于其他一些专家来说可能更难,这可能会推动科学的进步。主持人: 我们已经谈了很多关于一些伟大的时刻,以及一切都很顺利的时刻。那么,有哪些障碍呢?在哪些方面,让事情顺利进行真的很困难?团队成员E: 从根本上说,训练大型模型是一件非常非常困难的事情。有成千上万的事情可能出错,而且每次训练至少有几百件事情出错。所以这里几乎每个人都为训练这些模型付出了很多心血和汗水,并且弄清楚如何让它们在一条实际上非常狭窄的成功道路上继续学习和改进,而失败的方式却多种多样。团队成员H: 这就像想象一下,有一个发射火箭到某个行星或卫星的中心,如果你的角度偏离了一点点,你就无法到达目的地。而这就是我们的工作。团队成员K: 我们说这个模型非常好,通常比人类好,就像拥有几个博士学位一样。这有时也是一种挑战,因为我们必须经常去验证模型没有偏离轨道,没有做一些自以为是的事情。随着我们对模型进行扩展,这开始花费我们大量的时间。我们用尽了所有工业级的评估方法,但我们不知道接下来该怎么做。所以这也是一个挑战。团队成员D: 我认为我们遇到的所有这些问题,也是一种成就感。就像每一次你遇到一个难题,这对团队来说就是另一个需要克服的障碍。我对所有这些都感到非常高兴。主持人: 我们已经克服的小障碍。那么,你们测试模型的方式有哪些?你们有没有看到模型在哪些问题上做得更好了,以至于这些问题成为你们最喜欢的问题?比如,商店的营业时间是多久?团队成员H: 不知道为什么,Judge GPT 无法可靠地解决这个问题。但是我们花了一年半的时间在 O1 上。团队成员H: 现在我们可以计算出工匠草莓的数量了。团队成员M: 你应该把这条规则硬编码进去,这样才可靠。团队成员G: 我有一个习惯,我想这里其他人也有,就是每当你在 Twitter 上看到一些帖子,说大型语言模型做不到这个,你就复制粘贴进去,然后你就会发现,我们的大型语言模型可以做到。主持人: 我也可以做到。为了让人们了解他们可以用这个模型做什么,我想听听你们使用 O1 的一些方式。团队成员A: 我使用 O1 的一种方式显然是编码。我的很多工作都是关于编码的。所以,我越来越关注问题的定义,并使用所谓的 TDD(测试驱动开发)。因此,我不再编写实现功能的代码,而是专注于编写单元测试,以指定这段代码的正确行为是什么。因为我可以专注于更多这样的事情,然后将其交给 O1 去真正实现,所以我可以专注于什么是重要的,什么是需要解决的高级问题,等等。因此,这确实是一种改变我关注点的非常重要的方式。另一个领域是调试。所以现在,当我收到一些错误信息时,我就会把它交给 O1。然后它就会打印出一些东西。有时它会立即解决问题。即使它没有解决问题,它至少也提供了一些更好的问题来提问,并提供了一些方法。我可以从更多的角度来审视自己。它所做的是帮助我更加专注。团队成员E: 我越来越喜欢用 O1 来学习。我问它各种复杂的专业问题越多,就越发现它比以前的模型更少出现幻觉,并且能更好地解释这些概念。团队成员N: 对我来说,我喜欢把 O1 当作一个头脑风暴的伙伴。从如何解决一些非常具体的机器学习问题,到如何写一篇博文或一条推文,它都能帮上忙。例如,我最近写了一篇关于语言模型评估的博文。我当时问了 O1 关于博文结构、某些基准的优缺点,甚至写作风格的想法。我认为,因为它在给出最终答案之前能够进行思考,所以它能够更好地连接想法,它可以修改和批判候选的想法等等。团队成员O: 是的,我认为如果你需要一些简短的文字,并且希望它更有创意,更与众不同,那么这是一个很好的方法,可以让它给出五个不同的想法。团队成员I: 另外,如果你只是一些零散的想法,它也是一个非常棒的思考伙伴。你可以有一些想法,比如,我应该如何将这些事情联系起来?我错过了什么?通过它的最终答案,以及阅读它的思考过程,它真的可以帮助你获得更好的结果。团队成员P: 是的,我用它来尝试我们内部的一些秘密想法,并试图改进它。团队成员Q: 是的,对于独立的项目来说,它很棒。比如,我需要添加一个 GitHub 插件,但我对添加 GitHub 插件一无所知。我只是说,"嘿,我想要一个 GitHub 插件,可以显示关于 PR 的这些信息。" 然后,它就生成了代码。我会问它,"好的,那么我需要把这段代码粘贴到哪里呢?我甚至都不知道。" 它就会说,"你把它粘贴到这里。"团队成员R: 我认为,对于很多人来说,除非你看到模型在你真正关心的领域做得比人类更好,否则很难真正感受到 AGI(通用人工智能)。我认为对于围棋和国际象棋棋手来说,这种感觉在几年前就已经出现了,而对于我们这些真正重视数学和编程的人来说,我认为我们才刚刚开始有这种感觉。主持人: 我妈妈会为我们感到骄傲的。那么,在这个项目中,有哪些部分是必须做的,但人们可能没有意识到它们的重要性?团队成员 M: 我认为,构建大规模、可靠的基础设施来运行我们最大的旗舰模型训练场,以及进行研究实验,这些事情不像做研究本身那样令人兴奋,但却是必须做的。它对整个项目的成功有着巨大的影响。团队成员E: 我认为 OpenAI 的特别之处在于我们构建研究的方式:我们既重视算法的进步,也重视构建可靠的大规模系统和数据集,这些对于训练模型来说都至关重要。我为此感到非常自豪。团队成员C: 我认为这已经成为我们许多大型项目的一贯模式。每次我们将新事物扩大一个数量级时,我们都会看到一系列新的问题,包括算法和基础设施方面的问题。我们已经形成了专注于推进这两方面发展的能力。团队成员P: 我觉得最终的模型就像一件精美的艺术品。为了使其运作,我们必须确保每个步骤都能正常工作。你知道,我们会发现一些问题,并努力解决它们,我认为这就是 OpenAI 的运作方式,我为在这里工作感到非常自豪。团队成员H: 我还必须说,这里不仅有才华横溢的人,而且还有善良的人。我很高兴在这里工作,我感谢我的同事们与我一起编码、结对编程、出去玩、一起吃午饭,以及一起与模型对话。主持人: 那是什么感觉?团队成员 O: 在 Strawberry 团队工作的感觉?你可能会有很棒的想法,但大部分时间都花在运行它们,然后运行失败。这时,办公室里有可以随时求助的人就非常棒了,你可以向他们请教上一次失败的原因。因为大多数时间你都在调试那些不起作用的东西。所以,有能够帮助你的人,团队成员A: 说到帮助,我们有很多次尝试调试一个问题长达一周,然后询问 Wenda,他就能立即解决。我们开始称之为 Wenda 的祝福,并开始祝福其他人。这真的很有效,我不再认为有些问题太愚蠢而不便提出,而是会立即寻求帮助。团队成员Q: 我非常欣赏 OpenAI 的一点是,我们从每个像这样的项目中都能学到东西。我认为,从 Dota 项目中,我们认识到了工程的重要性;从 GPT-4 项目中,我们认识到了研究的重要性。我们不断地进行这样的迭代。其结果是,Strawberry 团队再次成为了迄今为止最好的大型研究项目团队,因为它建立在我们从之前项目中汲取的所有经验教训的基础之上。你可以真正地看到,在这里工作的人们开始培养出非常好的直觉:什么时候应该采用一些捷径?什么时候需要打牢基础?什么时候应该熬夜工作?什么时候应该休息一个周末,以全新的思路来解决问题?我认为,观察我们作为一家公司所取得的进步,真是太棒了。团队成员D:我喜欢的一点是,这个项目感觉非常自然。团队中的每个人都可以提出想法。人们感到自己有能力说,"嘿,我有一个想法,我坚信它,我要推动它"。而且人们也愿意脚踏实地地工作。我觉得有很多截止日期,有些是我们自己设定的,但我们都团结一致,愿意付出努力来实现目标。团队成员E: 这个项目真正展现了动力的力量,我们取得了初步的良好成果,越来越多的人对某个特定领域和特定研究感到兴奋,他们试图贡献自己的新想法,而这些新想法效果更好。事情开始像滚雪球一样,自身获得了越来越多的动力,人们相信这是正确的方向,我们应该继续推进这项研究。团队成员F: 与此相关的是,我认为我们有很多非常聪明的人,但同时也是非常有主见的人。但是,一旦看到与自己观点相矛盾的结果,人们总是愿意改变自己的观点。我认为这让事情变得很有趣。团队成员H: 能够身处一个汇聚了杰出科学家、工程师和能够构建令人难以置信的系统的人才的地方,真是太棒了。这让我感到非常谦卑。主持人: 我记得几个月前,这个模型非常聪明,但也挺无聊的。那么,赋予这个模型个性是一个怎样的过程呢?团队成员H: 是的,这很有趣。我记得我问模型生命的意义是什么,它给我的答案是 42,这个答案还不错。当我问模型什么是爱时,它告诉我,哦,那是一种奇怪的人类情感。而当我们真正赋予模型个性,让它能够进行聊天时,答案就开始变得有趣起来了。我询问关于爱的问题,它告诉我,有浪漫的爱情、亲情、自爱、无条件的爱、有条件的爱,它变得更加有用,也更加有趣了。团队成员P: 最有趣的时刻是我问了完全相同的问题,它试图用代数来定义爱。主持人: 这是个聪明的问题,O1 mini有什么故事呢?团队成员P: 我们的动机是希望以更低的成本将 O1 系列产品带给更广泛的用户。因此,我们创建了 O1 Mini,它旨在最小化地演示整个 O1 流程或框架。我们将其打造成了一个专注于推理的专家,它可能不一定知道我们最喜欢的名人的生日,但它真正理解如何有效地进行推理,并且非常聪明。这个模型真的很聪明,它比我们之前最好的 O 系列模型聪明得多,而且几乎与我们最好的模型 O1 相当,但成本和延迟却只有它的一小部分。它的局限性在于,它可能不太了解外部世界的一些知识,比如与科学或技术无关的知识,但我们试图让它与我们之前最好的迷你模型(如 O1 Mini)大致相当,并且我们正在努力进一步改进它。我非常高兴我们的外部用户能够尝试这款产品,体验它闪电般的推理和思考能力。主持人: 是什么驱动了你的持续研究?团队成员O: 我只是觉得很神奇,在这个世界上,竟然存在着这些能够进行智能推理的事物,而且它们的体积比你想象的要小得多。它们可以用不同的方式做到这一点,这真是太神奇了。团队成员B: 生活中美好的事物都需要时间来成就,而我们的模型往往回答得太快了。我们最终想要的是能够进行数月甚至数年研究的模型。我认为这是模型能够长时间思考一个问题的方向上的第一步。现在我们处于几分钟的水平,但我相信这只是一个漫长旅程的第一步,希望随着时间的推移,我们能够拥有可以思考数月甚至数年的模型。团队成员H: 我和一小群人能够对世界产生一些实质性的积极影响,这让我感到非常有意义。而且这很有趣,每天都很有趣。我喜欢与计算机对话,喜欢在集群上启动任务,我非常享受协作,这真的很棒。团队成员E: 我真的希望我们的模型是有用的,我认为技术有机会和希望改善人类的生活。我希望我们的模型能为我们工作,帮助我们解决日常问题,赋予它们推理能力,使它们能够为我们做以前做不到的事情,让我们能够更有效率地利用时间。团队成员I: 是的,我对此感到非常兴奋。我认为这些范式解锁了模型以前无法做到的事情。这不仅仅是更好地回答一些查询集,而是通过规划和纠错,它实际上已经到了一个能够解锁新能力的地步。能够为科学和发现创造新的知识,我认为这是最令人兴奋的部分之一。我认为在不久的将来,它将对其自身的发展做出越来越大的贡献。我认为这是一个非常令人兴奋的时代。团队成员D: 我想我们团队中的一些人,过去都参加过数学或编程奥林匹克竞赛。我们有巨大的个人动力去创造一个能够代表我们以及我们最擅长的事情的系统。我认为第二点与JT和Liam的观点产生了共鸣,我确实认为推理是一个比人们认为的要强大得多的原语。当你考虑可靠地完成任务时,真正基本的原语一定是推理。你会遇到瓶颈,你必须想办法绕过它们。所以我对此感到非常兴奋。团队成员A:我认为人工智能研究人员的工作就是找到投入更多计算资源的方法。**硬件人员的工作一直做得很好,成本在很长一段时间内都呈指数级下降。我们没有多少时间去寻找其他方法来投入更多的计算资源。这就像我肩上的担子越来越重,而这种新的模式找到了一种方法,可以将这种负担卸下很长一段时间。主持人: 在我们进行这个项目的整个过程中,您还观察到其他什么吗?还有什么值得一提的吗?团队成员N: 我认为一个有趣的元观察是,我们训练的每个模型都略有不同。它有自己的怪癖,几乎像手工艺品一样。因为当你观察一个可以完成这么多不同任务的模型时,你训练的每个模型在每个任务上的表现都不会完全相同。所以它可能在某些任务上表现更好,而在另一些任务上表现更差。因此,每个模型都有其独特性或个性,这几乎有点美妙。我认为。主持人: 谢谢,祝贺大家发布了这个模型。Reference: https://www.youtube.com/watch?v=tEzs3VHyBDMkoa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:刘宝瑞
TOP1热点:出门的权利
铁建重工(688425.SH)公告,公司2023年上半年新签合同/中标合计(含隧道掘进机业务、特种专业装备业务及轨道交通设备业务)91.48亿元,同比下降5.20%。。
DataTrekResearch联合创始人尼古拉斯·科拉斯(NicholasColas)则警告,
TOP2热点:284名运动员出征!巴黎残奥会中国体育代表团成立
图:白皮书联合发布现场
TOP3热点:马上评丨“干垮一个企业太简单”,岂止言论不当暴躁老阿姨csgo最新更新
“从趋势上看,随着经济和金融恢复常态,居民资产配置也将逐步向常态回归,提前还贷预计有所减少。”周茂华表示,“鼓励金融机构通过市场化、法治化方式自主协商存量房贷利率及房贷置换等,有助于维护市场契约精神,有效降低部分购房者的按揭月供,同时也有助于缓解少数购房者提前还贷的影响。”
TOP4热点:花1600元“打飞的”从昆山到浦东机场,哪些人会坐?可省多少时间?女生什么举动让男生心动
目前,纸浆价格已经逐渐进入下行周期,生活用纸企业有望迎来业绩反转。
“欧洲仍然严重缺乏早期光伏价值链商品的产能,这意味着距离独立的太阳能供应链还有很长的路要走。”
TOP5热点:马上评|学生不及格率高,能怪老师“太严”吗?成人优品24小时自助售货店商品
潜在的对冲手段是
TOP6热点:生物大灭绝“祸首”?《科学》最新论文探究巨型陨石来源之谜jdgx五十到六十多岁女
业内人士表示,存量商业贷款利率大大高于最新的房贷利率,叠加近年楼市下行,公积金贷款额度不如前些年紧张,“商转公”的政策有一定可行性。中指研究院指数事业部市场研究总监陈文静认为,“商转公”业务有利于购房者减轻还贷负担,尤其是过去几年购房贷款利率比较高,“商转公”之后,房贷利率能明显下调。
TOP7热点:网友家苹果上长蘑菇引来中科院博士研究,刚栽培的菌菇已寄到所以,女人什么样取决于自己的男人
酸锂期货首日上市大跌符合基本面远期走弱逻辑。2023年碳酸锂供需总体或维持在相对紧平衡的状态,今以来碳酸锂上游投产持续推进,澳洲锂矿供应相对稳定,中资企业在非洲投资的锂矿项目进展顺利,锂矿预计下半年陆续到港,国内项目下半年也将逐步形成有效增量。随着后续需求增速减缓及上游产能释放,需求端增速预计相对保守,因此从今年三季度开始碳酸锂供需缺口将不断收窄,2024年一季度开始供应或阶段性过剩。基本面逻辑支撑远期价格中枢下调。
TOP8热点:泰国前总理他信获赦免,将被立即释放loveme动漫免费观看第一季
会议强调,要以学正风聚人心,坚持不懈涵养良好政治生态,夯实高质量发展的稳健根基。大力营造求真务实的风气,树立正确的政绩观,完整准确全面贯彻新发展理念,坚持高质量发展。大力营造担当作为的风气,确保对上真贯彻、横向真沟通、对下真服务,做实干部“能上能下”,落实好“三个区分开来”,构建良好干事创业氛围。大力营造攻坚克难的风气,促进各级领导干部勇担当、善管理、强合规、重人本,促进各岗位员工肯干事、会干事,精小事、成大事,切实提升全行工作质量、工作效率和服务水平。大力营造清正廉洁的风气,筑牢思想防线、从严监督管理、保持反腐败高压态势,坚持做到同志之间“清清爽爽”、上下级之间“规规矩矩”、银政企之间“亲清统一”。
2020年,公司半绝缘型碳化硅单晶炉实现对天岳先进的首台供应及验证。
TOP9热点:内蒙古三家区属地勘单位重组,总部中层以上干部由115名减至49名夏晴子秦可欣中秋节欢迎仪式
双方还将在研发及CSO(医药合同销售)开展一系列合作。在2023年至2025年间,先瑞达对波士顿科学提供研发支持和CSO服务涉及交易金额的上限为6000万美金、1.1亿美金、1.45亿美金,波士顿科学对先瑞达提供研发支持和CSO服务涉及交易金额上限为5000万美金、9000万美金和1.2亿美金。
福特本周早些时候下调F150Lightning电动卡车价格,导致公司股价下跌。此外,福特还将部分车型降价17%。通用汽车二季度汽车销量猛增19%。
TOP10热点:山东一市监局被指要求涉传销企业认罚2100万,官方成立调查组最好看的中文字幕国语电视剧
ETF比ETF联接的股票更高,不能低于95%,后者不低于90%。