胡桃玩旅行者的小坤坤网站一件比OpenAI发布deep research更值得关注的事情_ZAKER胡桃玩旅行者的小坤坤网站新闻
一件比OpenAI发布deep research更值得关注的事情_ZAKER胡桃玩旅行者的小坤坤网站新闻
为何雾、霾天气如此“顽固”?王伟跃分析,近期华北、黄淮到江汉、江淮等地受均压场控制,大气比较静稳,空气污染物扩散条件较差。其中,华北南部等地低层有偏南风辐合,加上太行山和燕山山脉地形阻挡,导致部分时段霾天气更明显。其间尽管会有冷空气活动暂时“压制”,但是冷空气强度较弱,不仅无法彻底清除空气污染,还会导致污染物向下游传输,冷空气间歇期污染物又会北上,来来回回形成“拉锯战”。
北京时间 2 月 3 日上午,OpenAI 突然发布了一款全新的 Agent(智能体)—— deep research。Deep research 是一款利用推理合成大量在线信息并为用户完成多步骤研究任务的 Agent,目前已整合到 ChatGPT 中。目前,ChatGPT Pro 用户已可使用相关功能,接下来 deep research 也将对 Plus 和 Team 用户开放使用。简单来说,用户只需要告诉 ChatGPT 需要一份怎样的报告,并在对话框中勾选 deep research,ChatGPT 就将查找、分析并综合数百个线上资料,创建一份相当于分析师水平的综合报告,而用时只需要 5~30 分钟。这已经是 OpenAI 近两周的第三次发布了,之前 OpenAI 发布了首款 AI Agent —— Operator 和最新推理模型 o3-mini。这三次发布都在 DeepSeek-R1 发布之后。图片来源:OpenAIYoutube 网友看热闹不嫌事大,一位网友在 deep research 发布视频下评论:"Deepseek 应该发布 R2,这样我们下周就能接触到 GPT5。"图片来源:OpenAI Youtube 账号OpenAI 的确也在想着 DeepSeek,在 OpenAI 发布 deep research 的直播演示画面中,历史聊天记录中有一个问题是:"Is Deeper Seeker a good name?(Deeper Seeker 是一个好名字吗?)"不知道这是 " 无心之失 ",还是 " 有意为之 ",但 OpenAI 很有可能最开始没想给这个新 Agent 起名 deep research,而是想 " 碰瓷 "DeepSeek,至少想留个 " 彩蛋 "。图片来源:OpenAIDeep research 由即将推出的 OpenAI o3 模型中的一个版本驱动,该版本经过优化以进行网络浏览和数据分析,可以利用推理来搜索、解释和分析互联网上的大量文本、图像和 PDF 文件,并根据搜集的信息进行灵活调整。OpenAI 展示了很多 deep research 的应用案例,比如在商业、大海捞针(Needle in a Haystack)、医学研究、用户体验设计、购物等领域的应用,并称 Deep research 可提供 " 全面、精确、可靠的研究 "" 超个性化购买建议 "" 小众的、非直观的信息 "。通过 deep research 生成的市场分析报告,有数据、图表、来源,图片来源:OpenAIDeep research 处理大海捞针问题演示,图片来源:OpenAI这不禁让我们这些搞行业分析的人倒吸了一口凉气," 年还没过完,工作就要没了?"我们把 deep research 的事情跟 DeepSeek 和 Kimi 都说了,DeepSeek-R1 安慰道:" 这种变革本质上不是替代,而是将人类智慧从信息处理的‘体力劳动’中解放,转向更高维的价值创造。" 而 Kimi 1.5 则更为直接地说:" 尽管 AI 在生成研究报告方面展现出了惊人的效率和能力,但人类分析师在理解复杂问题、与客户沟通以及提供专业建议等方面仍然具有不可替代的优势。""AI 是否能替代人类分析师 " 的话题还有待讨论,但是这次 OpenAI o3 模型通过 deep research 展现出的回答专业、复杂问题能力非常值得关注。它使用了类似人类的方法,创造了在 " 人类的最后考试 "(Humanity's Last Exam)中的最佳成绩。1. 什么是 " 人类的最后考试 "?" 人类的最后考试 " 是由 Center for AI Safety(CAIS)和 Scale AI 共同推出的一项新的基准测试(benchmark),旨在评估大语言模型(LLMs)的深度推理能力,并确定专家级人工智能(expert-level AI)何时真正到来。基准测试是评估大模型能力的重要工具,但是基准测试的难度并未与时俱进。比如热门的基准测试 MMLU(Massive Multitask Language Understanding),其在 2021 年被提出,包含了 57 个学科领域,覆盖从基础到高级的不同难度级别,涉及 STEM(科学、技术、工程、数学)、社会科学、人文、医学、法律等多个领域。很多大模型在 MMLU 基准测试上实现了超过 90% 的准确率,这限制了对最先进的大模型能力的有效测量。智源研究院副院长兼总工程师林咏华曾公开表示,有一些测评榜单完全可以靠定向的训练数据来拔高分数。"C-Eval、MMLU 以及 CMMLU,这几个类似的测评集已经有点被各个模型过度训练。" 林咏华说," 所以,观察大模型能力时,我建议大家不用过度关注这几个测试集的评分。"时代呼唤新的基准测试。2024 年 9 月,就在 OpenAI 发布 o1 模型后,CAIS 和 Scale AI 就在筹划新的基准测试—— " 人类的最后考试 "。2025 年 1 月," 人类的最后考试 " 基准测试正式推出,相关论文也发到了 arXiv 上了。在 " 人类的最后考试 " 的组织团队中,「甲子光年」发现了一个熟人——丹 · 亨德里克斯(Dan Hendrycks)。" 人类的最后考试 " 组织团队,图片来源:arXivDan Hendrycks,图片来源:UC Berkeley他是一位在机器学习、深度学习鲁棒性以及人工智能安全领域颇有影响力的研究者,目前担任非营利性组织 CAIS 的主任,同时他也是 xAI 和 Scale AI 的顾问。更值得一提的是,他是当年 MMLU 基准测试论文的一作。《MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING》论文,图片来源:arXiv让亨德里克斯下定决心发起 " 人类的最后考试 " 的是 OpenAI o1,他认为该模型 " 摧毁了最受欢迎的推理基准 "。与他有相同想法的还有 Scale AI CEO 亚历山大 · 王(Alexandr Wang),去年 9 月,他就呼吁:" 我们迫切需要更严格的测试来评估专家级模型,以衡量人工智能的快速进展。"大约四个月后,CAIS 和 Scale AI 推出了 " 人类的最后考试 " 基准测试,这是一个处于人类知识前沿的多模态基准测试。" 人类的最后考试 " 共有 3000 道题目,不要小看这 3000 道题目,它们是从 70000 道题目中经过重重筛选而来。题目筛选过程,图片来源:" 人类的最后考试 "这些题目涉及数学、人文、自然科学等 100 多个学科,由来自全球 500 多所机构的近 1000 名专家、学者精心设计,包含多项选择题和简答题,适用于自动评分。另外,这些题目都有明确且易于验证的标准答案,但大模型无法通过简单的互联网搜索快速得出结果。" 人类的最后考试 " 题目学科类型占比,图片来源:" 人类的最后考试 "之所以命名为 " 人类的最后考试 ",是因为它想成为 " 最终的 " 封闭式学术能力评估基准。「甲子光年」找到了一些 " 人类的最后考试 " 题目,可以看出这些专家、学者为了难住 AI 大模型真的是 " 绞尽脑汁 "。比如,牛津大学墨顿学院 Henry T 出了一道题:" 这是一段罗马铭文,最初是在墓碑上发现的,请提供帕尔米拉文字的译文。"图片来源:" 人类的最后考试 "还有一道题是:" 在希腊神话中,伊阿宋(希腊神话中夺取金羊毛的主要英雄,英文译名为 Jason)的外曾祖父是谁?"图片来源:" 人类的最后考试 "另外,还有来自各大知名大学的数学、物理、化学、计算机科学等学科的题目。从上至下为数学、物理、化学、计算机科学的题目,图片来源:" 人类的最后考试 "这些题目一出,一众大模型就 " 扑街 " 了。和以往的基准测试相比,包括 OpenAI 的 GPT-4o、o1,以及 Anthropic 的 Claude 3.5 Sonnet、谷歌的 Gemini 1.5 在 " 人类的最后考试 " 中的准确率呈 " 断崖式下降 "。大模型在不同基准测试中的准确率,HLE 指的是 " 人类的最后考试 ",图片来源:" 人类的最后考试 "可以看出," 人类的最后考试 " 相比以往的基准测试(例如 MMLU),更专注于通过原创且高难度的题目,尤其是数学和深度推理题,来考察模型的极限推理和解决复杂问题的能力。" 人类的最后考试 " 中有 10% 题目还考察了模型的多模态能力(比如理解图片),这也为测试增加了难度。" 人类的最后考试 " 团队在介绍文档中 " 有些得意 " 地写道:" 这表明它在测量高级、封闭式学术能力方面非常有效。"但是今天,OpenAI deep research 刷新了大模型在 " 人类的最后考试 " 中的最佳成绩,几乎是之前 o1 准确率的三倍。2.OpenAI deep research 是如何做到的?根据 OpenAI 发布的数据,在 deep research 这款 Agent 的加持下,OpenAI o3 模型在 " 人类的最后考试 " 中取得了 26.6% 的准确率,与 o1 相比,该模型化学、人文和社会科学、数学领域的进步最为明显,而且 OpenAI deep research 展示了类人化的方式,在必要时会高效找到专业信息。OpenAI deep research 在 " 人类的最后考试 " 中取得了 26.6% 的准确率,创下新高,图片来源:OpenAI值得注意的是,DeepSeek-R1 在 " 人类的最后考试 " 中的准确率要略高于 o1,这也是对 DeepSeek-R1 推理能力的认可。表格中也写明,DeepSeek-R1 和 OpenAI o3-mini 不是多模态模型,仅在文本子集进行了评估。OpenAI deep research 是如何做到的?这张表格的 ** 号部分透露了玄机——浏览和 Python 工具。Deep Research 通过端到端强化学习在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练,它学会了如何规划和执行多步骤的操作流程,以找到它需要的数据,并在必要时进行回溯和对实时信息做出反应。该模型还能够浏览用户上传的文件,使用 Python 工具绘制和迭代图表,将生成的图表和网站上的图像嵌入其回答中,并引用其来源中的特定句子或段落。由于这种训练,它在多个针对现实世界问题的公开评估中达到了新的高度。不过 OpenAI 也客观表示,deep Research 解锁了新能力,但它仍处于早期阶段,存在一些局限性。根据内部评估,它有时会在响应中产生幻觉或做出错误推断,但发生率明显低于现有的 ChatGPT。它可能难以区分权威信息和谣言,目前在信心校准(confidence calibration)方面表现较弱,常常无法准确传达不确定性。在发布时,报告和引用中可能会出现轻微的格式错误,任务的启动时间也可能更长。不过,OpenAI 预计所有这些问题都会随着使用和时间的推移而迅速改善。这不禁让人会思考一些问题," 人类的最后考试 " 真的是人类给 AI 大模型的 " 最后一场考试 " 吗?如果新的大模型取得了更高的准确率,这就意味着 AGI 的到来吗?" 人类的最后考试 " 团队认为,虽然当前的大模型在 " 人类的最后考试 " 上的准确率还比较低,但根据历史经验,基准测试会很快饱和。他们直截了当地说:"‘人类的最后考试’可能是我们需要给模型进行的最后一次学术考试,但它远非针对 AI 的最后一个基准测试。(HLE may be the last academic exam we need to give to models, but it is far from the last benchmark for AI.)"团队预计,到 2025 年底,大模型有可能在 " 人类的最后考试 " 上实现超过 50% 的准确率。在 " 人类的最后考试 " 实现高准确率将证明模型在封闭式、可验证的问题以及尖端科学知识方面达到专家级水平," 但这并不意味着它具有自主研究能力或者 AGI。"" 人类的最后考试 " 团队发表这些观点的时间是 1 月 24 日,但是现在,刚刚过去不到两周,OpenAI deep research 就展现了 " 大模型 +Agent" 具有一定自主研究能力。那么,AGI 呢?OpenAI 首席研究员 Mark Chen 在 deep research 发布会直播的最后说:"Deep research 对我们的 AGI 路线图非常重要。"koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:杨惟义
TOP1热点:伞兵终于周决吃鸡
杨志勇强调,转移支付不只是简单地中央给地方财政资金,更重要的是应该确立起一套能够充分调动中央和地方两个积极性的转移支付体制。中央对地方转移支付过多,容易滋生地方等、靠、要等问题,不利于地方积极性的发挥。地方所获得的转移支付不足,同样不利于地方。。
如刘思敏所说,服务意识是长期形成的。短期集中为旅客作出改变的“讨好型市格”,也许能解一个季度旅游旺季的燃眉之急,但只有建立更加平等的“友好型市格”,才能让网红城市走得长远。
TOP2热点:华山医院前院长客死他乡系谣言
杨志勇强调,转移支付不只是简单地中央给地方财政资金,更重要的是应该确立起一套能够充分调动中央和地方两个积极性的转移支付体制。中央对地方转移支付过多,容易滋生地方等、靠、要等问题,不利于地方积极性的发挥。地方所获得的转移支付不足,同样不利于地方。
TOP3热点:交警方阵式为患病女童开道国精产品三区四区有限公司
1月3日下午,大皖新闻记者联系了镇康县委宣传部,求证网传境外炮弹落入该县南伞镇的信息,一位工作人员表示,“确实是有这个事”,事发1月3日下午两点多钟,事发后有群众第一时间联系了救护车,伤者被送到了医院。对于炮弹来自哪里?人员伤亡情况如何?该工作人员表示,具体情况要等官方通报。
毕明欣指出,受原油走势影响,本轮变化率维持正向宽幅运行,消息面存一定利好支撑。<strong>本轮调价窗口为1月3日24时,预计零售价大概率兑现上调,届时也是新一年的首轮上调。</strong>
TOP4热点:日本插画小人两会 翻白眼
在欧美国家,因冰雪旅游而走红的城市,往往都是滑雪胜地。位于阿尔卑斯山区的瑞士孕育了大量滑雪场,2022年仅冰雪旅游一项就为瑞士带来约80亿美元(约合570亿元人民币)的收益,瑞士东部小镇库尔甚至因滑雪爱好者聚集而发展起著名的库尔音乐节。被戏称为“白色鸦片”的滑雪运动,为当地带来了大量重复性消费的游客。
即便东北菜已在全国铺开,博主们仍然有办法找到最罕见的美食。比如在“万物皆可冰糖”的标签下,冰糖锅包肉、冰糖辣条、冰糖大闸蟹、冰糖皮皮虾……外形猎奇度达标,再搭配上“挑战视频”,又是一条“爆款”在握。
TOP5热点:SEVENTEEN十周年回归预告g718.sx.张津瑜
《解放日报》发文称,上海进入内涵式增长阶段,在资源紧约束条件下,要持续推动高质量发展、创造高品质生活、提升城市核心功能、实现高效能治理。
近日,利用“中国天眼”巡天数据,相关研究团队构建并释放了世界最大的中性氢星系样本,向全世界的星系与宇宙学研究人员共享了高质量的大样本观测数据。
TOP6热点:雁回时第10集好看精产国品一二三产品99
“我们当前的房贷利率是由5年期LPR+加点组成,2023年9月份的调整是对存量首套房贷利率中的‘加点’给予下调,但本次即将迎来调整的是对LPR利率下调。”工商银行上海某支行网点从业人员对中国基金报记者解释称,2024年1月1日,是大多数购房者房贷利率重新定价的日子,因此,不少购房者的房贷利率也会从4.3%调降至4.2%,即下调10个基点。(中国基金报)
TOP7热点:被代驾因2.6元举报的KTV停业整顿两会 翻白眼
杜兆才出生于1960年3月,曾任国家体育总局局长助理,中国奥委会副主席,中国足协党委书记等职,2018年任国家体育总局副局长,并继续兼任中国足协党委书记,至被查。
TOP8热点:被代驾因2.6元举报的KTV停业整顿四川妇女BBBWBBBWM
“这是一个令人遗憾的决定。”阿根廷国家科学与技术研究理事会研究员加夫列尔·梅里诺(Gabriel Merino)认为,这是将外交政策“极端意识形态化”的典型表现。他强调,金砖国家代表了正在发展的新兴世界,与大多数西方国家和“全球北方”国家的相对停滞形成鲜明对比。
在上海全市城市更新推进大会上,上海市委书记陈吉宁说:“实施城市更新行动,是贯彻党的二十大精神、加快转变超大城市发展方式的重要举措”。
TOP9热点:刘耀文EP封面人与畜禽CORPORATION外网
据镇康县人民政府网站介绍,镇康县地处西南边陲,与缅甸果敢自治区接壤,县城南伞和缅甸果敢杨龙寨一桥相连,是中国西南最极边的一座岸城一体化“边地新城”;镇康毗邻“金三角”地区,国境线长96.358公里,无天然屏障,缅方一侧情况复杂。
TOP10热点:交警方阵式为患病女童开道两会 翻白眼
哈尔滨所赖以走红的冰雪旅游项目,更多是观光体验类产品。刘思敏指出,它们因国内游客对“打卡”游的热衷而生,但很难吸引“回头客”。而“花无百日红”又是网红时代的生存法则,网红永远追逐新鲜感和反差感,哈尔滨更难因单一的冰雪观光而“二次出圈”。