经济动态-"夫妻生活麦片"-Op夫妻生活麦片enAI发布首款具有推理能力的模型o1，可“思考”后自我核实答案正确性

Op夫妻生活麦片enAI发布首款具有推理能力的模型o1，可“思考”后自我核实答案正确性

一、要严格遵守《中华人民共和国价格法》《中华人民共和国反不正当竞争法》《明码标价和禁止价格欺诈规定》等规定，不得违反自愿、平等、公平、合理、诚实信用的原则。遵守法律法规规定和商业道德，依法合理制定价格，开展公平竞争。

OpenAI旗下首款具有推理能力的AI大语言模型加速袭来。两天前，尚有消息称代号为“草莓”的推理功能模型预计在两周内发布，9月12日周四，这款模型已经以“OpenAI o1”（英文字母O+阿拉伯数字1）的正式名称发布了。不过，作为o1系列模型的首批版本，OpenAI仅推出了o1-preview预览版和o1-mini迷你版，而且是分阶段向付费用户、免费用户和开发者推出，且开发者的使用价格颇为昂贵。 OpenAI在社交媒体官宣发布o1模型 o1模型使用成本至少是GPT-4o的3倍，初始发送信息数有限，采用全新方法训练据介绍，o1新模型通过背后崭新的训练方式，变得可以回答更复杂的编程、数学与科学难题，在给出答案前会先“思考”，而且速度比人类更快。更小、更便宜的迷你版聚焦在编程用例。ChatGPT Plus和Team付费用户即刻起便能访问这两种模型，从用户界面AI模型选择器的下拉菜单中手动选择。ChatGPT Enterprise和Edu用户下周能使用这两种模式，未来某个未知时刻还将向所有免费用户提供o1-mini的访问权限。OpenAI希望以后能根据提示语自动选择正确的模型。目前仅能在下拉菜单中手动选择模型，没有取代GPT系列模型不过，开发人员访问o1非常昂贵，在API（应用程序编程接口）中，o1-preview每100万个输入token收费15美元，是GPT-4o成本的三倍，每100万个输出token收费60美元，是GPT-4o成本的四倍。100万个token即模型解析文字块的规模大小，相当于大约75万个单词。OpenAI的研究负责人Jerry Tworek对媒体称，o1背后的训练方式与之前的模型有着根本不同。首先，o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练”，这个数据集中包含“推理数据”和专门为其量身定制的科学文献。其次，之前的GPT模型训练方法是模仿数据集的规律/范式（pattern），而o1采用“强化学习”的方式，通过奖励和惩罚来教导模型自行解决问题，再通过“思路链”（chain of thoughts）来处理用户查询的问题，给出思路链的总结摘要版，类似于人类一步步来处理问题的方式。右图可以点开思路链看o1模型如何“思考” 对于一个复杂数学问题的思路链展示图OpenAI认为，这种全新的训练方法会让o1模型更加准确，会减少瞎编回答的“幻觉”问题，但也无法完全杜绝出现“幻觉”。新模型与GPT-4o的主要区别在于能够更好地解决编程和数学等复杂问题，同时还能完善其推理过程、尝试不同策略，并识别和修正自身答案中的错误。优势：对复杂的推理任务是重大进步，思考越久质量越高，安全性提升，展现思考步骤在优势方面，OpenAI称o1模型对于复杂的推理任务来说是个重大进步，代表了人工智能能力的新水平，而且模型“思考”的时间越长，在推理任务上的表现就越好，因为o1可以花更多时间来考虑一个复杂问题的所有部分，从而有效地进行事实核查。具体来说，o1模型的推理能力大幅提升，在物理、化学和生物等学科的Challenging基准测试中表现与博士生（即专家型人才）相当。而且其数学和编程能力爆表，在一项国际奥数竞赛（IMO）的资格考试中正确率高达83%，GPT-4o的正确率只有13%，在Codeforces在线编程竞赛中的成绩也高达89百分位，即前头只有11%的人类选手比o1模型出色。同时，o1模型的安全性得以提升，比之前模型更能遵守安全准则，并且更能抵抗产生有害内容。在用户试图绕过安全规则的“越狱测试”中，在最严格的标准下GPT-4o在百分之中仅得22分，o1预览版的分数却高达84。公司称其“没有促进超过现有资源已经可能实现的评估风险。”公司称，适用人群包括“正在解决科学、编程、数学和类似领域复杂问题的人士”，这些增强的推理能力可能特别有用。o1模型擅长准确生成和调试复杂代码，迷你版是款速度更快、比预览版便宜80%的推理模型，在编程方面尤其高效，适用于需要推理但不需要广泛世界知识的应用程序：“例如，医疗研究人员可以使用o1来注释细胞测序数据，物理学家可以使用o1来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用o1来构建和执行多步骤工作流程。”测试过该模型的汤森路透副总裁Pablo Arredondo还发现，在分析法律摘要和解决LSAT（法学院入学考试）的逻辑题等方面，o1模型比OpenAI之前的模型更好：“我们发现它可以处理更实质性、更多方面的分析，我们的自动化测试还表明，它在处理一系列简单任务时都有所进步。”此外，如果点击“展示思路链”便可发现，o1模型在“思考”时似乎格外“拟人化”，加入了“嗯……”、“我很好奇”、“我正在思考”、“好的，让我看看”等口语化的表达来推进思考步骤。公司高管称，OpenAI 并不认为人工智能模型思维等同于人类思维，这种更具人性化的表达旨在展示模型如何花费了更多时间处理问题并全面、深入地解决问题。可看到思路链中充斥着一些人类口语化的表达缺点：无法浏览实时网页、无法上传文件和图片、缺乏广泛世界知识、或更易产生幻觉但作为o1模型的最初始版本，今日发布的o1-预览版也有明显缺点。例如，只是一款“纯文字版”，暂时无法浏览网页信息以及上传文件和图片，也就是说不具备ChatGPT的许多使用功能，在许多常见用例中不如GPT-4o那么强大，而且还有用量限制，o1预览版每周上限为30条消息，迷你版每周上限为50条。其他被提及的局限性包括：o1模型在很多领域的能力不如GPT-4o，在关于世界的事实知识方面表现不佳；有的用例下推理能力较慢，可能需要更长的时间来回答问题；目前o1只是一个纯文本模型，缺乏针对特定文档进行推理，或者从网络收集实时信息的能力。此外，让AI模型玩井字棋（Tic-Tac-Toe）一直被认为是个业界难题，拥有推理能力的o1新模型也还是会在这个游戏中出错，即无法完全攻克技术难关。OpenAI还在一篇技术论文中承认，其收到了一些“轶事反馈”，称o1预览版和迷你版比GPT-4o及其迷你版更容易产生“幻觉”，也就是AI仍在很自信地编造答案，而且o1很少会承认它不知道问题的答案。知名科技媒体Techcrunch指出，OpenAI在o1模型相关的博文中点明，其决定不向用户展示这一新模型的原始“思维链”，而是选择在答案中给出思维链的总结摘要，目的是为了维持“竞争优势”，为了弥补可能的缺点，“我们努力教导模型在答案中重现思路链中的任何有用想法。”OpenAI也承认在训练AI模型推理能力方面的竞争压力很大：“OpenAI可能率先推出了o1。但假设竞争对手很快也会效仿并推出类似的模型，那么公司真正的考验将是让o1得到广泛应用。OpenAI未来将不断推出o1模型的更新版本，目标是对推理时间长达数小时、数天甚至数周的o1模型进行实验，以进一步提高其推理能力。除了模型更新之外，我们还希望给o1模型添加浏览网页、文件和图片上传等功能，让它对每个人都更有用。在o1系列之外，我们还计划继续开发和发布GPT系列中的模型。”在o1正式发布前，曾有媒体称其最早可能在本周向有限数量的用户开放。而且OpenAI并不是唯一致力于开发具有推理能力AI模型的公司，Anthropic和谷歌也都宣称其先进的人工智能模型具有“推理”能力：“o1模型的发布，正值OpenAI寻求（以1500亿美元的超高估值）筹集数十亿美元资金，并且在开发越来越复杂的人工智能系统方面遭遇更激烈的竞争之际。”

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:郝爱民

TOP1热点：16天票房突破100亿！《哪吒2》为啥这么能打？对电影行业有哪些启示？

广东能创科技有限公司总经理高继明、天津清研储能科技有限公司董事长刘中、远程新能源商用车集团首席科学家、醇氢科技总经理刘汉如带来《甲醇在线制氢技术及应用》、《“超能电容”动力以及电力储能系统》、《绿色甲醇循环经济产业化实践》的主旨演讲，从企业创新方面，展示了甲醇能源应用的成果和前景。。

据介绍，“大美中国”出版项目实施3年多来，已出版的多个品种，先后进入中宣部多项重点支持项目。市场发行基本上达到了预期目标。尤其是《北京名物》一书和“手绘北京”系列外宣画册，分别进入了2021年度、2022年度、2023年度北京市文化引导基金项目。并在“京杭对话”活动中进行了重点推介。

TOP2热点：百亿哪吒背后的动画新王光线：如何重塑动画电影“肉身”

就业素来是关系到国计民生的重大问题。从发展的眼光看，随着我国经济结构优化、动力转换，新的劳动形态、新的就业方式、新的创业路径会不断涌现出来。创造条件推动“互联网+就业”展现更大能量，必能为促进就业形势企稳好转、实现更充分更高质量就业打牢坚实根基。

熊天赐告诉记者：“竞争重要岗位时，选拔过程设置了多重考核，除了考察每个人的日常表现，最后还要接受总师们关于技术细节的当面‘质询’，答得不好就会被淘汰。”

TOP3热点：市民反映燃气收费异常，官方：重庆燃气集团整改不力，拟从重罚款810万仙女jiojio帮你安慰

淄博是齐国故都、陶琉名城，拥有120年的近现代工业历史。作为一座老工业城市，淄博如何实现数字文化产业“破圈”？靠什么玩转“数字”前沿？

6月18日，是党的群众路线教育实践活动工作会议召开十周年。2013年6月18日，在党的群众路线教育实践活动工作会议上，习近平总书记指出，要集中解决形式主义、官僚主义、享乐主义和奢靡之风这“四风”问题。

TOP4热点：首席连线丨百亿票房加冕，《哪吒2》何以燎原9分钟10秒撞玻璃

胃肠道疾病也是高温天儿童易出现的疾病。王丽靖表示，夏天吃生的瓜果蔬菜较多，儿童喜欢饮用冰镇饮品，食物变质的可能性也在增高，容易出现腹泻等情况。建议注意饮食、保持卫生，根据儿童胃肠道疾病情况及时就医。

创新执行模式

TOP5热点：言短意长｜国台办春节后首场发布会很有“料”精品国色

国务院国资委和6家中央企业对督察移交的23个责任追究问题共追责问责336人，其中，给予党纪政务处分183人，诫勉63人，其他处理90人。

中国科学院院士李灿在《液态太阳燃料-绿色甲醇》报告中指出，世界能源危机和气候危机正推进新能源产业快速发展，推广使用绿色甲醇是实现交通领域“碳中和”切实可行的路径。

TOP6热点：《哪吒2》票房破100亿！我国影史首部百亿元票房影片诞生zztt71.ccm黑料不打烊

2023年6月1日，依据《中华人民共和国安全生产法》第一百一十四条第一款第一项，定安县综合行政执法局对广东长茂通信科技有限公司作出罚款30万元的行政处罚。依据《中华人民共和国安全生产法》第九十五条第一项、第九十六条的规定，定安县综合行政执法局对2名事故有关责任人员分别作出罚款30680元、罚款7973元的行政处罚。海南省通信管理局将事故情况在行业内进行了通报，督促各方深刻汲取事故教训、强化安全责任落实，并部署常态化措施进一步加强施工现场安全管理。

泽尼卡－戈茨还表示，他们将胚胎培养到“刚好超过自然胚胎发育14天的阶段”。这种合成人类胚胎几乎可以发育成体内的任何细胞类型。

TOP7热点：王毅：如果美方执意打压不愿同中方相向而行，中国必将奉陪到底7086伙计低帅靓仔精华区

6月18日，云雾在湖南张家界国家森林公园天子山峰林间飘荡（无人机照片）。

截至目前，重庆国际铁路班列累计开行超2.2万列、运输集装箱超150万标箱，居全国第一。其中，重庆经西部陆海新通道累计运输货物超40万标箱、货值约700亿元，是通道沿线运输货物最多、货值最高的城市，呈现出强劲的上升势头，开出了“一带一路”建设的“加速度”。孙凯芳摄（人民图片网）

TOP8热点：湖北仙桃拟为下水救人白马设立雕像，主人依立拜：白马永远在我心里四虎2023永久免费人口

当前，各地城市规模日益发展，社会结构日趋多元，群众利益诉求复杂多样，治理难度不断增大。积极应用数字技术，让城市更聪明、更智慧，成为推动城市治理体系和治理能力现代化的必由之路。

国家文物局表示，各地文物主管部门要加强组织领导，指导案例主体单位进一步凝练做法、总结经验，并予以广泛宣传推介，激发创新创造活力，助推文物事业高质量发展。

TOP9热点：徐浩已任云南省副省长，此前担任农发行副行长黄色性老图片

如今，丁河楼村的主导产业和特色产业互为促进、两冀齐飞，呈现出良好发展态势，也极大地促进了村民创业就业，为实现乡村振兴奠定了扎实的经济基础。2022年，村集体经营收入首次突破40万元。“当地人总是用一句话形容我们村，叫‘丁河楼村没闲人’。”宋飞强认为，这是对丁河楼村产业兴旺的另一种诠释和解读。

双方还就共同关心的国际和地区问题交换了意见。

TOP10热点：凭什么占据加沙？特朗普：基于美国的授权亚洲另类专区欧美

新华网记者张敏彦

发布于：成都新都区

夫妻生活麦片Op夫妻生活麦片enAI发布首款具有推理能力的模型o1，可“思考”后自我核实答案正确性

夫妻生活麦片Op夫妻生活麦片enAI发布首款具有推理能力的模型o1，可“思考”后自我核实答案正确性