今日头条-"游泳教练招聘"-为什么游泳教练招聘只有AI编程成功落地？

为什么游泳教练招聘只有AI编程成功落地？

　　中国海关总署公布的数据显示，2021年，中印双边贸易额突破千亿美元，其中超过三分之二来自中国的出口。2022年，中印双边贸易额达到1359.84 亿美元，再创新高。

本文来自微信公众号：阿茶的AI之路，作者：起名贼费劲的阿茶，题图来自：AI生成原本计划写一篇2024年AI领域的年度总结，但鸽了。现在决定将内容拆分成系列文章。开局先放王炸，聊聊为什么大模型落地喊得火热，但是实际落地的场景只有AI编程。AI编程无疑是当下大模型落地最成功的一个领域。从Github的Copilot，到Cursor，再到第一个AI程序员Devin。好多人都在说：AI编程找到了PMF（Product Market Fit，产品市场契合）。但为什么是它？有人说“因为是真实需求”。难道AI在其他领域就是伪需求吗？有人说“因为代码比自然语言更容易生成”。真的是这样吗？还有人说“其他领域的模型能力还不够”。但为什么编程够呢？这些解释都过于表面，今天就从我的角度来解析为什么AI编程能成功落地，以及它未来的发展。先从一个问题开始。一、代码和自然语言，到底哪个更难生成“代码的关键词少，规则固定，所以更容易生成。”这是解释AI编程为什么好用的常见说法。听起来挺有道理的？代码就那些关键词，模型只要从有限的词里面挑就行了，采样空间相比自然语言小太多了。但是什么时候“词少=容易”了？如果真的是这样的话，数学问题的描述足够精简，符号也少。那大模型做数学问题应该更强吧。显然不是这样。大模型到现在连JSON都弄不明白。JSON是一种编程领域常用的数据交互格式，在面对较为复杂的JSON时，大模型经常会出现括号对不上、层级关系错乱的问题。这个“代码更容易生成”的论点，其实混淆了“生成”和“应用”两个阶段。在自然语言生成中，我们对大模型的容忍度很高。它可以犯语法错误，可以前后矛盾，可以逻辑混乱，我们依然能从中提取有价值的信息。容错性非常高。但代码生成完全是另一个维度的挑战。就像做数学题，代码能跑就是能跑，跑不通就是报错。它不存在“基本正确“或“大致可用“的中间状态。每一个分号、每一处缩进、每一个变量名都必须精确无误。所以代码生成其实是更难的，因为对代码的可用性要求是远高于文本的。二、核心：可信验证代码生成难度更高，为什么它应用得最好呢？那些难度低的领域为什么反而应用效果差呢？真正原因其实是编程具有一种可信验证机制。所谓可信验证，简单地说，就是一种能够快速、客观地判断AI输出结果的可用性的验证模式。1. 客观性：验证结果不依赖人或者AI模型的主观判断；2. 即时性：能够立刻得到验证结果；3. 确定性：对就是对，错就是错。接下来我将论述可信验证是怎样让AI编程成功的。1. 应用端的应用：快速而准确的验证为什么说编程领域有着完美的可信验证？这让我想到网上流传的一句话：恋人会背叛你，朋友会欺骗你，但数学不会，因为数学不会就是不会。答案就藏在代码的本质特性中：程序设计就像数学一样，是一个非黑即白的世界——能跑就是能跑，跑不了就是跑不了。这种确定性来自一个关键角色：编译器。它负责将代码编译成可执行文件，这个过程是严格符合语法规定的。编译器将代码编译成可执行程序在这个过程中，编译器扮演着一个独特的角色：它是第三方的、非AI的、完全可靠的验证机制。它不会被情绪影响，也不会担心被人类诱导，不会有主观偏见，只会忠实地执行语法规则。符合规则就可以编译，不符合就是报错。这种严格的验证机制成就了AI编程的应用。在AI尝试落地的所有领域中，几乎没有哪个领域能像编程这样拥有如此客观、即时、确定的验证标准。这种验证机制对使用者的要求极低——不需要你懂编程原理，不需要你精通算法，只要能运行代码，就能知道大模型输出的结果是否可用。为什么要强调非AI？因为大模型是基于概率的，所以要使用可靠的传统的规则算法。当然，你用更高的模型来验证低模型输出也可以，但这依然是不可靠的。这点会在下一小节继续论述。注1：为了行文流畅，我忽略了一些细节，例如我把编译和解释同时称作了“编译”……但是这并不是重点。注2：程序员直接看代码生成质量也算一种可信验证，但这依赖于用户的知识水平。这里只讨论最基础的可信验证机制。2. 模型端的应用：进击的合成数据光有可靠的验证机制还不够，模型本身的能力也很关键。（你总不能接受一个只有5%成功率的大模型吧）但有趣的是，大模型在代码领域的进步似乎特别快，而且一直在进步。这真的只是巧合吗？业界一直在强调自己家新模型在数学和代码方面的突破，却很少有人说“AI说话更像人了”。为什么？答案可能会出乎意料：因为训练数据枯竭，大模型目前可能只能在代码这个领域进步。已经无数人提到过这个问题了，模型的自然训练数据面临枯竭。在大模型训练中，数据和模型架构是同等重要的。数据的枯竭意味着模型能力提升会放缓。目前大模型厂商常用的应对策略：（1）人工生产新的数据，包括但不限于在网上爬取，或者找人手动编写新的数据；（2）使用更高级的或者旧的模型合成数据训练新模型。人工生产新数据的成本高昂，大部分都会采用合成数据来训练。而使用模型生成的合成数据又可能导致模型崩溃。已有大量研究证实，质量差的合成数据和人类语言的偏差会导致后续训练模型的输出越来越偏离人类表达。那么模型训练方又是如何控制合成数据生成质量的？目前并没有客观的评价标准。主流方案是用更强大的模型来筛选，以及人工主观判断。这不仅成本高昂，还难以规模化，也不够可靠。然而可信验证机制有效保证了代码合成数据的下限，它缩小了合成数据和人类数据的差异。代码的验证标准是二元的（能跑/不能跑），能运行并得到正确结果的就是好程序，报错的就是错误程序。这种客观标准让我们可以大规模生成并验证合成数据，效果等价于成千上万个初级程序员在不知疲倦地编写代码，从中挑选可用的代码。这就是代码合成可靠的根本原因：即使生成的代码质量不高，但只要能通过编译和运行，就具备基本的训练价值。这种低成本的质量保证机制，确保了模型在代码领域能持续进步。其实，大模型生成的代码其实要比很多github上代码质量更高。3. 可信验证的双重价值通过上面的分析，我们可以看到，可信验证在AI编程领域发挥着双重作用：在应用端，它让AI编程获得了用户的信任。不需要专业知识，不需要复杂判断，能跑就是能跑，不能跑就是不能跑。这种简单直接的验证机制大大降低了使用门槛，加速了AI编程的普及。而且让很多“零知识用户”也可以进行尝试。零知识用户：不会编程但想做app的人，这个概念可以引申到其他领域。他们对可信验证的要求极高，因为他们自己不会处理异常情况。在模型端，它解决了AI发展的数据瓶颈。当其他领域还在为训练数据发愁时，编程领域已经找到了可持续的数据来源。可信验证确保了合成数据的基本质量，让模型能力持续提升。可信验证不仅解决了“用户敢不敢用“的问题，还解决了“模型怎么进步”的问题。在大模型产品toB端，可靠性一直是最大的痛点。但可信验证机制提供了一个极为有效的解决方案 —— 它让输出结果可控、可及时验证，配合原有的代码审查集成机制，大大降低了应用风险。在可信验证的加持下，AI编程形成了一个良性循环，走出了一条可持续发展的道路。三、关于AI编程的其他观察1.AI编程目前的局限性（1）代码生成质量依然有待提高虽然有可信验证机制，但目前AI生成的代码质量仍然参差不齐。好在我们可以通过代码覆盖率、复杂度等客观指标来评估代码质量（没错，更高级的可信验证），这些指标又可以反过来指导训练数据的筛选，形成质量提升的闭环。（2）AI编程对语言支持度不均衡AI在Python上表现出色，而在Java等语言上相对逊色。这里有两点原因。首先是训练数据的差异。Python的开源社区活跃，这为大模型提供了海量的高质量训练数据。其次是语言特性的影响。Python的语法相对灵活，容错性更高，这使得AI更容易生成可用的代码。相比之下，Java等强类型语言的语法约束更严格，对代码生成的要求也更高。2. 自动化会带来额外心智负担可信验证的即时性还挺重要的，否则会给用户带来意想不到的心智负担。这一点在Devin身上体现得特别明显。Devin被誉为全球首个AI程序员，号称具备全栈开发、自学新技术、构建部署应用、自主调试等多项能力。初次体验Devin时，它确实让人感觉非常爽。只要你把任务安排给它，然后就不需要管它了。就像真的拥有了一个实习生可以独立完成任务，让我能专注于其他工作。等着验收就行。但相比Cursor，Devin存在两个致命问题：（1）得到反馈的时间要更长，这意味着如果我给他的命令是错的，或者他思维错了，过很久我才会知道。这会严重降低工作效率，沉没成本也更高了。（2）调试成本剧增。AI生成的代码量越大，debug的难度就越高。因为这些代码不是你写的，你需要额外的时间来理解它的逻辑。而且还有更严重的事情，在你debug的时候，经常会不知道到底是它代码生成的有问题，还是你操作有问题。这点对于零知识用户更为致命。考虑到AI同样可以debug。我专门做了个实验：完全以零知识用户的身份，让Devin写代码，再用Claude来debug。Devin写了20多分钟的代码，Claude debug了一个小时，功能依然没能跑通。与自动驾驶不同，开车时你可以随时接管，因为车辆的当前状态是显而易见的。但在编程中，如果AI走错了方向，之前的工作就全部作废了。那几十分钟的等待，就真的变成了纯粹的时间浪费。得到的是你和AI都不想用的一大堆代码，没有任何价值的代码。注：Devin不好用还有个很大的原因我觉得是背后的自研模型不够强。我用Cursor的Agent搭配Claude，生成的代码质量就高很多。3. AI编程的未来发展：更高级的可信验证目前应用端的可信验证还很初级，主要是看代码“能不能跑”，考虑的是终端输出结果。但随着技术发展，会出现更高级的可信验证方法，考虑更多的因素。例如上文的覆盖率这些指标。现代IDE已经能够自动检测性能隐患和安全漏洞。这些自动化的质量评估机制，本质上也是一种可信验证——它们同样具备客观性和即时性，只是验证维度更加丰富。其次是自动化测试的进化。即使代码能够运行，也需要验证其功能完整性。自动化测试框架能够生成测试用例、检查边界条件、验证业务逻辑，包括对代码性能进行检测，提供了另一层次的可信验证。这些客观的质量指标同样可以反馈到训练环节。这些进步意味着AI编程可以从“基本可用”进化到“高质量”，Devin这样的产品也会更好用。我依然相信Devin是AI编程的未来，因为这种把人解放的自动化才是真正的自动化。但是这种AI编程不适合零知识用户，它的未来或许就是极大的增加程序员的生产力。对于零知识用户，或许Dify这样的平台更可靠。4. 对其他领域的启示通过分析AI编程的成功，我们其实可以得到一个重要启示：任何想要成功应用AI的领域，都需要找到自己的“可信验证”机制。不是所有领域都能像编程那样有编译器这种完美的验证工具。也可以借鉴这种思路，在各自领域内建立相对可靠的验证机制。这个验证机制即使早期不能做到100%准确，但至少要能给出一个基本的可用性判断。“要知道模型的下限在哪”。可信验证不仅能降低使用门槛，还能为模型训练提供可靠的数据来源。本文来自微信公众号：阿茶的AI之路，作者：起名贼费劲的阿茶本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:郝爱民

TOP1热点：别再P图了好吗发博道歉

　　新京报讯据国家粮食和物资储备局消息，2023年8月18日上午，国家粮食和物资储备局召开领导干部会议。中央组织部有关负责同志宣布了中央决定：刘焕鑫同志任国家粮食和物资储备局党组书记，免去丛亮同志的国家粮食和物资储备局党组书记职务。。

　　今年7月31日，国务院办公厅转发国家发展改革委关于恢复和扩大消费措施的通知。其中提到，要全面落实带薪休假制度，鼓励错峰休假、弹性作息。

TOP2热点：孟子义攒了几部剧没播

　　刚刚过去的7月，沪深证券交易所IPO申报为零，引发各种猜想。市场上关于暂停IPO的声音此起彼伏。有人认为，近期股市连续调整，是由于新股发行数量过多，造成股市“失血”，因此呼吁暂停IPO。

　　不少被调查者表示，“4.5天工作制”会使工作与家庭的平衡变得相对容易。“我可以经常回老家看望父母，不用再匆匆忙忙地来回，可以有更多时间陪陪他们。”“周五下午回家补补觉，把家里打扫打扫，周末就可以全身心陪孩子逛博物馆、看画展、逛公园了。”

TOP3热点：上职校就是没前途的偏见该改变了老板抱进办公室的情景描写

　　8月16日，恒大地产集团有限公司（下称“恒大地产”）在上交所发布公告称，公司因涉嫌信息披露违法违规收到中国证券监督委员会（下称“证监会”）下发的《立案通告书》。

TOP4热点：郭子凡徐梦洁新剧演夫妻鹿鼎记1免费国语

　　马某某的行为违反了《新时代高校教师职业行为十项准则》第九项规定。根据《中国共产党纪律处分条例》《事业单位工作人员处分暂行规定》《教育部关于高校教师师德失范行为处理的指导意见》等相关规定：

　　相较IPO数量，上市公司质量更应该受到关注。上市公司质量是资本市场的基石，若上市公司整体质量存在问题，资本市场的基石就不牢靠，价值投资就无从谈起，这对中介机构的履职能力提出更高要求。中介机构应尽快提高执业质量，强化把关水平，履行好“看门人”职责，杜绝企业“带病申报”，从源头上提升投资标的质地。

TOP5热点：哪吒2官方登顶海报B级企业

　　徐某某的行为违反了《新时代中小学教师职业行为十项准则》第九项规定。根据《中小学教师违反职业道德行为处理办法（2018年修订）》等相关规定：

　　8月16日，来自北大规划院的规划师进入门头沟区妙峰山镇丁家滩村，进行灾后规划摸排，在村口的一处公交场站，规划师进行了淹没线测量，并对该场站进行了综合研判。自8月11日门头沟启动全区范围内的灾后规划摸排以来，规划师等专业技术人员走进村庄，开展摸排工作，预计十天可以完成。

TOP6热点：王楚钦决胜局救起一颗精彩球西方38大但人

　　据“北京门头沟”微信公众号消息，为保障门头沟区抗洪抢险施工工作顺利开展，尽快恢复生产生活秩序，根据道路交通安全法律法规有关规定，决定自2023年8月17日起，门头沟区109国道下苇甸路口至市界之间路段，除持有“抗洪抢险”专用证件的车辆及执行任务的军队、武警车辆、警车、消防车、救护车、人员转运车辆、工程抢险车、运输物资的车辆外，禁止其他车辆通行。根据施工进展需要，适时对109国道军庄路口至下苇甸路口、南雁路、G234、斋幽路、张马路采取交通管制。

　　2019年11月，国家发改委、中央组织部等9部门联合发布《关于改善节假日旅游出行环境促进旅游消费的实施意见》，提出加快推动落实带薪休假。用人单位对履行落实带薪年休假制度负主体责任。鼓励用人单位在年初结合工作需要和职工休假意愿统筹安排当年休假，优先考虑子女上学的职工在寒暑假的休假安排。组织部门、人力资源和社会保障部门按照职责分工对用人单位落实职工带薪年休假情况进行监督检查。

TOP7热点：iPhone16e定价4499元起畸形～小白

　　据介绍，目前台军拥有射程600公里的“雄风-2E”以及射程超过1000公里的增程型“雄风-2E”巡航导弹。两者代号分别为“雄升”及“雄隼”。“但因保密之故，台军将已部署的‘雄升’与‘雄隼’导弹对外都一体称之为‘雄升’”。报道称，台军并未披露本次试射的是否为增程型“雄风-2E”，但这已经是“雄风-2E”巡航导弹服役近20年来，发射画面首度曝光。

TOP8热点：一觉醒来周边都被家长卖了的体验清官姓史应采儿

　　当时在编制门头沟分区规划时，按照当时的要求和专项规划研究，丁家滩村所在的永定河山峡段，是按照20年一遇的洪水线标准来划定的河道蓝线。张刚表示，这一次洪水的淹没线，已经涵盖了丁家滩村蓝线外的部分。经过这次洪涝灾害，还要重新审视原来的设防标准，包括管控要求等，目前，区里正在开展防洪标准和蓝线优化的相关工作。

　　7月28日，中国恒大曾发布公告称，截至2023年6月末，恒大地产标的金额3000万以上的未决诉讼案件为1875件，标的金额累计约人民币4294.07亿元。恒大地产未能清偿的到期债务累计约2874.68亿元。恒大地产逾期商票累计约2，446.63亿元。

TOP9热点：上职校就是没前途的偏见该改变了居寒～你动一动教训何故

　　“按照计划，预计十天完成全区的摸排工作。”北京市规划自然资源委门头沟分局规划事务科张刚表示，本次的灾后重建规划摸排包括138个保留村，另外40个上楼村将结合灾毁情况和相应规划进行摸排。

　　目前，恒大系的三个停牌股票中，恒大物业（6666.HK）、恒大汽车（0708.HK）都已于近日复牌，但中国恒大却未有进展。

TOP10热点：哪吒2官方登顶海报10717422

发布于：泰安岱岳区

游泳教练招聘为什么游泳教练招聘只有AI编程成功落地？

游泳教练招聘为什么游泳教练招聘只有AI编程成功落地？