体育热讯-"zzjj中国免费"-非技术人10分钟读zzjj中国免费懂Deepseek R1

非技术人10分钟读zzjj中国免费懂Deepseek R1_ZAKER新闻

　　《中国企业家》：过去十多年，你一直在关注中国的人口问题，也冲在反思和影响人口政策的第一线。你是从什么时候开始对人口研究产生兴趣的？有什么契机？

本文来自微信公众号：一泽 Eze，作者：一泽 Eze，原文标题：《非技术人 10 分钟读懂 Deepseek R1｜天才模型养成与 AI 超越人类的破晓时刻》，题图来自：unsplashDeepSeek 在这个春节火到没边。不仅在公众号、小红书、抖音疯狂刷屏，就连过年餐桌上七大姑八大姨都会来找我唠上两句：" 你知道滴噗系可（DeepSeek）吗 "。抛开看热闹的浮躁气，我想从一个非技术人的角度，分享近期对 DeepSeek 的研究总结，主要围绕以下话题：天才养成记：DeepSeek R1 为什么如此聪明？" 填鸭 " 之困：传统大模型训练的瓶颈？自学成才：DeepSeek R1 的破局之道？纯强化学习：再次带来 AI 超越人类的希望？就我观察而言，大多数人讨论的 DeepSeek ，基本指的是它的深度思考版本—— DeepSeek R1。DeepSeek R1 不同于先前的普通模型（如 ChatGPT-4、Claude 3.5 sonnet、豆包、通义等），它与 OpenAI 现在最先进的模型 o1、o3 一样，同属于一条技术路线：基于强化学习 RL 的推理（Reasoning）模型。其标志性表现就是，在回答用户问题前，R1 会先进行 " 自问自答 " 式的推理思考，凭此提升最终回答的质量。这种 " 自问自答 "，并非简单的自言自语，而是 AI 在模拟人类的深度思考。从用户初始问题 " 先有鸡还是先有蛋 " 出发，AI 唤醒解决该问题所需的推理逻辑与知识，对问题进行多步推导，为最终回答提供更加完备的思考准备。用户初始指令：先有鸡还是先有蛋？推理 1 - 问题领域分析：经典哲学、科学难题推理 2 - 知识回忆：哲学 - 因果循环；科学 - 进化论、生物学发展推理 3 - 用户意图分析：用户可能是在寻找明确答案，但这个问题没有绝对答案，所以需要解释不同观点推理 4 - 结合用户场景：学生作业 → 更加结构化回答；普通用户 → 简洁易懂的解释 ……最终回答：根据以上信息，综合生成结果这种能力，并非凭空而来。如果把 AI 比作人类，那么 DeepSeek R1 的 " 聪明 "，源于其背后独特的 " 教育方式 "。在许多其他的 AI 模型还在接受 " 填鸭式教育 " 时，DeepSeek R1 已经率先进入了 " 自学成才 " 的新阶段。" 填鸭教育 " 之困：人类的局限，AI 的上限当前 AI 大模型的训练分为两个阶段：" 预训练 "、" 后训练 "。" 预训练 " 阶段，主要依赖于海量的 " 预训练 " 数据，一股脑地把各种知识 " 填鸭 " 给 AI。就像学龄前的孩子背诵唐诗三百首。虽然能 " 鹦鹉学舌 " 般地在 " 鹅，鹅，鹅 " 后接上 " 曲项向天歌 "，却不理解诗词的格律、意境，更不懂如何运用这些知识去创作。你问他 " 鹅是什么 "，他可能只会机械地接龙 " 曲项向天歌 "，驴唇不对马嘴，无法和你有效回应。这便是大模型 " 预训练 " 的实质与局限：它赋予了 AI 海量的知识基础，却无法让 AI 真正理解和运用这些知识，只能基于背过知识的统计概率进行 " 续写 "。更关键的在于，此时的 AI 还没有学会如何与人类进行有效的对话，不知道如何理解你的问题，也不知道如何组织语言来回答你。它就像一个 " 知识巨人，对话侏儒 "，空有全世界的知识，却不知如何表达。（是的，未经 " 后训练 " 的基础模型，往往用户指令遵循性差，生成内容的格式混乱、难以阅读、逻辑断裂，也无法和人进行有效对话。）而在 " 后训练 " 阶段，则是对 AI 的输出方式、指令遵循、推理等特定任务进行 " 特训 "。例如，让 AI 学会与人类对话，生成人类易于阅读的长句，或者学会输出更加合理的推理过程。此前，" 后训练 " 主要采用监督微调（SFT）或基于人类反馈的强化学习（RLHF）等方法。监督微调（SFT）：用特定数据集对模型进行 " 填鸭式 " 训练，使得模型参数得到微小的特定调整。例如，让孩子额外加背宋词三百首，以应付明天的 " 唐诗 + 宋词 " 的综合性考试；或者反复强调 " 出门 → 要关灯 "，机械训练节约用电的好习惯。基于人类反馈的强化学习（RLHF）：人类训练者会对 AI 模型的多个输出进行评分或排序，训练模型理解什么是 " 好的回答 "。例如，小学生解答数学题时，老师会限制他们使用 " 代数方程 " 这类超纲解法，因为不符合小学教育测验的预期。这种方式的局限在于，AI 受限于人类训练者的认知局限与主观偏好，终究还是限制了模型自主探索最优解的能力。可见，无论是 SFT 还是 RLHF，都难以摆脱 " 填鸭式教育 " 的影子。它们或许能让 AI " 鹦鹉学舌 "，却无法让 AI " 融会贯通 "。人类标注者的认知天花板，也成为了 AI 能力提升的瓶颈。自学成才：纯强化学习再次带来 AI 超越人类的希望而 DeepSeek R1 则引入了纯强化学习（RL），不依赖大量的人类标注数据，而是让 AI 通过自我探索和试错来学习：DeepSeek R1 在 " 冷启动 " 阶段，仅通过少量（数千条）人工精选的思维链数据进行初步引导，建立起符合人类阅读习惯的推理表达范式。随后，便主要依靠强化学习，在奖励系统的反馈下（只对结果准确率与回答格式进行奖励），自主探索推理策略，不断提升回答的准确性，实现自我进化。准确率奖励：用于评估 AI 提供的最终答案是否正确，以此为 AI 提供答案准确度的反馈。格式奖励：强制结构化输出，让模型把思考过程置于标签之间，以便人类观察模型的推理过程。正如 Alpha Zero 只训练了三天，就以 100 比 0 的战绩完胜 Alpha Go Lee（战胜李世石的版本）。Alpha Go（老）：监督学习 + 强化学习。学习人类棋谱，也更接近人类职业棋手的风格，继承了人类的局限。Alpha Zero（新）：完全摒弃人类数据的纯强化学习。从零开始自我博弈，不受限于人类经验，具有创造性的下棋风格。大模型 AI 在纯强化学习（RL）下同样也展现出了超出人类研究员想象的成长潜力：" 我们只需要简单地为其提供正确的激励措施，它就会自主开发高级的问题解决策略，RL 有可能解锁新的人工智能水平。"* 只不过 Alpha Zero 的强化学习更加专精棋类。而 DeepSeek R1 在训练中，更注重学习推理的底层策略，培养通用推理能力，使其能够实现跨领域的知识迁移运用和推理解答。更有趣的是，DeepSeek 还有一个更加聪明的 R1-zero 实验版本这个版本甚至没有进行任何的初始引导，而是采用了完全从零开始的强化学习。实验表明，无需任何人类的监督训练，R1-zero 自然而然地学会了用更多的思考步骤来解决推理任务，还学会了在推理过程中反思先前的推理步骤，探索解决问题的替代方法。没错，AI 在纯强化学习中，自发涌现出了更强的推理能力与顿悟时刻：* 但因为没有微调，R1-zero 的输出内容可读性差、语言混合，且风险不可控。所以我们见到的才是经过符合人类阅读偏好的冷启动与微调过的 R1 版本，确保 AI 生成内容的稳定、安全、道德、无害。纯强化学习，在 Alpha Zero 完胜所有人类棋手之后，再次点燃了 AI 全面超越人类的希望。当 AI 挣脱人类经验的束缚，真正的智能革命或许才刚刚拉开序幕。附：DeepSeek R1 完整训练过程因文章定位与行文节奏设计，上文仅对影响 R1 涌现关键智能的前两个训练步骤进行了讲解。更加完善的训练说明，可直接阅读官方论文：DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948Ref：DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948碎瓜 - 波斯兔子《Deepseek R1 可能找到了超越人类的办法》https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ大聪明 - 赛博禅心《DeepSeek R1 是怎么训练的？》https://mp.weixin.qq.com/s/Wuz0H9jmZYV1jM1Y-twTlA老刘说 NLP 《可视化角度具象化理解 DeepSeek-R1 类推理大模型的习得进程》 https://mp.weixin.qq.com/s/ytKTGTgU2T7jSNrBghX1cATianzhe Chu et al.《SFT 记忆，RL 泛化：基础模型训练后的比较研究》https://arxiv.org/html/2501.17161Metaso 长思考对话《RL 和 SFT 在后训练中的区别》https://metaso.cn/s/WGdOwPC

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:李文信

TOP1热点：盒马被立案调查

　　“虽然从面积上看，目前的影响还不是太大，但是当前正值农忙季节，麦收之后还要继续抢种下一茬作物，需要抓紧抢收，让收割机械及时到位，加快进度，及时烘干，想办法将损失降到最低，维护农民的种粮利益。”姜文来说。。

　　“虽然从面积上看，目前的影响还不是太大，但是当前正值农忙季节，麦收之后还要继续抢种下一茬作物，需要抓紧抢收，让收割机械及时到位，加快进度，及时烘干，想办法将损失降到最低，维护农民的种粮利益。”姜文来说。

TOP2热点：如何评价 B 站疑似盗用用户带宽

　　但徐某某一直没有履行。直到2022年1月，杭州市生态环境局发出督促履行义务催告书，徐某某向杭州市政府申请行政复议，表示自己没收到快递。

　　2015年11月，十二届全国人大常委会第十七次会议分组审议最高法关于行政审判工作情况的报告时，与会人员就提出，“行政诉讼法要求机关负责人应当出庭应诉，但实际上这条形同虚设，并没有落到实处。建议完善行政机关负责人出庭应诉制度”；“虽然法律作出了规定，但诉讼活动中出庭的往往都是代理律师或者一般工作人员。民告官，但是见不到官，这不利于矛盾纠纷的解决。司法实践中，行政相对人对行政机关负责人出庭有强烈要求。行政机关负责人不出庭，又不说明理由，影响了法律的权威性。”

TOP3热点：00后女孩折磨室友致死被执行死刑白馒头一线天

　　女性地位和生育率的关系不是单纯的线性关系。在发展水平比较低的传统社会，女性地位比较低，不得已生很多孩子。随着社会和经济的发展，女性地位和参加工作比例逐步提高，生育率下降。但是这种下降不是单向的，当社会进一步发展，女性地位和经济独立性非常高时，再增加生育福利，生育率不降反升。当然，这需要社会资源做很大的倾斜才行。

TOP4热点：大 S 遗产由具俊晔及儿女所有射进来AV

　　早在2018年，美方就宣布制裁时任中央军委装备发展部部长的李尚福。这种制裁，中方肯定表示坚决反对。但美方却并没有听进中方的“坚决反对”之声。到了李尚福就任中国国防部部长以后，美国国防部长奥斯汀一再放风，称希望在今年6月的香会上与李尚福举行双边会晤。

　　梁建章：确实一开始没有办法，被逼的，因为那时候，公司的业务几乎清零了，没有现金流，成本也很大，赔了好多钱，我希望能够带头，带动一下公司或者行业的消费。

TOP5热点：原住民是如何去除野生土豆中大量龙葵素的深田咏美神作

　　她表示，中国坚定推进高水平对外开放，为各国企业提供市场化、法治化、国际化的营商环境。中国坚持相互尊重，互利共赢，同各国开展经贸科技投资合作。中国坚定维护国际公平正义，坚持通过对话协商解决分歧。这样的中国不是风险是机遇。

TOP6热点：推动农业转移人口纳入住房保障体系黄3.0.3免费vivo版大全装扮苹果

　　此事在今年3月被报道后迅速引发热议，并一度冲上热搜。今年3月15日，东方甄选CEO孙东旭回应称，虾不是东方甄选自营的虾，公司感谢各种批评和监督，出现问题一定会积极面对和改正。

　　据其官网介绍，三沙市于 2012年7月24日正式揭牌成立，隶属海南省，管辖西沙群岛、中沙群岛、南沙群岛的岛礁及其海域，是中国位置最南、面积最大、陆地面积最小及人口最少的地级市。三沙市由280多个岛、沙洲、暗礁、暗沙和暗礁滩及其海域组成，陆海面积约200万平方公里。常住人口约1800人（不含驻市部队官兵），户籍人口621人。

TOP7热点：DeepSeek 公布推理成本利润细节迈开腿我们换个地方继续c

　　按照惯例，C919设计了5套地面导航台信号接收器——在进近着陆（向机场方向下降接近）阶段，地面导航台会对飞机进行定位和测距，指引飞机准确前进。

　　近日，青岛即墨区市场监督管理局对上述供应商浪海情做出判罚。处罚详情显示：经查，该款食品包装标识有“产品名称：太平洋大虾，配料：南美白虾、饮用水、食用盐，净重：1500g，100%野生，生产日期：2022.06.02，保质期：24个月”等字样。但该产品实际加工原料生产方式为“养殖”，与其宣传的“100%野生”不符，违反食品安全法。

TOP8热点：问界M8将于4月上市棉签加冰块怎么弄出牛奶(黄)

　　网传“5月31日，津南某桂园东门八里台路地面发生波浪状凸起，路面胀开，附近楼居民部分撤离”。刚刚，津南区政府发布情况通报——

　　梁建章：最满意的当然还是有些创造力的角色，比如在天津演的时候，我自己编了一个相声，来介绍天津的旅游景点和全世界各个酒店品牌，叫贯口，还挺有成就感。

TOP9热点：中方发布多项对美反制措施用用点力快要到了hw

　　听起来这还是很大一个数字。但如果反过来想想，我们经济一年增长5%，如果我们拿出经济增长的一半，延续消费增长的果实，那我们能够解决中国经济未来最大的一个问题，那肯定值得。

　　二、确保信息渠道畅通。加强与本地小麦承保机构的沟通衔接，建立信息共享机制，及时通报小麦受灾区域、受灾程度等灾情信息，帮助承保机构获取小麦受灾信息，及时了解承保机构理赔进度和理赔工作中存在的问题和困难，为加快承保机构查勘理赔、帮助农户减损创造条件。

TOP10热点：推动农业转移人口纳入住房保障体系顶级绝伦推理片电视剧推荐

　　三是抓紧烘干晾晒。调动现有烘干设备，抓好抢收湿粮烘干。发挥中储粮、粮食系统、供销系统烘干设备大、能力强的优势，加大湿粮收购力度，及时开展烘干、仓储，对粮食烘干给予财政补贴。充分利用文化广场、学校操场、空置厂房、各类场所的房前屋后、平整房顶等开展晾晒，指导农民在田间地头铺设防水布进行晾晒，尽可能挖掘晾晒空间。

　　不过王先生认为，除了行政处罚外，市场监管部门还应该督促销售方和供应商对消费者予以赔偿。据报道，他已经把浪海情和东方甄选起诉至江苏省连云港市赣榆区人民法院，预计于6月开庭审理。

发布于：岳西县

zzjj中国免费非技术人10分钟读zzjj中国免费懂Deepseek R1_ZAKER新闻

zzjj中国免费非技术人10分钟读zzjj中国免费懂Deepseek R1_ZAKER新闻