即时报道-"TOBU16"-DeepSeek的华丽文TOBU16风是怎样炼成的?_ZAKER新闻

TOBU16DeepSeek的华丽文TOBU16风是怎样炼成的?_ZAKER新闻

TOBU16DeepSeek的华丽文TOBU16风是怎样炼成的?_ZAKER新闻

DeepSeek的华丽文TOBU16风是怎样炼成的?_ZAKER新闻

  截至4月18日24时,厦门市累计报告境外输入新型冠状病毒肺炎确诊病例17例(英国6例,菲律宾5例,美国2例,阿联酋1例,爱尔兰1例,荷兰1例,马来西亚1例)。

去年还不相信 AGI(通用人工智能)投资叙事的知名投资人朱啸虎,在被 DeepSeek 支配了一整个春节后,态度大变,"DeepSeek 快让我相信 AGI 了。"在近期接受腾讯新闻采访时,朱啸虎多次惊叹于 DeepSeek 在内容生成方面的优美和深度。不止朱啸虎。在 DeepSeek 以假乱真,模仿梁文锋口吻回复冯骥的 " 国运论 " 造假文章出现后,作家兼脱口秀演员的李诞点评道,文章透露出一种非常 DeepSeek 的味道。这种味道被李诞概括为 " 科技抒情散文诗 "。更重要的是,在优美和深度之外,DeepSeek 让更多普通人第一次体会到了 AI 对话产品的易用性。在此之前,用户想要让 ChatGPT 等 AI 对话产品输出更准确的答案,往往需要学习一套较为复杂的 Prompt(提示词)技巧,但在 DeepSeek 上面,用户只需要输入简单的自然语言,就能够得到相对准确的答复,且这些答复还能呈现出拟人化的特点。DeepSeek 对人类情感价值的精准拿捏,一度使得其凭借 " 阴阳怪气 " 中文十级的表现,收获了 " 赛博嘴替 " 的美名。飙涨的用户数据,成了外界追捧 DeepSeek 的另一力证。AI 产品榜的一份统计数据显示,DeepSeek 应用在上线 20 天后,其 DAU(日活用户)便突破了 2000 万,距离成为国内日活用户数第一的 AI 对话应用,指日可待。尽管 DeepSeek 坚持开源路线,但在其引发热议的 R1 最新模型上,DeepSeek 尚未公开其预训练语料,这也使得外界好奇其优美华丽的文风,究竟是怎么训练出来的。字母榜(ID:wujicaijing)首先把这个问题抛给了 DeepSeek,它从风格化数据蒸馏体系,动态风格迁移架构,对抗式强化学习框架等维度给出了自己的解释。紧接着,字母榜又尝试让国内月活用户排名前三的大模型(DeepSeek 除外)回答了下,它们给出了一个共同原因是,DeepSeek 可能在语料选择上用了更多文学小说素材。就连朱啸虎也揣测,这可能跟 DeepSeek 团队喜欢优美的文字,喜欢哲学、量子力学等有关。DeepSeek 的文艺青年气质,或许能从他们在宣布下场追逐 AGI 的宣言中略窥一二。2023 年 4 月,幻方量化(DeepSeek 母公司)在发布做大模型公告时,引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:" 务必要疯狂地怀抱雄心,且还要疯狂地真诚。"在国内从事大模型创业的李振(化名),也做过类似的文风对比," 就是风格控制的颗粒度不同。其他国内大模型产品,在文学向标签上可能都没有 DeepSeek 多。"李振告诉字母榜,在文学语言占比上,据其推测,国内其他大模型,可能在语料库中的比例维持在 10%-20%,DeepSeek 则可能高达 40%。除了数据来源不同之外,如何使用数据同样会影响大模型产品的内容生成效果。《生成式人工智能》作者、人工智能商业化专家丁磊博士,特意提到了 DeepSeek R1 模型中所展现的 "aha moment" 顿悟时刻,即模型学会了反思," 这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。"无论是对风格控制颗粒度的认知细化,还是 "aha moment" 顿悟时刻的到来,这背后都少不了 DeepSeek 的高人才密度支持。在人才方面的高密度和高自主性,被参与大模型投资的恒业资本创始合伙人江一视为是 DeepSeek 生成优美华丽文风的第一因素。" 相比而言,部分大模型公司的员工,在自主性上不够开放,使得在大模型产品研发上更多呈现出靶向性的特征,最终的生成效果就显得中规中矩。"DeepSeek 的内容生成优势之一,在于构建了一个比较独特的文学增强型数据生态,即把自然语言生成转化成一个可控的风格系统,从而使得可以把文学创作领域的专业评价体系转化成相对应的函数,进而构建起一个风格表征的数学建模。为了达成上述效果,相比国内其他大模型,DeepSeek 在数据标签上就需要做得更细更多样化。这也是国内大模型创业者李振感慨 DeepSeek 文学向标签更多的原因所在。去年 3 月,在受邀参加英伟达 GTC 2024 大会时,DeepSeek 研究员便围绕 " 大模型价值观和人类价值观对齐 " 的主题,发表过一篇《和而不同:大语言模型价值观对齐解耦化》的演讲,其中提到DeepSeek 构建了一个跨学科的专家团队,对不同社会背景人群的价值观的公约数进行了分类学研究,从而构建了一个三级标签的价值观分类体系。人工智能商业化专家丁磊博士告诉字母榜,数据标注之外,前期的数据质量对模型训练至关重要,"DeepSeek 在长思维链数据的收集和标注、推理和非推理数据的质量等方面,都有独到之处。"根据官方公开的技术报告,在获取高质量数据方面,R1 模型使用了数据蒸馏技术(Distillation)生成的高质量数据,提升了训练效率。这也是 DeepSeek 能够凭借更小参数量,就实现比肩 OpenAI o1 模型性能的一大关键。丁磊博士进一步解释道,模型参数量大小与最终模型呈现的效果之间,两者 " 投入产出并不成正比,而是非线性的……数据多只是一个定性,更重要的是考验团队数据清洗的能力,否则随着数据增多,数据干扰也将随之变大。"谷歌就是前车之鉴。不管从算力还是算法,谷歌并不比 OpenAI 差,甚至还要强,但恰恰是借助基于人类反馈的强化数据训练工作,OpenAI 最终赶在谷歌前面做出了 ChatGPT。即便在 ChatGPT 已经诞生 2 年多后的当下,业内部分大模型公司,依然存在在数据训练环节投机取巧的行为,比如" 采用数据注水的手段,将还没进行标注的数据,直接投喂给大模型。"李振说道。甚至在李振看来,不同的数据处理方式,使得 DeepSeek 在训练范式上有了代际差距优势,部分国内大模型更多还是通用语料加基础过滤来完成预训练工作,"DeepSeek 则可能加入了对抗式数据清洗环节。" 李振表示。DeepSeek 内部也的的确确在进行对抗式测试。去年 3 月的演讲中,DeepSeek 研究员曾讲到,实际模型生产过程中,内部会进行模型的迭代式开发,"即每轮的训练结束之后,都会有一个独立的测试团队,对模型在各个维度上的安全性进行充分的测试,并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。"不同的训练方式,也导致即便是使用同样的中文语料库,最终训练出来的大模型,在文风上也会有完全不一样的呈现。而且,在 R1 模型加入 RL(强化学习)之后,强化学习的训练次数也可能导致最终的文风不同。李振介绍,DeepSeek 的 PPO(强化学习)迭代轮次可能在 50 到 80,国内其他大模型可能在 20 左右。导致轮次不同的原因之一在于,各个公司对产品功能的押注重点不同。朱啸虎以厨师做饭打了个比喻," 就像厨师,以后有几个米其林大厨,有些擅长川菜,有些擅长粤菜——它在组织语料或参数权重上的差别,就会造成回复的答案有差异性。"华丽优美文风之外,DeepSeek 生成内容的惊艳之处还在于,表现形式上做到科技抒情散文诗的一大前提,是首先确保了生成内容具备更高的事实准确性。在丁磊博士看来,这有两方面原因促成:一是模型的自我进化,模型学会通过更多的推理计算来解决复杂的任务,这不是来自外部设置而是模型自己学会的;二是模型的 "aha moment" 顿悟时刻,即模型学会了 " 反思 ",这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。基于 DeepSeek R1 模型,官方还同步推出了 R1-Zero 模型,后者直接将 RL 应用于基础模型,而无需依赖 SFT(监督微调)和已标注数据。此前,OpenAI 的数据训练非常依赖人工干预,旗下数据团队甚至被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。但这样带来的结果之一便是,堆高数据获取成本,且面临数据标注质量参差不齐的难题,从而限制着大模型的规模泛化能力。R1-Zero 的出现,恰恰是 DeepSeek 希望通过纯机器学习来解决上述难题的一大尝试,Perplexity 公司 CEO 阿拉文 · 斯里尼瓦斯评价道:" 需求是发明之母。因为 DeepSeek 必须找到解决办法,最终它们创造出了更高效的技术。"在 DeepSeek 对外分享的 R1 模型技术报告中,团队在强化学习推理阶段,意外发现了 "aha moment" 顿悟时刻,这预示着模型自身开始在某一时刻具备了自我反思能力。例如在解决数学方程时,模型会主动纠正早期错误步骤,还能根据训练逐步学会分配更多思考时间,生成更长的推理过程,以解决复杂问题。这种 " 顿悟 " 现象的出现,离不开一种特殊奖励机制的引导。根据官方技术文档,DeepSeek R1 模型,没有使用 MCTS(蒙特卡洛树搜索)类技术,而是在 PPO 算法之下采用了一种特殊的基于规则的奖励函数,根据生成输出的格式和正确性分配奖励,一般包括三种情况:如果输出以指定格式提供最终答案且正确,获得 +1 的奖励;如果输出提供最终答案但不正确,奖励设为 -0.5;如果输出未能提供最终答案,奖励设为 -1。" 我们没直接教模型如何解决问题,只是给予它正确的激励,模型就能自己琢磨出先进的解题办法。"DeepSeek 官方如此解释道。无论是构建风格表征的数学建模,还是推动 "aha moment" 顿悟时刻的出现,背后都离不开 DeepSeek 对人才的重视和培养。在参与大模型投资的恒业资本创始合伙人江一看来,DeepSeek 的高人才密度,外加内部人才的高自主性,强强结合," 使得 DeepSeek 内部产生了多样性的涌现,在穷举多个选项之后,优中选优,最终选定了现在的这种华丽优美文风。"上述人才特性也能从梁文锋的对外采访中印证一二。在接受 36 氪采访时,梁文锋曾介绍,DeepSeek 管理遵循自下而上模式,且每个人对于卡和人的调动不设上限。" 如果有想法,每个人随时可以调用训练集群的卡无需审批。"去年 5 月份率先打响行业价格战的 DeepSeek V2 模型,其中的技术创新之一 MLA(一种新的多头潜在注意力机制)架构,就来自一个年轻研究员的个人兴趣。当时,在总结出 Attention 架构的一些主流变迁规律后,这位年轻研究员突发奇想设计了一个替代方案,DeepSeek 为此组建了一个专项攻坚团队,花了几个月时间将 MLA 落地。在科技领域,自信是创新的首要前提,而梁文锋认为这种信心通常在年轻人身上更为明显。所以,DeepSeek 内部多是一帮 Top 高校的应届毕业生、没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。" 如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。" 梁文锋解释道。相比而言,在江一观察中,部分大模型公司,在对待员工上则表现出更强的控制力,员工缺少自主性," 更多呈现出靶向性的研发特征,即部门确定一个最终达成的效果目标,所有的人都奔着这一目标而做好自己分内的工作,使得最终模型呈现出来的效果,显得中规中矩。"不过,需要注意的是,尽管 DeepSeek 生成的优美文风,被部分人喜爱,但也开始引发部分人的警惕,这些内容乍一看很好,但 " 仔细品读会发现很多的语法错误。"内容从业者王旭告诉字母榜。以开头那篇梁文锋回应冯骥赞誉的虚假文章为例,其中有句话写到," 既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。" 仔细品读后,王旭便从中识别出了一些语病。相比语病,更不易察觉的是,借助更逼真、拟人化的文风,DeepSeek 的幻觉现象,依然存在。在被王旭品读出语病的 " 既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。" 这句话中,乍一看,DeepSeek 不仅给出了场景细节,还给出了具体的时间节点,不由得就会让人相信这都是曾经真实发生过的画面。但简单搜索下梁文锋的履历便可知道,在十二年前的 2013 年,梁文锋已经从浙江大学硕士毕业三年。当年,梁文锋与其浙大同学徐进共同创立了杭州雅克比投资管理有限公司,DeepSeek 给出的梁文锋在浙大实验室做实验的场景,大概率是自行编造而来。随着大模型在可靠性上表现出来的能力越来越强,其迷惑性的一面也随之增强。作为人类的我们,或许是时候该学学如何提高辨别 AI 内容时,自身的可靠性了。参考资料:《朱啸虎现实主义故事 1 周年连载:"DeepSeek 快让我相信 AGI 了 "》张小珺《全球掀 DeepSeek 复现狂潮!硅谷巨头神话崩塌,30 刀见证啊哈时刻》新智元《和而不同:大语言模型价值观对齐解耦化》 DeepSeek《疯狂的幻方:一家隐形 AI 巨头的大模型之路》  暗涌 Waves《朱啸虎 VS 傅盛,怼出了大模型创业的两个共识》字母榜

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:章汉夫

TOP1热点:答题分奖金

  原上海陆家嘴金融贸易区管理委员会副主任 张湧:金茂大厦底下的一幢楼1995年还没有竣工,我路过的时候印象非常深,底下旁边道路还是泥泞的乡间道路。后来高度不断被刷新,上海中心建成了632米,在全世界都能排到前几位。我一直在陆家嘴工作,我家里也在陆家嘴,我感到非常自豪。。

  4月19日,北京市新型冠状病毒肺炎疫情防控工作新闻发布会举行,北京市卫健委新闻发言人高小俊介绍,北京推进八类人员核酸检测“应检尽检”。

TOP2热点:梦百合杯或禁止卞相壹参赛

  加强隔离点工作人员的个人防护。在隔离点承担安全保卫、后勤保障、人员转运、登记接待以及负责医学观察的医务人员、房间保洁人员、环境清洁消毒的工作人员等均参照国家卫健委新冠肺炎防控工作方案中《特定人群个人防护指南》要求,分级分类做好个人防护。工作人员在完成工作任务后,需要居家隔离医学观察14天。

  最后,根据台湾《联合报》的报道,面对特朗普的恐吓和台湾当局的迫害,张经义也已经给出了他的回应。在一段影片中,他先是对许许多多关心他的人们表示了感谢,并介绍说他跑白宫新闻就快满10年了,这10年来他一直在追求自己的国际新闻梦想,也是白宫记者团第一位中文媒体成员,他在上海东方卫视工作的身份也早就被各方所知悉。

TOP3热点:2025 冲锋衣推荐管家婆一码一肖资料

  从使用场景上看,央行数字货币不计付利息,可用于小额、零售、高频的业务场景,相比于纸币没有任何差别。同时,使用时应遵守现行的所有关于现钞管理和反洗钱、反恐融资等规定。

  八、各高校要严格按照教育部《高等学校新型冠状病毒肺炎防控指南》及属地疫情防控工作有关要求,“一校一策”制定开学方案(含需进行核酸检测人员的检测方案)和应急预案,扎实做好防控物资、教育教学和校园场所等各项开学前准备工作。各高校要主动与属地疫情防控部门对接,开学方案经所在市(区)疫情防控部门同意后,提前3天报省教育厅批准方可实施。

TOP4热点:成功发射千帆极轨06组卫星铿锵锵锵锵锵锵锵锵

  4月19日下午,国务院联防联控机制举办新闻发布会。农业农村部畜牧兽医局副局长魏宏阳针对生猪恢复生产以及非洲猪瘟的相关问题,回答记者提问。

  四是经北京口岸入境人员。经北京口岸入境人员全部进行核酸检测。对在京外第一入境点隔离观察未满14天解除隔离观察到京人员进行核酸检测。

TOP5热点:为什么春运期间不多安排绿皮车索14may18_XXXXXL56endian

  不客气地说,美国抗疫的组织和中国完全不在一个水平上。本来我们是愿意体谅美国的政治制度被这场疫情撞上了其薄弱一面的,毕竟所有制度都有其相对的短板。然而特朗普团队不断挑衅碰瓷,公然指控中国的抗疫成绩“是虚假的”,并且极力向中国甩锅,狂妄地试图用踩着中国赢得竞选连任,那就不能怪我们戳破美国抗疫烂得不能再烂的真相了。

  10时40分乘地铁1号线从火炬园站上车,10时44分出乌石浦地铁站,换乘滴滴车回到翔安马巷镇住所。乘坐地铁期间密切接触者8人,已转送市集中隔离医学观察点;

TOP6热点:电压锅和高压锅哪个好后营露营无增减3季

  张某,女,49岁,无业,常住地:黑龙江省哈尔滨市道外区团结新区,是确诊病例陈某(男,87岁)在哈尔滨市二院住院治疗期间同楼层同病区患者陪护。4月18日,诊断为新冠肺炎确诊病例。

  方寸之地的陆家嘴金融城已成为全球人民币资产定价中心,陆家嘴的变迁是上海浦东改革开放的缩影。这里是我国金融业名副其实的对外开放窗口,成为外资金融机构布局中国业务的首选地,拥有全国41%外资法人银行,上海市71%的外资财险、人身险法人机构以及全国90%以上的外资私募机构。

TOP7热点:为什么越来越多企业家选择办大学CHINAGARY武警体育飞机

  高小俊表示,为进一步落实“外防输入、内防反弹”的总要求,推进核酸检测“应检尽检”,近日,北京疫情防控领导小组印发工作方案,明确对八类人员实施行核酸检测。

  国家卫健委发言人米锋:4月18日,境外输入新增确诊病例一个月以来首次降至10例以下,但个别省份境外输入引起的本土聚集性病例持续增加,提示要始终做好筛查、诊断、报告、隔离闭环管理,坚决防止社区传播。 

TOP8热点:河南暴雪人与畜禽一CORPORATION

  张某,女,49岁,无业,常住地:黑龙江省哈尔滨市道外区团结新区,是确诊病例陈某(男,87岁)在哈尔滨市二院住院治疗期间同楼层同病区患者陪护。4月18日,诊断为新冠肺炎确诊病例。

  4月10日,12时许陪同妻子乘109路公交车从文化街站到秋林公司站下车,步行到哈医大一院看病。13时许独自乘18路公交车从秋林公司站至亚麻厂站下车,14时许步行回家,未外出。

TOP9热点:76 人 109:144 掘金高压监狱1高压法版免费

  截至4月18日24时,厦门市累计报告境外输入新型冠状病毒肺炎确诊病例17例(英国6例,菲律宾5例,美国2例,阿联酋1例,爱尔兰1例,荷兰1例,马来西亚1例)。

  美国作为世界第一强国,医疗资源最丰富,科技也最发达,而且它的抗疫是明摆着的“开卷考试”,居然搞到了现在一天死一两千人、最高峰一天死四千人的程度,这完全超出了中国人对现代美国的想象力。没有任何理由可以在那个国家出现如此大规模的死亡,病毒在美国几乎像冲进原始社会一样,稍微有点科学和组织,就不该如此。

TOP10热点:31省份人均可支配收入哪家强激烈的打扑克的视频不盖被子

  有资深业内人士表示,基于人民币现金的支付、交易、反洗钱等,在现代社会管理难度越来越大,成本也越来越高。而发行数字货币,能够有效解决上述问题。

  4月12日-16日下午,曾到市场(香坊区量具厂工人文化宫对面)买菜(全程戴口罩)。期间4月13日16时许,骑自行车到医院给妻子送物品后回家。其余时间在家未外出。

发布于:汉源县