国际幼儿二区DeepSeek的华丽文风国际幼儿二区是怎样炼成的?
DeepSeek的华丽文风国际幼儿二区是怎样炼成的?
2005年12月,孙成伟离开丹东赴辽宁省会任职,担任辽宁省公安厅法制控申处处长;2008年6月,任朝阳市公安局党委书记、局长;2009年10月,任辽宁省公安厅党委委员、纪委书记、督察长;2015年6月退休。
去年还不相信AGI(通用人工智能)投资叙事的知名投资人朱啸虎,在被DeepSeek支配了一整个春节后,态度大变,“DeepSeek快让我相信AGI了。”在近期接受腾讯新闻采访时,朱啸虎多次惊叹于DeepSeek在内容生成方面的优美和深度。不止朱啸虎。在DeepSeek以假乱真,模仿梁文锋口吻回复冯骥的“国运论”造假文章出现后,作家兼脱口秀演员的李诞点评道,文章透露出一种非常DeepSeek的味道。这种味道被李诞概括为“科技抒情散文诗”。更重要的是,在优美和深度之外,DeepSeek让更多普通人第一次体会到了AI对话产品的易用性。在此之前,用户想要让ChatGPT等AI对话产品输出更准确的答案,往往需要学习一套较为复杂的Prompt(提示词)技巧,但在DeepSeek上面,用户只需要输入简单的自然语言,就能够得到相对准确的答复,且这些答复还能呈现出拟人化的特点。DeepSeek对人类情感价值的精准拿捏,一度使得其凭借“阴阳怪气”中文十级的表现,收获了“赛博嘴替”的美名。飙涨的用户数据,成了外界追捧DeepSeek的另一力证。AI产品榜的一份统计数据显示,DeepSeek应用在上线20天后,其DAU(日活用户)便突破了2000万,距离成为国内日活用户数第一的AI对话应用,指日可待。尽管DeepSeek坚持开源路线,但在其引发热议的R1最新模型上,DeepSeek尚未公开其预训练语料,这也使得外界好奇其优美华丽的文风,究竟是怎么训练出来的。字母榜(ID:wujicaijing)首先把这个问题抛给了 DeepSeek,它从风格化数据蒸馏体系,动态风格迁移架构,对抗式强化学习框架等维度给出了自己的解释。紧接着,字母榜又尝试让国内月活用户排名前三的大模型(DeepSeek除外)回答了下,它们给出了一个共同原因是,DeepSeek可能在语料选择上用了更多文学小说素材。就连朱啸虎也揣测,这可能跟DeepSeek团队喜欢优美的文字,喜欢哲学、量子力学等有关。DeepSeek的文艺青年气质,或许能从他们在宣布下场追逐AGI的宣言中略窥一二。2023年4月,幻方量化(DeepSeek母公司)在发布做大模型公告时,引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”在国内从事大模型创业的李振(化名),也做过类似的文风对比,“就是风格控制的颗粒度不同。其他国内大模型产品,在文学向标签上可能都没有DeepSeek多。”李振告诉字母榜,在文学语言占比上,据其推测,国内其他大模型,可能在语料库中的比例维持在10%-20%,DeepSeek则可能高达40%。除了数据来源不同之外,如何使用数据同样会影响大模型产品的内容生成效果。《生成式人工智能》作者、人工智能商业化专家丁磊博士,特意提到了DeepSeek R1模型中所展现的“aha moment”顿悟时刻,即模型学会了反思,“这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。”无论是对风格控制颗粒度的认知细化,还是“aha moment”顿悟时刻的到来,这背后都少不了DeepSeek的高人才密度支持。在人才方面的高密度和高自主性,被参与大模型投资的恒业资本创始合伙人江一视为是DeepSeek生成优美华丽文风的第一因素。“相比而言,部分大模型公司的员工,在自主性上不够开放,使得在大模型产品研发上更多呈现出靶向性的特征,最终的生成效果就显得中规中矩。”ADeepSeek的内容生成优势之一,在于构建了一个比较独特的文学增强型数据生态,即把自然语言生成转化成一个可控的风格系统,从而使得可以把文学创作领域的专业评价体系转化成相对应的函数,进而构建起一个风格表征的数学建模。为了达成上述效果,相比国内其他大模型,DeepSeek在数据标签上就需要做得更细更多样化。这也是国内大模型创业者李振感慨DeepSeek文学向标签更多的原因所在。去年3月,在受邀参加英伟达GTC 2024大会时,DeepSeek研究员便围绕“大模型价值观和人类价值观对齐”的主题,发表过一篇《和而不同:大语言模型价值观对齐解耦化》的演讲,其中提到DeepSeek构建了一个跨学科的专家团队,对不同社会背景人群的价值观的公约数进行了分类学研究,从而构建了一个三级标签的价值观分类体系。人工智能商业化专家丁磊博士告诉字母榜,数据标注之外,前期的数据质量对模型训练至关重要,“DeepSeek在长思维链数据的收集和标注、推理和非推理数据的质量等方面,都有独到之处。”根据官方公开的技术报告,在获取高质量数据方面,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据,提升了训练效率。这也是DeepSeek能够凭借更小参数量,就实现比肩OpenAI o1模型性能的一大关键。丁磊博士进一步解释道,模型参数量大小与最终模型呈现的效果之间,两者“投入产出并不成正比,而是非线性的……数据多只是一个定性,更重要的是考验团队数据清洗的能力,否则随着数据增多,数据干扰也将随之变大。”谷歌就是前车之鉴。不管从算力还是算法,谷歌并不比OpenAI差,甚至还要强,但恰恰是借助基于人类反馈的强化数据训练工作,OpenAI最终赶在谷歌前面做出了ChatGPT。即便在ChatGPT已经诞生2年多后的当下,业内部分大模型公司,依然存在在数据训练环节投机取巧的行为,比如“采用数据注水的手段,将还没进行标注的数据,直接投喂给大模型。”李振说道。甚至在李振看来,不同的数据处理方式,使得DeepSeek在训练范式上有了代际差距优势,部分国内大模型更多还是通用语料加基础过滤来完成预训练工作,“DeepSeek则可能加入了对抗式数据清洗环节。”李振表示。DeepSeek内部也的的确确在进行对抗式测试。去年3月的演讲中,DeepSeek研究员曾讲到,实际模型生产过程中,内部会进行模型的迭代式开发,“即每轮的训练结束之后,都会有一个独立的测试团队,对模型在各个维度上的安全性进行充分的测试,并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。”不同的训练方式,也导致即便是使用同样的中文语料库,最终训练出来的大模型,在文风上也会有完全不一样的呈现。而且,在R1模型加入RL(强化学习)之后,强化学习的训练次数也可能导致最终的文风不同。李振介绍,DeepSeek的PPO(强化学习)迭代轮次可能在50到80,国内其他大模型可能在20左右。导致轮次不同的原因之一在于,各个公司对产品功能的押注重点不同。朱啸虎以厨师做饭打了个比喻,“就像厨师,以后有几个米其林大厨,有些擅长川菜,有些擅长粤菜——它在组织语料或参数权重上的差别,就会造成回复的答案有差异性。”B华丽优美文风之外,DeepSeek生成内容的惊艳之处还在于,表现形式上做到科技抒情散文诗的一大前提,是首先确保了生成内容具备更高的事实准确性。在丁磊博士看来,这有两方面原因促成:一是模型的自我进化,模型学会通过更多的推理计算来解决复杂的任务,这不是来自外部设置而是模型自己学会的;二是模型的“aha moment”顿悟时刻,即模型学会了“反思”,这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。基于DeepSeek R1模型,官方还同步推出了R1-Zero模型,后者直接将RL应用于基础模型,而无需依赖SFT(监督微调)和已标注数据。此前,OpenAI的数据训练非常依赖人工干预,旗下数据团队甚至被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。但这样带来的结果之一便是,堆高数据获取成本,且面临数据标注质量参差不齐的难题,从而限制着大模型的规模泛化能力。R1-Zero的出现,恰恰是DeepSeek希望通过纯机器学习来解决上述难题的一大尝试,Perplexity公司CEO阿拉文·斯里尼瓦斯评价道:“需求是发明之母。因为DeepSeek必须找到解决办法,最终它们创造出了更高效的技术。”在DeepSeek对外分享的R1模型技术报告中,团队在强化学习推理阶段,意外发现了“aha moment”顿悟时刻,这预示着模型自身开始在某一时刻具备了自我反思能力。例如在解决数学方程时,模型会主动纠正早期错误步骤,还能根据训练逐步学会分配更多思考时间,生成更长的推理过程,以解决复杂问题。这种 “顿悟” 现象的出现,离不开一种特殊奖励机制的引导。根据官方技术文档,DeepSeek R1模型,没有使用MCTS(蒙特卡洛树搜索)类技术,而是在PPO算法之下采用了一种特殊的基于规则的奖励函数,根据生成输出的格式和正确性分配奖励,一般包括三种情况:如果输出以指定格式提供最终答案且正确,获得+1的奖励;如果输出提供最终答案但不正确,奖励设为-0.5;如果输出未能提供最终答案,奖励设为-1。“我们没直接教模型如何解决问题,只是给予它正确的激励,模型就能自己琢磨出先进的解题办法。”DeepSeek官方如此解释道。C无论是构建风格表征的数学建模,还是推动“aha moment”顿悟时刻的出现,背后都离不开DeepSeek对人才的重视和培养。在参与大模型投资的恒业资本创始合伙人江一看来,DeepSeek的高人才密度,外加内部人才的高自主性,强强结合,“使得DeepSeek内部产生了多样性的涌现,在穷举多个选项之后,优中选优,最终选定了现在的这种华丽优美文风。”上述人才特性也能从梁文锋的对外采访中印证一二。在接受36氪采访时,梁文锋曾介绍,DeepSeek管理遵循自下而上模式,且每个人对于卡和人的调动不设上限。“如果有想法,每个人随时可以调用训练集群的卡无需审批。”去年5月份率先打响行业价格战的DeepSeek V2模型,其中的技术创新之一MLA(一种新的多头潜在注意力机制)架构,就来自一个年轻研究员的个人兴趣。当时,在总结出Attention架构的一些主流变迁规律后,这位年轻研究员突发奇想设计了一个替代方案,DeepSeek为此组建了一个专项攻坚团队,花了几个月时间将MLA落地。在科技领域,自信是创新的首要前提,而梁文锋认为这种信心通常在年轻人身上更为明显。所以,DeepSeek内部多是一帮Top高校的应届毕业生、没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。“如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。”梁文锋解释道。相比而言,在江一观察中,部分大模型公司,在对待员工上则表现出更强的控制力,员工缺少自主性,“更多呈现出靶向性的研发特征,即部门确定一个最终达成的效果目标,所有的人都奔着这一目标而做好自己分内的工作,使得最终模型呈现出来的效果,显得中规中矩。”不过,需要注意的是,尽管DeepSeek生成的优美文风,被部分人喜爱,但也开始引发部分人的警惕,这些内容乍一看很好,但“仔细品读会发现很多的语法错误。”内容从业者王旭告诉字母榜。以开头那篇梁文锋回应冯骥赞誉的虚假文章为例,其中有句话写到,“既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。”仔细品读后,王旭便从中识别出了一些语病。相比语病,更不易察觉的是,借助更逼真、拟人化的文风,DeepSeek的幻觉现象,依然存在。在被王旭品读出语病的“既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。”这句话中,乍一看,DeepSeek不仅给出了场景细节,还给出了具体的时间节点,不由得就会让人相信这都是曾经真实发生过的画面。但简单搜索下梁文锋的履历便可知道,在十二年前的2013年,梁文锋已经从浙江大学硕士毕业三年。当年,梁文锋与其浙大同学徐进共同创立了杭州雅克比投资管理有限公司,DeepSeek给出的梁文锋在浙大实验室做实验的场景,大概率是自行编造而来。随着大模型在可靠性上表现出来的能力越来越强,其迷惑性的一面也随之增强。作为人类的我们,或许是时候该学学如何提高辨别AI内容时,自身的可靠性了。参考资料:《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》张小珺《全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻》新智元《和而不同:大语言模型价值观对齐解耦化》 DeepSeek《疯狂的幻方:一家隐形AI巨头的大模型之路》暗涌Waves《朱啸虎VS傅盛,怼出了大模型创业的两个共识》字母榜koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:赵大华
TOP1热点:黄友政2比3弗朗西斯卡
通报显示,全国纪检监察系统共接收涉及纪检监察干部问题线索或反映2.02万余件次,立案纪检监察干部2482人,处分1647人,移送司法机关73人。和去年同期相比,各项数据均显著增长。。
TOP2热点:射雕票房逆跌
上述风险事件集中反映出中小银行艰难的经营现状。总结来看,中小银行整体呈“量多质弱”的特点,较国有大行和股份行而言,中小银行盈利能力普遍较弱,抗风险能力较低,风险抵补能力弱,且高风险机构聚集。根据央行公布的2022年四季度金融机构评级结果,高风险银行346家,城商行、农合机构(包括农商行、农合行、农村信用社)和村镇银行的数量分别为16家、202家和112家,占比高达95.4%。中小银行一方面资产质量偏差,城商行、农商行的不良贷款率分别为1.90%和3.25%,高于商业银行的平均水平(1.62%);另一方面,能够承担损失的自有资金较少,资本充足率显著低于国有大行和股份行。
智利不仅是最早表态支持“一带一路”的拉美国家,而且历届政府多次表示希望充当拉美和亚洲之间的桥梁,在中拉共建“一带一路”的合作机制中发挥联通和组织作用。
TOP3热点:程潇春樱xxx.日本护士
株洲市委原常委、市政府原常务副市长何剑波违规经商办企业等问题。2007年至2011年,何剑波在担任株洲高新区管委会主任、株洲市副市长期间,利用职权为某公司低价购地、享受优惠政策提供帮助,事后接受该公司无风险的固定回报机会,通过以妹夫徐某某名义入股方式接受该公司所送287.1万元。2018年9月,何剑波在担任株洲市委常委、常务副市长期间,安排妻子喻某某以朋友孙某某名义投资50万元购买某企业股份;2020年8月,何剑波安排妻子以外甥徐某名义投资200万元购买某企业股份;上述股权至何剑波案发时尚未分红。何剑波还存在其他严重违纪违法问题。2023年4月,何剑波受到开除党籍、开除公职处分,违纪违法所得被追缴,涉嫌犯罪问题被移送检察机关依法审查起诉。
黄光裕,广东潮汕人,出生于1969年。1987年,黄光裕创立国美电器。2004、2005、2008年黄光裕三度问鼎胡润百富榜中国大陆首富。黄光裕个人财富最高时达到450亿元。
TOP4热点:陈哲远不是天选是严选课代表趴在桌子上
前三季度,服务业增加值同比增长6.0%。其中,住宿和餐饮业,信息传输、软件和信息技术服务业,租赁和商务服务业,交通运输、仓储和邮政业,金融业增加值分别增长14.4%、12.1%、9.5%、7.5%、7.0%。9月份,服务业生产指数同比增长6.9%,比上月加快0.1个百分点,增速连续2个月回升。其中,住宿和餐饮业,信息传输、软件和信息技术服务业,交通运输、仓储和邮政业生产指数分别增长17.7%、11.3%、9.3%。1-8月份,全国规模以上服务业企业营业收入同比增长7.2%。9月份,服务业商务活动指数为50.9%,比上月上升0.4个百分点;业务活动预期指数为58.1%。其中,水上运输、邮政、电信广播电视及卫星传输服务、互联网软件及信息技术服务、货币金融服务等行业商务活动指数位于55.0%以上较高景气区间。
TOP5热点:你收到开工利狮了吗87fuli
鼓励中小银行重塑服务地方经济、服务中小企业、服务本地市民的战略定位,走特色化、差异化发展之路。中国经济最大的特征就是多重二元结构,城市与乡村、沿海与内地、北方与南方等,这意味着必须要有差异化的金融体系来承接差异化的金融需求,中小银行的价值和发展空间长期存在。鉴于此,应鼓励中小银行推广线下化、非标准化为主的服务模式,通过线下与客户的高频沟通,增强客户粘性,减少信息不对称的问题。例如,江浙沪地区的台州银行、泰隆银行等,依靠线下高成本有效解决信息不对称问题,保持了较低的不良率,节省了风险成本。还需鼓励中小银行集中资源,围绕一两个产业链,将服务和产品做深做实。例如,安徽亳州的药都农商银行,服务当地中药材市场,满足了农村地区和药材批发市场客户“短小频急”的金融服务需求。再如,新疆的汇和银行,主要业务围绕新疆的棉花产业链,贷款中超过六成投向棉花产业。
TOP6热点:特朗普称希望乌用稀土矿换援助91综合国产精品
中智建交半个多世纪以来,两国关系始终保持平稳健康发展,各领域合作促进了各自国家发展振兴,也给两国人民带来实实在在的福祉。中智已经成为相互信任的好朋友、共谋发展的好伙伴。
虽然博里奇上台适逢新冠疫情肆虐,进而一定程度上影响了两国的往来频率,但在其执政两年半的时间里,仍然高度注重发展与我国的关系,一如既往推进与我国共建“一带一路”框架下的互联互通与发展互鉴合作。
TOP7热点:今晚记得打开闹钟日本手动强 动漫人物游戏
根据《公安机关督察条例》,县级以上地方各级任免政府公安机关设督察长,督察机构对公安机关及其人民警察依法履行职责、行使职权和遵守纪律等事项进行督察。
TOP8热点:日本多地持续药品荒adc年龄确认欢迎您
在2013年第一次竞选议员时,他就以26.18%的得票率当选,是他所在地区获得票数最多的候选人。在第一个任期内,博里奇担任过多个众议院委员会委员。到了2017年竞选议员连任时,博里奇又以24.62%的选票继续领跑众多候选人。
TOP9热点:癌症防治6大误区国色精品卡一卡2卡3卡4卡免费
简历显示,周辉军出生于1965年2月,湖北巴东人,曾在恩施州纪委、州政法委工作,2019年7月任州政府秘书长。2022年初转岗州政协,分管提案委员会、人口资源环境委员会。
TOP10热点:春节假期兴起入境定制游黄色软件下载安装3.3.0华为手机
根据巡视工作条例规定,中央巡视组主要受理反映被巡视单位党组织领导班子及其成员、下一级党组织主要负责人和重点岗位人员问题的来信来电来访,重点是关于违反政治纪律、组织纪律、廉洁纪律、群众纪律、工作纪律和生活纪律等方面的举报和反映。其他不属于巡视受理范围的信访问题,将按规定由被巡视单位和有关部门认真处理。
声明中称:2023年3月,吕某以“粉丝”名义联系郑强,并讲述个人经历及在监狱服刑的体会感想,希望得到相关帮助。2023年6月,吕某再次联系郑强,希望在其社会工作方面获得郑强支持,要求为其介绍资源。