房地产新闻-"第一次挺进苏雨萌"-关于deepseek的一些普遍误读第一次挺进苏雨萌_ZAKER新闻

第一次挺进苏雨萌关于deepseek的一些普遍误读第一次挺进苏雨萌_ZAKER新闻

第一次挺进苏雨萌关于deepseek的一些普遍误读第一次挺进苏雨萌_ZAKER新闻

关于deepseek的一些普遍误读第一次挺进苏雨萌_ZAKER新闻

这次,中方特别把会见的地点,安排在了钓鱼台国宾馆5号楼。

最近 deepseek 成为全球最热门的话题,甚至没有之一,无论是北美,欧洲,各大 IT 巨头,各个投资机构,政府官员,乃至脱口秀演员,都在不断提及这个话题,而国内,自媒体也享受了一批十万加盛宴,惭愧,我的前一篇也算是其中之一。但在这些信息的不断传播和讨论中,鉴于流量的偏好,或者说公众的偏好,在很多自媒体和非专业人士的报道和解读中,一些关键信息存在较多的误导。我觉得这个话题甚至可以作为一个认知能力的评判标准,我所理解的合理认知是,我前几天直播讲了一下,就是掐头去尾。所谓头和尾是什么,过度神话,以及无脑贬低。一、过度神话我的旧文《DeepSeek,逆转时刻?》其实也说到了,它非常棒,对行业发展的促进价值是值得肯定的,但谈及颠覆,还为时尚早。从一些专业测评来看,在一些关键问题的解决上,它并没有超越 chatgpt。比如我看到有人测试,模拟典型的小球在封闭空间的弹跳代码,deepseek 编写出来的程序表现,和 chatgpt o3-mini 相比,从物理学的遵循程度来看,还是有差距的。当然,我没有亲测,单一案例也许不能证明太多,但至少从目前看到的多个测评来说,最多只能说各有千秋,还不能说 deepseek 实现了反超。二、无脑贬低不要过度神话它,但无脑贬低也是很扯淡的事情。微软说 deepseek 蒸馏了 chatgpt 的结果,所以一些人也借题发挥,把 deepseeek 贬低得一钱不值。这个事情该怎么看,也是有一些证据的,比如你问 deepseek 自己是谁,它会说自己是 chatgpt,从某种意义上来说,这个很有可能是他们采纳了 chatgpt 的一些语料信息用于训练,但如果你说他们的成就是基于蒸馏 chatgpt 的,我是不信的,根据我的测试,deepseek 回答的脑洞很大,很多问题的解答会比 chatgpt 发散,而我所理解的蒸馏,通常是为了提升效率,会带来更收敛的结果。我的个人判断是,在训练 deepseek 的过程中,可能部分利用了一些蒸馏的语料信息,或者做了少许的蒸馏验证,但这个对它整个模型的质量和价值影响应该很低。而且既然人家都开源了,复现和测试也很容易,全球做 AI 大模型的专家已经人手一份在研究了。就此而言,在这个环节上翻车的概率极低。但我也认同一个事实,基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,但毕竟需要联网 API,能获得的信息非常有限,不太可能是决定性的影响因素,相对海量的互联网数据信息来说,通过 api 调用领先大模型能获得的语料杯水车薪,合理的猜测是更多用于对策略的验证分析,而不是直接用作大规模训练。所有大模型都需要从互联网获得语料训练,而领先的大模型也在不断为互联网贡献语料,从这个角度来说,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命,但其实也没必要把这个当作决定成败的关键。最终大家都是你中有我,我中有你,迭代前进。三、成本优势关于 DeepSeek 成本优势的误读是最多的,也是最容易去写段子,打鸡血的,所谓中国创业公司不到 600 万美元干翻所有巨头,各种自媒体喜欢这样讲,普通老百姓也分辨不了。实际上,这个数据的来源是 DeepSeek 论文里提到的数据,而人家论文提到的数据是有前提的,是最终版本的训练成本,人家说的这个前提很清楚,没有包括研发成本,前期硬件购置成本,以及前期测试和迭代的训练成本,只是最终版本的训练成本,或者说,你拿着人家的开源代码,你有对方的完整语料,去做完整复现的算力成本。我举个例子你们就明白了,这就好比告诉你配方和生产流程,你去做仿制药的成本,但是原研药的成本是仿制药的多少倍,稍微懂点行的都知道吧。很多硅谷大佬出来说这个事,国内的人会认为这些大佬在贬低 DeepSeek,其实很多真不是,他们也要给自己团队找点场子对吧,自己投入了几十亿美金,被中美两边的老百姓们嘲笑,要对公众澄清一点,Deepseek 真实成本绝对不是几百万美金,我们这些巨头投入的几十亿美金也不是因为我们人傻对吧,所以很多大佬其实只是澄清事实,为自己的团队正名而已。但硅谷某些人的言论我也是不太认同的,说 deepseek 有五万张 H100,投入十几亿到二十亿美金,这个我还真不信,我觉得这就是另一个极端了。我给读者们算个帐:其一,网上说幻方不差钱,但他们背后其实是私募基金,私募基金啥意思,有投资人的,你梁文峰有情怀,人家投资人给你钱是让你炒股票的,不是给你买情怀的,幻方几百亿人民币的资金盘子,是投资人的钱,不是梁文峰的钱,他们炒股一年赚大几十亿人民币,是给投资人赚的钱,按照行规他们能分十几个亿,管理费 + 利润佣金,大概率过不了二十亿。然后还有各种税费要交,核心团队怎么说也要分钱,加上人员和量化系统的正常维护成本,这个钱当然不算少,比起很多国内上市公司的利润还多,但即便如此,算来算去,怎么看他们也不像能拿出十几个亿美金搞事的样子,七扣八扣,一年能拿出来十个亿人民币都难,这是我的个人判断。其二,人家优化算法,对内存的控制策略,摆明了是针对 H800 的内存局限做的,要真有那么多 H100,还搞这么复杂的内存优化干嘛,就算做优化也不会对内存占用卡得那么狠对吧。结合之前看到的一些数据和介绍,幻方有上万张,乃至几万张卡是真的,前期成本肯定不是几百万美金那么少,但是比起行业巨头来说,他们的资金其实也有限,能拿到的资源也有限。通过合理估算,我认为几年来累计投入十几个亿甚至二十多亿人民币是有可能的,肯定不是个小数字,也不是普通创业公司能玩得起的,但比起美国同行,比起行业巨头,肯定也是抠门了很多,总研发成本比美国同行低一个数量级也是合理的。没有网传那么省钱,但确实还是挺省钱的,这是我的结论。四、合规风险和生态诉求另一个巨大的误读,就是很多人没意识到,DeepSeek 这个词背后究竟是什么。其实我们所说的 DeepSeek,实际上包括了两个产品,一个是 DeepSeek 这个风靡世界的 App,另一个是 github 上的开源代码库。前者可以认为是后者的 Demo,一个完整的能力展示,而从他们产品的动作来看,我甚至怀疑他们压根没有将 DeepSeek App 商业化的打算,做个类比,就好比微信刚推出小游戏功能的时候,推出了一个跳格子小游戏,当时全网的人都在疯玩跳格子,但微信根本不在乎跳格子这个游戏的价值,他们要的是微信小游戏生态的建立。现在网上有很多新闻,说某些国家某些地区禁用了 DeepSeek,又说某些巨头接入和提供了 DeepSeek。很多人把这两件事混为一谈,其实这是完全独立的两件事。DeepSeek 这个 App 貌似没有做全球分区处理,没有针对任何地区做本地化处理,从这一点来看,很多国家和地区确实会有针对性的政策。小红书其实也类似,我在直播里就讲过,小红书压根没打算去接网民所谓的泼天富贵,对小红书来说,这也不是泼天富贵。它以前只做中文流量,不显山不露水,与世无争,被突然推到前台,其实合规的麻烦也是数不清。好在这俩产品目前都具有很好的统战价值,合规麻烦暂时主要在海外,国内目前官方都还是积极支持的。但开源系统就不一样了,DeepSeek 还选择了最大气的开源协议,据我所知,不太会有哪个政府傻缺到去限制开源软件的部署。所以各个国际巨头快速部署并提供相关服务,这个和某些政府所谓的限制使用 DeepSeek App,完全是两回事,一点也不冲突,而且他们限制的是政府雇员使用,并没有限制普通群众使用。你换位思考一下,中国会允许政府机构和军队使用部署在海外的数据产品么?为什么?但是海外开源系统的内部私有化部署一定是合规的,也一定是广泛存在的。如果我们放眼 DeepSeek 生态,而不是纠结于那个 App,目前全球正处于蓬勃发展的阶段,还没有看到任何禁令阻止这一趋势的发展。而且我相信,从梁文峰当下的做事风格来看,相关生态环境的发展也是他真正所期待的。五、行业影响很多人觉得英伟达完了,美国巨头完了,我不这么看,我觉得 DeepSeek 最大的贡献是,会加速整个 AI 产业的迭代效率,它们提供了一些新的优化思路,工程思想理念,这些会被所有行业巨头广泛吸收采纳,并用于产品的快速迭代和优化,用不了几个月,我相信就会看到显著的成果。其实最近几天,就能看到 chatgpt 产品的迭代突然提速了,我觉得重头戏还在后面。至于 CUDA,有人觉得 CUDA 架构面临崩塌,我也不太信。确实,这给受限于美国制裁的中国厂商提供了新的思路,从 PTX 入手,一样可以做出优秀的产品,但 Cuda 也会与时俱进啊,你的内存利用方式很优秀,我学过来,整合到我的新版本里不行么。下个版本更新发布的时候,包含一些新的方法和特性,基于它的生态架构,用户还是会继续使用顺手的产品。DeepSeek 用卓越的工程思想,促进 AI 全行业的快速迭代,并促进相关开源生态的快速发展,这既是我对它的预测,也是我对它的价值认定。当然,负面也是有的,因为它的训练成本真的低,效果也确实真的好,还全部开源,如果一些黑灰产领域在没有合规约束的情况下进行训练和使用,说真的,想想也挺可怕的,而且,还真没想到有什么好办法去应对。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:马连良

TOP1热点:400万法拉利开400公里就黑屏

另一方面,据环球时报报道,俄乌冲突爆发后,因对俄罗斯的不同态度,南非国内及与西方之间均摩擦不断。南非议会内最大的反对党民主联盟紧急向位于比勒陀利亚的高等法庭提交了诉讼,要求高等法庭判决南非政府必须执行ICC的逮捕令,然而,拉马福萨却坚持不能逮捕。可见,如果普京此次前往参会,无疑会给拉马福萨提出一个头疼的问题,选择远程参会反而是一个灵活且明智的抉择。。

同日,外交部副部长孙卫东奉命就韩国领导人涉台湾问题错误言论向韩国驻华大使郑在浩提出严正交涉。孙卫东说,尹锡悦总统日前接受采访时称台海局势紧张系试图以实力单方面改变现状导致。韩方立场是同国际社会一道,坚决反对以实力改变现状。台湾问题不是单纯的中国和台湾之间的问题,而是像朝鲜问题一样超越地区层面的世界性问题。上述言论完全不可接受,中方表示严重关切和强烈不满。

TOP2热点:老人退休金三千在直播间月刷万元

杨姐与其花那么多钱坐出租车,倒不如雇自己做杨姐的专属司机,平时去哪里也方便一些。

民警又找到报警人,向他们咨询老郭的妻子在哪里?

TOP3热点:陈幸同祝王曼昱早日康复体内㓔精69XXXXXx白浆

三个女人中最伤心的就是原配张女士了,她说,她当初离开老郭,想的就是老郭是她手里的风筝,放风筝的线一直掌握在她的手里。

可能是过去的生活让杨姐对阿兵积怨已久,在争斗的过程中,

TOP4热点:1岁多宝宝疑被大人亲吻后失明三个媳妇一锅烩大团圆婚礼

公器私用,将手中的公权力和烟草资源异化为谋取私利的工具,大搞权钱交易,利用职务便利为他人在职级晋升、职工录用、烟草业务承揽等方面谋利,并非法收受巨额财物。

2016年12月3日中午,内蒙古自治区赤峰宝马矿业有限公司煤矿发生特别重大瓦斯爆炸事故。事故发生时,井下共有181名作业人员。经过救援,共有149人安全升井,32人不幸遇难,20人受伤。

TOP5热点:卫生巾塌房背后:谁在喂养黑心工厂一面亲上边一面膜

晓霞告诉记者,知道哥哥被拐到缅甸后,80岁的外婆生病入院,妈妈则要靠助眠药物才能入睡。如今,哥哥具体在哪里、过得如何,他们无从知晓。

在国际刑事法院(ICC)指控普京并发布逮捕令之时,俄罗斯就指控内容荒唐无理,俄总统普京更是将其视为草纸。俄罗斯常驻联合国代表涅边贾则表示,国际刑事法院的任何文件都是非法的、无效的,俄罗斯根本不承认国际刑事法院的司法管辖权。俄侦查委员会主席巴斯特雷金就表示,俄罗斯会对ICC主席及三名向普京发出逮捕令的ICC法官提起刑事诉讼,并发出通缉令。

TOP6热点:网友质疑刘少昂故意摔倒 对手回应白嫩白嫩BBBBBBBBB-

除了校内排球队日常在此训练,这座场馆也有外校的排球队使用。7月24日,一位知情人接受南都记者采访时说,自己的朋友是当地另一所学校的排球队员,事发当天也在齐齐哈尔市第三十四中学的体育馆训练。不过因为近期天气潮湿导致了过敏,她的朋友便请假提前回家,“到家不到半小时,体育馆就发生了坍塌”。在那之后,她的朋友一直很低落,哭了一晚上。第二天看到持续更新的消息,也忍不住落泪。“明明昨天还在互相开玩笑,今天就发生这样的事情,让她感到后怕。”

一名现场市民告诉记者,第34中是当地较好的初中,共有两个校区,事发的是老校区。他表示,“这栋体育馆有超过20年的房龄,施工水平跟现在没法比。”

TOP7热点:男子往卡里偷存2000吨水费 警方通报国精产品999国精产品视频

2019年5月22日,杨姐再次来到阿兵租住的房间里和阿兵进行谈判。

何泽华

TOP8热点:同仁堂困局:百年老字号被“吸血”触手怪❌进胡桃尿孔里

这次,中方特别把会见的地点,安排在了钓鱼台国宾馆5号楼。

引以为戒呀!

TOP9热点:高诗岩生涯第七次三双体内㓔精69XXXXXx

另一方面,据环球时报报道,俄乌冲突爆发后,因对俄罗斯的不同态度,南非国内及与西方之间均摩擦不断。南非议会内最大的反对党民主联盟紧急向位于比勒陀利亚的高等法庭提交了诉讼,要求高等法庭判决南非政府必须执行ICC的逮捕令,然而,拉马福萨却坚持不能逮捕。可见,如果普京此次前往参会,无疑会给拉马福萨提出一个头疼的问题,选择远程参会反而是一个灵活且明智的抉择。

7月18日,新京报记者从纳雍县公安局办案民警处获悉,王女士大儿子的协查函已经由贵州省公安厅下发至其离境的点位西双版纳,再由西双版纳发到中国驻缅甸大使馆。王女士小儿子的协查函正在办理中。

TOP10热点:网友质疑刘少昂故意摔倒 对手回应非洲14may18_XXXXXL56endian

由此不难判断,中国人民解放军这是从空中和海上齐头并进北上符拉迪沃斯托克。而据俄新社等媒体披露,俄军也派出了海空力量,与中国人民解放军北部战区共同在日本海中部组织“北部·联合-2023”演习。

一名现场市民告诉记者,第34中是当地较好的初中,共有两个校区,事发的是老校区。他表示,“这栋体育馆有超过20年的房龄,施工水平跟现在没法比。”

发布于:荥阳市