文学新视-"想要你叫"-显卡可能没那么重要了?中国公司给硅谷好好想要你叫上了一课。_ZAKER新闻

想要你叫显卡可能没那么重要了?中国公司给硅谷好好想要你叫上了一课。_ZAKER新闻

想要你叫显卡可能没那么重要了?中国公司给硅谷好好想要你叫上了一课。_ZAKER新闻

显卡可能没那么重要了?中国公司给硅谷好好想要你叫上了一课。_ZAKER新闻

  携程网数据显示,与去年同期相比,今年前三个月前往中东旅行的预订量增长了三位数。今年6月,阿联酋旅游机构透露,去年阿联酋共接待了120万名中国游客,游客人数“预计今年将实现大幅增长”。全球咨询公司牛津经济研究院同样预测,中国出境游的复苏将由中东地区等目的地引领。

我是万万没想到,就在西方还沉浸在圣诞假期,疯狂 " 过年 " 的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。紧接着又来了个国产大模型 DeepSeek,甚至有股做空英伟达的味道。具体咋回事儿,咱给你唠明白咯。前几天, DeepSeek 刚刚公布最新版本 V3 ,注意,与大洋彼岸那个自称 Open ,却越来越 Close 的公司产品不同,这个 V3 是开源的。不过开源还不是他最重要的标签, DeepSeek-V3 ( 以下简称 V3 )还兼具了性能国际一流,技术力牛逼,价格击穿地心三个特点,这一套不解释连招打得业内大模型厂商们都有点晕头转向了。 V3 一发布, OpenAI 创始成员 Karpathy 直接看嗨了,甚至发出了灵魂提问,难道说大模型们压根不需要大规模显卡集群?我估计老黄看到这头皮都得发麻了吧。同时, Meta 的 AI 技术官也是直呼 DeepSeek 的成果伟大。知名 AI 评测博主 Tim Dettmers ,直接吹起来了,表示 DeepSeek 的处理优雅 "elegant" 。而在这些技术出身的人,看着 V3 的成绩送去赞扬的时候,也有些人急了。 比如奥特曼就搁那说,复制比较简单啦,很难不让人觉得他在内涵 DeepSeek 。更有意思的是,做到这些的公司既不是什么大厂,也不是纯血 AI 厂商。DeepSeek 公司中文名叫深度求索,他们本来和 AI 没任何关系。就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队。而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。早在 2019 年,幻方就投资 2 亿元搭建了自研深度学习训练平台 " 萤火虫一号 " ,到了 2021 年已经买了足足 1 万丈英伟达 A100 显卡的算力储备了。要知道,这个时候大模型没火,万卡集群的概念更是还没出现。而正是凭借这部分硬件储备,幻方才拿到了 AI 大模型的入场券,最终卷出了现在的 V3 。你说好好的一个量化投资领域的大厂,干嘛要跑来搞 AI 呢?深度求索的 CEO 梁文锋在接受采访的时候给大家聊过,并不是什么看中 AI 前景。 而是在他们看来, " 通用人工智能可能是下一个最难的事之一 " ,对他们来说, " 这是一个怎么做的问题,而不是为什么做的问题。 "就是抱着这么股 " 莽 " 劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲 V3 有啥特别的地方。首先就是性能强悍,目前来看,在 V3 面前,开源模型几乎没一个能打的。 还记得去年年中,小扎的 Meta 推出模型 Llama 3.1 ,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在 V3 手里,基本是全面落败。而在各种大厂手里的闭源模型,那些大家耳熟能详的什么 GPT-4o 、 Claude 3.5 Sonnet 啥的, V3 也能打得有来有回。你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。所以在圈子里有了一个新的计量单位 "GPU 时 " ,也就是用了多少块 GPU 花了多少个小时的训练时间。GPU 时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。前面说的此前开源模型王者, Llama 3.1 405B ,训练周期花费了 3080 万 GPU 时。可性能更强的 V3 ,只花了不到 280 万 GPU 时。以钱来换算, DeepSeek 搞出 V3 版本,大概只花了 4000 多万人民币。而 Llama 3.1 405B 的训练期间, Meta 光是在老黄那买了 16000 多个 GPU ,保守估计至少都花了十几亿人民币。 至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。你别以为 DeepSeek 靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。为了搞清楚 DeepSeek 的技术咋样,咱们特地联系了语核科技创始人兼 CTO 池光耀,他们主力发展企业向的 agent 数字人,早就是 DeepSeek 的铁粉了。池光耀告诉我们,这次 V3 的更新主要是 3 个方面的优化,分别是通信和显存优化、推理专家的负载均衡以及FP8 混合精度训练。各个部分怎么实现的咱也就不多说了,总体来说,大的整体结构没啥变化,更多的像是咱们搞基建的那一套传统艺能,把工程做得更高效、更合理了。首先, V3 通过通信和显存优化,极大幅度减少了资源空闲率,提升了利用效率。而推理专家( 具备推理能力的 AI 系统或算法,能够通过数据分析得出结论 )的负载均衡就更巧妙了,一般的大模型,每次启动,必须把所有专家都等比例放进工位( 显存 ),但真正回答用户问题时,十几个专家里面只用到一两个,剩下的专家占着工位( 显存 )摸鱼,也干不了别的事情。 而 DeepSeek 把专家分成热门和冷门两种,热门的专家,复制一份放进显存,处理热门问题;冷门的专家也不摸鱼,总是能被分配到问题。FP8 混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步,通过降低训练精度以降低训练时算力开销,但却神奇地保持了回答质量基本不变。也正是这些技术上的革新,才得到了大模型圈的一致好评。通过一直以来的技术更新迭代, DeepSeek 收获的回报也是相当惊人的。他们 V3 版本推出后,他们的价格已经是低到百万次几毛钱、几块钱。而一开始提到同样开源的 Claude 3.5 Sonnet ,每百万输入输出,至少都得要几十块以上。。。更要命的是,这对 DeepSeek 来说已经是常规套路了。早在去年初,DeepSeek V2 模型发布后,就靠着一手低价,被大家叫做了AI 界拼多多。他们还进一步引发了国内大模型公司的价格战,诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。池光耀也告诉我们,他们公司早在去年 6 、 7 月份就开始用上了 DeepSeek ,当时也有国内其他一些大模型厂商来找过他们。 但和 DeepSeek 价格差不多的,模型 " 又太笨了,跟 DeepSeek 不在一个维度 " ;如果模型能力和 DeepSeek 差不多,那个价格 " 基本都是 10 倍以上 " 。更夸张的是,由于技术 " 遥遥领先 " 带来的降本增效,哪怕 DeepSeek 卖得这么便宜,根据他们创始人梁文峰所说,他们公司还是赚钱的。。。是不是有种隔壁比亚迪搞 998 ,照样财报飘红的味道了。不过对于我们普通用户来说, DeepSeek 似乎也有点偏门了。因为他的强项主要是在推理、数学、代码方向,而多模态和一些娱乐化的领域不是他们的长处。而且眼下,尽管 DeepSeek 说自己还是赚钱的,但他们团队上上下下都有股极客味,所以他们的商业化比起其他厂商就有点弱了。但不管怎么说, DeepSeek 的成功也证明了,在 AI 这个赛道还存在的更多的可能。按以前的理解,想玩转 AI 后面没有个金主爸爸砸钱买显卡,压根就玩不转。但现在看起来,掌握了算力并不一定就是掌握了一切。我们不妨期待下未来,更多的优化出现,让更多的小公司、初创企业都能进入 AI 领域,差评君总感觉,那才是真正的 AI 浪潮才对。撰文:八戒美编:焕妍

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:孙念祖

TOP1热点:航空之城南昌插上低空翅膀:基础完善产业链优势明显,加速培育新业态

  [环球时报报道 记者 郭媛丹]继加拿大、澳大利亚之后,荷兰加入指责所谓“中国军机危险接近”的小群体中。荷兰国防部8日发表声明称,一艘荷兰护卫舰在东海航行时,中国战机在其周围空域盘旋,并接近一架荷兰直升机。接受《环球时报》记者采访的专家表示,荷兰在美国的鼓动下对中国实施挑衅行动,为维护国家主权和安全,中国人民解放军会采取必要的应对措施。。

  [环球时报特约记者 李佳寅]“世预赛亚洲区第三轮(18强)的参赛球队已经确定。”亚足联官网12日介绍称,日本、伊朗、韩国、澳大利亚、卡塔尔、沙特阿拉伯、伊拉克、乌兹别克斯坦、阿联酋、约旦、阿曼、巴林、中国、巴勒斯坦、吉尔吉斯斯坦、朝鲜、印度尼西亚和科威特队晋级18强赛。6月27日将进行18强赛抽签,届时将按照国际足联最新一期世界排名将18支球队分为六档,如无意外,目前世界排名第88、亚洲排名第13的中国男足将以第五档球队身份参与抽签。18支球队将分为3组,每组6队——六档球队各有一支,进行主客场双循环比赛。赛事将于今年9月开踢。

TOP2热点:湖南一敬老院副院长套取特困人员生活补助超35万元被处理

  国际房地产服务和投资管理公司仲量联行大中华区酒店和酒店集团负责人周涛表示,在“一带一路”倡议下,中国与中东国家建立了更紧密的联系,最新的旅游热潮已经到来。他说,随着中国和中东合作的深化,双方间航班数量“将继续增加并迅速增长”。

  改革开放以来,中国福利会立足上海、服务全国、走向世界,事业板块不断拓展,涵盖妇幼保健、学前教育、学校教育、校外教育、儿童戏剧、出版传媒、老年福利以及公益慈善等八大领域。

TOP3热点:近1.4万亿元融资获批!精准支持房地产“白名单”项目linode成熟iphone

  “我第一次去伊朗旅行时,很快就被她的文化和历史迷住了……”梁伊娃表示,她现在想再次去中东地区,探索更多不同的地方。她告诉《南华早报》,中东之旅让她可以“以一种客观的方式看待世界”,“当我在中东时,我可以相对客观地看待这个地区,不受世界各地媒体的影响”。

  沙特旅游部大臣艾哈迈德·哈提卜告诉《南华早报》,沙特等主要中东国家2019年才向中国游客敞开大门,将中国视为外国游客的重要来源,因此市场潜力巨大。伊朗同样在2019年才向中国游客提供免签优惠。数据显示,自2022年底起,中国和伊朗高级官员举行了大约10次会议,讨论重点是民间和旅游政策交流。

TOP4热点:WPS“崩”上热搜,企业回应:正在紧急修复金瓶春梦噼里啪啦国语在线播放

  [环球时报特约记者 李佳寅]“世预赛亚洲区第三轮(18强)的参赛球队已经确定。”亚足联官网12日介绍称,日本、伊朗、韩国、澳大利亚、卡塔尔、沙特阿拉伯、伊拉克、乌兹别克斯坦、阿联酋、约旦、阿曼、巴林、中国、巴勒斯坦、吉尔吉斯斯坦、朝鲜、印度尼西亚和科威特队晋级18强赛。6月27日将进行18强赛抽签,届时将按照国际足联最新一期世界排名将18支球队分为六档,如无意外,目前世界排名第88、亚洲排名第13的中国男足将以第五档球队身份参与抽签。18支球队将分为3组,每组6队——六档球队各有一支,进行主客场双循环比赛。赛事将于今年9月开踢。

  有记者提问,彭博社报道称,拜登政府正考虑进一步限制中国获得用于人工智能的芯片技术,正在讨论的措施将限制中国使用被称为全环绕栅极(GAA)尖端芯片架构。您对此有何评论?

TOP5热点:《黑神话:悟空》今日开服,已知国内36个取景地里山西占27个成品网站源码入口隐藏通道

  今天(6月13日),华北平原等地高温仍处于鼎盛状态,河北中南部、山东西北部、河南中北部可能出现成片40℃,部分地区最高可能有43℃甚至44℃,可能接近或打破6月最高纪录甚至观测史纪录。

  今年4月25日,烟台市交通运输局相关负责人表示,目前当地出租行业经营年龄延长问题已经被列入烟台2024年立法计划,并对外征求意见,相关条款也规定从业年龄不超过65周岁,争取最快年内实现地方立法在出租车司机运营年龄上限的突破。

TOP6热点:吉林一地法院调研报告:农村单亲家庭的未成年人犯罪人数增多老婆不在家一个人寂寞CSGO文案

  王先生说,待他收到5万元后,很多病友联系他想要加入配捐项目,于是他拉了一个对接群,柯某孝本人在里面对接,由于王先生第一笔钱顺利返回,很多病友都非常信任柯某孝,这次金额高达500多万。

  [环球时报特约记者 李佳寅]“世预赛亚洲区第三轮(18强)的参赛球队已经确定。”亚足联官网12日介绍称,日本、伊朗、韩国、澳大利亚、卡塔尔、沙特阿拉伯、伊拉克、乌兹别克斯坦、阿联酋、约旦、阿曼、巴林、中国、巴勒斯坦、吉尔吉斯斯坦、朝鲜、印度尼西亚和科威特队晋级18强赛。6月27日将进行18强赛抽签,届时将按照国际足联最新一期世界排名将18支球队分为六档,如无意外,目前世界排名第88、亚洲排名第13的中国男足将以第五档球队身份参与抽签。18支球队将分为3组,每组6队——六档球队各有一支,进行主客场双循环比赛。赛事将于今年9月开踢。

TOP7热点:夫妻带俩孩子预订荷兰酒店被拒绝入住,Agoda平台:退款10%696969大但人文艺术主题

  目前,我国航天员选拔训练体系更加成熟完善,随着载人航天国际合作的深入推进,还将有国外航天员参与选拔训练并执行中国空间站飞行任务。探索浩瀚宇宙,加油!(总台央视记者王刚)

  尽管中国并未采取集中清缴清欠税收等行动,但随着税收大数据广泛应用,网状、系统性税收风险分析取代了此前个人经验点对点分析,税收征管力度事实上在不断强化,税收征收率在不断提高。以前企业偷漏税可能不容易被发现,但近些年通过税收大数据,税务部门会收到企业风险提示,并跟企业确认,不少企业需要依法补缴税款。

TOP8热点:山东一景区通报“检票员持刀冲向游客”:已开除涉事人员二次元人物桶二次元人物免费

  军事专家张军社10日接受《环球时报》记者采访时表示,事发东海是中国的家门口,“中国军队派出舰机进行跟踪、监视是正当的,完全符合国际法和国际实践。”

  此外,北京星远福源电力设备安装有限公司(专业分包单位)及北京隆祥鸿泰建设工程有限公司(劳务分包单位),对事故发生负有主要管理责任,被建议给予行政处罚。

TOP9热点:河南新桥煤矿通报“退伍军人被冒名顶替26年”:举报属实hennessy女rapper

  但也存在担忧的声音,一部分网友表示会担心行驶安全问题。他们表示,司机年龄放宽后,担心老年人作为司机,身体素质不一定能跟上,在道路上行驶存在一定安全风险。

  对抗旱工作作出安排部署。印发《关于做好当前抗旱工作的紧急通知》《关于切实做好抗旱播种保苗工作的紧急通知》等文件,就抗旱播种、田间管理、旱情监测、水源调度等提出要求。严格落实以气象预报为先导的应急响应联动机制,组织相关部门滚动开展旱情会商,分析研判旱情发展趋势。及时启动省级抗旱应急四级响应,14个省辖市先后启动本地区抗旱应急响应机制,全省进入抗旱应急状态。

TOP10热点:习近平接见第33届奥运会中国体育代表团如饥似渴LA.VORACE

  6月13日、14日,河南多地发布人工增雨公告。提醒:任何组织和个人若发现未爆炸或爆炸不完全弹头、弹药碎片或火箭弹残骸,切勿擅自移动、藏匿、拆解和损毁等,请立即报告当地政府或人工影响天气有关部门,或者立即拨打110向当地公安部门报警。

  新华社南昌6月12日电 记者从江西省上饶市相关部门获悉,6月12日14时许,一架直升机在江西省上饶市鄱阳县凰岗镇飞行过程中坠落。记者初步了解到,事发时机上载有3人,目前当地正在组织搜救。(记者万象、姚子云、程迪)

发布于:合肥市

推荐阅读

为您推荐中
暂时没有更多内容了……