国精产品呦呦仙踪林中国大模型“卷技术”!DeepSeek前脚发布NSA,Kimi立刻跟进MoBA_国精产品呦呦仙踪林ZAKER新闻
中国大模型“卷技术”!DeepSeek前脚发布NSA,Kimi立刻跟进MoBA_国精产品呦呦仙踪林ZAKER新闻
王毅指出,近年来,个别域外大国为了谋求地缘私利,刻意渲染意识形态差异,大肆编织各种排他性小圈子,试图以对抗取代合作、以分裂取代团结。如果放任这一趋势发展,不仅会严重干扰三国合作的顺利推进,也将不断加剧地区形势的紧张对立。
周二,当全球目光聚焦于马斯克 Grok-3 的庞大 GPU 集群时,中国大模型公司正在技术创新的道路上默默加速。先是DeepSeek 提出了原生稀疏注意力(Native Sparse Attention, NSA)机制。这项梁文锋亲自参与的研究成果,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。NSA 不仅能将大语言模型处理 64k 长文本的速度最高提升 11.6 倍,更在通用基准测试中实现了对传统全注意力模型的性能反超。这一突破表明,通过算法和硬件层面的协同创新,可以在不牺牲模型性能的前提下,显著提升长文本处理效率。紧随 DeepSeek 的步伐,Kimi 也迅速推出了自家的稀疏注意力技术—— MoBA(Mixture of Block Attention)。据这份由月之暗面、清华大学和浙江大学的研究人员共同发布的技术报告《MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》,MoBA 的设计理念是将全上下文划分为多个块,每个查询令牌(query token)学习关注最相关的键值(KV)块,从而实现对长序列的高效处理。与 DeepSeek 创始人梁文锋参与著作一样,月之暗面创始人杨植麟的名字也出现这篇论文的作者栏里。据论文介绍,在各种长文本处理任务中,采用 MoBA 技术的模型可以在保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。在 1M token 的测试中,MoBA 比全注意力快了 6.5 倍,在处理超长文本(如 1000 万 token)时,MoBA 的优势更加明显,可以实现 16 倍以上的加速。MoBA 已经部署于支持 Kimi 的长上下文请求处理,并在大语言模型的高效注意力计算方面取得了显著进展。更值得一提的是,MoBA 可以轻松地集成到现有的 LLMs 中,而无需进行大量的训练。 MoBA:基于块的稀疏注意力为了实现人工通用智能(AGI),LLMs 需要能够处理长文本序列,这对于历史数据分析、复杂推理和决策等任务至关重要。而传统的自注意力机制计算复杂度呈二次增长,限制了 LLMs 处理长文本的能力。现有的解决方案要么引入了强偏见的结构(如滑动窗口注意力),要么对注意力机制进行了线性近似,这些方法在复杂推理任务中的表现尚未得到充分验证。MOBA 技术的核心思想是将传统 Transformer 模型中的全局注意力机制改造为基于块的稀疏注意力。具体来说,MOBA 将输入序列划分为多个块,然后对每个查询 token 动态选择最相关的几个块进行注意力计算,而不是像传统方法那样对所有 token 都进行计算。这种方法既保留了原始 Transformer 的强大表达能力,又显著降低了计算复杂度,特别适合处理超长文本输入。MoBA 的核心创新点包括:可训练的块稀疏注意力: 全上下文被划分为多个块,每个查询令牌学习关注最相关的 KV 块,实现长序列的高效处理。无参数门控机制: 引入了一种新颖的无参数 top-k 门控机制,为每个查询令牌选择最相关的块,确保模型只关注信息量最大的部分。全注意力和稀疏注意力之间的无缝切换: MoBA 被设计为全注意力的灵活替代品,允许在全注意力和稀疏注意力模式之间无缝切换。 在处理超长文本时,MoBA 可以实现 16 倍以上的加速在各种长文本处理任务中,采用 MoBA 技术的模型可以在保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。在 1M token 的测试中,MoBA 比全注意力快了 6.5 倍,在处理超长文本(如 1000 万 token)时,MoBA 的优势更加明显,可以实现 16 倍以上的加速。Kimi 团队在多个方面对 MoBA 进行了实验验证:缩放定律实验(Scaling Law Experiments): 实验表明,尽管 MoBA 的注意力模式稀疏度高达 81.25%,但其在语言模型损失方面的表现与全注意力相当。长文本缩放能力(Long Context Scalability): 通过增加序列长度到 32K,MoBA 的稀疏度进一步提高到 95.31%。实验表明,MoBA 在处理长文本时,其性能与全注意力之间的差距逐渐缩小。细粒度块分割消融研究(Ablation Study on Fine-Grained Block Segmentation): 实验表明,更细粒度的块分割可以进一步提高 MoBA 的性能。MoBA 与全注意力的混合训练(Hybrid of MoBA and Full Attention): 实验表明,通过混合使用 MoBA 和全注意力进行训练,可以在训练效率和模型性能之间取得平衡。大型语言模型评估(Large Language Modeling Evaluation): 在多个真实世界的下游任务中,MoBA 的表现与全注意力模型相当,甚至在某些任务上略有优势。效率和可扩展性(Efficiency and Scalability): 实验表明,MoBA 在处理长序列时比全注意力更高效,计算复杂度为亚平方级。在 1M token 的测试中,MoBA 比全注意力快了 6.5 倍,在处理 1000 万 token 的序列时,MoBA 的注意力计算时间减少了 16 倍。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:张伍
TOP1热点:对于未成年人来说,从多大年纪开始带领他们认识真实的世界比较好?
2022年9月24日,云南维权司法鉴定中心出具《司法鉴定意见书》,王卫东死因符合开腹探查术中血管破裂出血、创面渗血致失血性休克死亡。。
TOP2热点:为什么泰州发展不起来?
小王说,这并不是当天第一次发生高空抛物事件,在事发前一两个小时内,还发生了两次一样的事件。“之前有两次,但是没砸到人,扔的是砖头和饮料瓶,然后有人报了两次警,警察也来现场出过警。”小王称,前两次高空抛物之后,考虑到安全问题,她周围摆摊的商家都没有离开自己摊位的棚子,也把外摆出来供游客吃饭的桌子给撤了,“因为当时没有找到抛物的人,怕再有这样的问题,我们就很警惕。”
2013年5月,李春生“空降”广东省出任副省长、省公安厅厅长、党委书记。
TOP3热点:为何在《西游记》中,东海龙王第一次见孙悟空称其为上仙?欲成欢第三部
2013年5月,李春生“空降”广东省出任副省长、省公安厅厅长、党委书记。
TOP4热点:研究生复试如何回答「请介绍你的科研经历 / 项目 / 成果」?拔萝卜痛又叫黄
老郭答应她了,不会再找小三。
TOP5热点:像丰川祥子这样的女孩子会有男生喜欢吗?说说都是怎么的干对象的
2009年7月23日,第一届中日韩央行行长会议在中国深圳举行,时任中国人民银行行长周小川出席了会议。
TOP6热点:如何评价 2025 年 2 月米哈游《绝区零》1.6 前瞻直播「在被遗忘的废墟之上」?怎么奖励自己的隐私位置
2022年9月24日,云南维权司法鉴定中心出具《司法鉴定意见书》,王卫东死因符合开腹探查术中血管破裂出血、创面渗血致失血性休克死亡。
日媒指出,日本对华半导体制造设备出口额几乎是美国对华出口额的两倍。
TOP7热点:「考研改成绩骗父母」生意火爆,商家利用前端技术暂时修改网页两天接几百单,如何看待此事?X7X7X7任意噪108
对此,乌克兰官员解释称,这是由于这一地区没有部署更先进的防御系统。当地的防空系统无法击落俄罗斯的“缟玛瑙(Oniks)”和Kh-22导弹,因为它们飞行速度太快。乌克兰武装部队空军司令部发言人伊纳特表示,“可以击落的都被击落了。当然,我们希望能击落更多的导弹。”
TOP8热点:AI 竞赛下半场,三大主流芯片架构中唯一开源的 RISC-V 是否有「后发优势」?14MAY18_XXXXXL56ENDIAN中国
上述文章还提到:据了解,三门峡高新一中初中部由跨省交流班(以陕西籍学生为主)和河南班两种班型组成。跨省交流班的学生随父母的工作地点而选择在三门峡高新一中就读。由于陕西与河南的教材不太一样,中考模式也有所不同,为此,三门峡高新一中组织了专门的教学团队,为跨省交流班量身打造最适合的教学内容。同时,定期与陕西省的联盟校进行交流,参与共同备课等教学活动。九年级第二学期,针对陕西省的中考特点进行考题研究,所有模拟考试均与陕西省保持同步。
TOP9热点:你觉得原生家庭的不幸,是不是要用一生来治愈?47147大但人文艺术欣赏
杨之斌对患者遗体内的11块血纱布作了解释。据他称,患者在术中大出血致手术无法顺利进行,第一时间肯定需止血抢救,为此医院骨科、胸外科等其它科室的专家也前来进行止血抢救,填埋纱布压迫止血是医疗过程中的一个常规操作,跟表皮出血用手指压迫一样,“我们的手术记录上也写得很清楚,没有隐瞒任何事实”。
TOP10热点:「考研改成绩骗父母」生意火爆,商家利用前端技术暂时修改网页两天接几百单,如何看待此事?亚洲uu
杨之斌对患者遗体内的11块血纱布作了解释。据他称,患者在术中大出血致手术无法顺利进行,第一时间肯定需止血抢救,为此医院骨科、胸外科等其它科室的专家也前来进行止血抢救,填埋纱布压迫止血是医疗过程中的一个常规操作,跟表皮出血用手指压迫一样,“我们的手术记录上也写得很清楚,没有隐瞒任何事实”。
推荐阅读
只剩3天!越南印度全跪了,美方深夜打来电话,局势愈发严峻了

全球罕见一致,共同报复美国,唯一犯怂的国家,却把枪口对准中国
当“黑户”的27年
特朗普回应市场崩盘:这是可预料的,我们早已病入膏肓,我们继承了很糟糕的经济

砸su7车窗救人司机发声,只有烟没明火,车上人已昏迷,细节曝光
赖清德担忧成真?福建传出重要消息,2300万台湾人将收到“大礼”
仁川冠军赛:刚刚国乒又一个选手惨遭淘汰。陈幸同强势挺进十六强
小米SU7爆燃事故车主:车上3人曾2次在途中休息,质疑小米公布信息

不是杨瀚森,让刘维伟介绍富婆的人是谁?青岛回应,名记透露情况
突发!俄军重磅发声:打完乌克兰,普京“枪口”已瞄准中方邻国?

对华关税飙升54%!北京为何稳如泰山?美媒惊曝“终极谈判剧本”
现场画面!美国洛杉矶华人女子在家门口点火恐吓邻居,持菜刀与警方对峙,遭警察当场击毙
