混乱家庭派对大模型能学会外星语言吗?混乱家庭派对_ZAKER新闻
大模型能学会外星语言吗?混乱家庭派对_ZAKER新闻
据日本《读卖新闻》8月31日报道,美国驻日本大使伊曼纽尔当天访问福岛县相马市,在餐馆品尝当地捕捞的比目鱼生鱼片等,并到超市选购食品。伊曼纽尔重申美方对福岛核污染水排海的支持,声称中国对福岛核污染水排海作出的反制是“经济胁迫和政治手段”。对于日方可能向WTO申诉中国进口管制措施,伊曼纽尔称:“如果日本决定采取这一行动,美国将予以支持。不仅因为日本是盟友,还因为这一案例具有合法性。”
文 | 追问 nextquestion一天,你家的花园里突然出现了一个虫洞,从中你得到了一本书,书中的文字复杂难懂,仿若外星语言,这时候你会怎么破译它?是打算先分析这些文字是否像我们的字母表那样有固定的符号集合,还是观察这些符号之间的组合规律?亦或者,你想到了借用大模型的帮助,希望它能帮你理解这本书的内容?那么,大模型究竟能不能学会 " 外星语言 "?在开始尝试学习外星语言之前,你知道大模型已经成功破译了诸如鲸鱼等动物的语言。不止如此,大模型也能够很快学会层出不穷的编程语言。那么具有哪种特质的外星语言能让大数据模型更容易破解呢?近日,《自然 - 通讯》的一项研究指出,语言结构的组合性不仅让大模型的学习变得更加高效,也使人类在学习语言时变得更加轻松。 图 1. 本文来源:Galke, L., Ram, Y. & Raviv, L. Deep neural networks and humans both benefit from compositional language structure. Nat Commun 15, 10816 ( 2024 ) . https://doi.org/10.1038/s41467-024-55158-101 语言的组合性是什么所谓组合性,是指语言中的两个词组合起来,就能表示一个更复杂的新概念。想象两种语言,语言 A 中描述黑马时,只需要将代表黑的词和代表马的词组合,就成了对应黑马的词汇;而语言 B 中,描述马,黑色以及黑马是三个截然不同的词。在这两种语言中,如果语言 A 比语言 B 出现了更多的组合词汇,就可以说语言 A 相比语言 B 具有更高的组合性。▷ 图 2. 对外星人来说,zebra 或者斑马,哪一种更可能让他们把这张图片和文字联系起来?图源:AlLes对于成年人来说,学习组合性较强的语言需要更强的逻辑能力,它允许学习者推导出一组生成规则,而不是死记硬背每个单词。我们对此都有经验——学习英语的时候,了解词根再去背单词要比直接生啃单词书容易的多。组合性强的语言能让学习者能够在接触到有限的集合后可以使用这些规则产生无限的言语表达。实际上,有关研究表明,现代语言通常都具有较强的组合性结构,这是在语言进化的过程中为了提高学习和使用的效率而逐渐形成的。在编程语言中,同样存在这样的组合性,低级的汇编语言中,你每操作一个变量,都需要对应的语句;而到了诸如 python 这样的高级语言,则能够将多个操作整合成一个函数,然后一次调用就完成一个矩阵成千上万个数的运算。大数据模型在理解和运用编程语言,尤其是组合性强的 " 高级语言 " 中展现出一定优势,然而,在之前的研究中,大数据模型却似乎并没有从组织性强的语言中受益的倾向。为此,Galke 等人希望通过一项研究回答一个问题:当在更结构化的语言输入上进行训练时,深度神经网络模型是否表现出与人类成年人相同的学习和泛化优势?研究者将 GPT-3.5 及 RNN 分别作为预训练模型以及待训练的语言模型,使用具有不同组合性的人工模拟语言作为训练文本,以考察人类被试和大模型学习这些实验室生成的虚拟语言时的学习能力。结果发现,学习文本中,结构性越强,无论对于人类,预训练还是未经训练的人工神经网络,学习后的泛化能力都是有所提升(图 3)。▷ 图 3. 实验设计概述。研究人员设计了不同结构程度的人工语言,分为低结构和高结构两类。低结构语言缺乏系统性和组合性,而高结构语言在形状和角度属性上都具有系统性和组合性。实验过程包括多个回合的训练,每个回合包含暴露阶段、猜测阶段和生成阶段。在每个回合结束后,研究者进行了记忆测试和泛化测试,分别评估模型对之前见过的项目的再生产能力和对新项目的生成能力。02 高度结构化的语言更容易学习首先,研究人员解释了为什么大数据模型没有倾向于组合性强的语言。简单来说,深度神经网络通常具有巨大的模型容量,这也就意味着它们能轻易的记住所有单独的语言表述形式,而不需要通过识别组合模式来增强记忆。但是这并不意味着组合性强的语言对大数据模型没有意义,在具有更高组合度的语言中,单个意义单元在不同的语境中被重用,因此在训练数据中出现的频率更高,这样,由于在整个训练过程中的重复呈现,这些重复出现的意义单元及其语境化模式会得到更好的学习。让我们回到外星人的例子中。假如外星人的书中有一份对照表,告诉你 " 追 " 的意思是 " 向右 "," 问 " 的意思是 " 向上 ",那么如果要表达 " 向右上 ",你会怎么表达呢?在组合度高的语言中,我们都能找到规律,得出 " 追问 " 就能表达 " 向右上 " 的意思,而在组合度低的语言中,我们可能就找不到类似的规律。这种将已学到的知识或技能应用于新的、未见过的情境或数据的能力称为 " 泛化 "。在高组合度语言和低组合度语言的对比中,无论是人类还是大模型,面对高组织度语言时的泛化得分都远高于面对低组织度语言时的情况(图 4)。▷图 4. 显示了人类(A)、GPT-3.5(B)和 RNN(C)在不同输入语言下最终达到的泛化得分。横轴表示输入语言的结构得分,纵轴表示泛化得分。每个点代表整个输入语言的泛化得分,反映学习者根据已学标签系统性地泛化新标签的程度。例如,如果学习者成功地将之前使用的部分重新组合,如将表示形状的 "muif" 和表示方向的 "i" 组合成 "muif-i",则泛化得分会很高。回归线的阴影区域表示通过自举法估计的 95% 置信区间。除此之外,在使用更结构化的语言,也就是具有明确的语法规则和句法层次的语言作为训练文本时,GPT-3.5 变得与人类被试者具有更相似的预测模式,图 5B 为 GPT-3.5 与同一语言、同一场景下所有人类对新语言下一个词汇预测的相似。类似地,图 5A 显示了随着训练文本结构化的提升,人类在学习泛化过程中与其他人类学习者的相似性也会提升。▷ 图 5. 展示了人类(A)、GPT-3.5(B)和 RNN(C)在泛化过程中与人类生产相似性的最终得分。横轴表示输入语言的结构得分,纵轴表示生产相似性得分(计算为长度标准化的编辑距离),用于衡量模型生成的标签与人类参与者生成的标签之间的相似程度。具体来说,就是大模型和人类在学习高结构化的语言时,会呈现趋同进化,大家都会选择利用语言中的结构性,从而使得对接下来的话生成更准确的预测。不仅如此,在学习过程中,面对机构性更高的语言,大模型能更准确预测接下来的词句,学习速度也更快(图 6C)。同时,在记忆过程与泛化能力中上也与人类更加相似(图 6A,B,D)。▷ 图 6. 展示了更结构化的语言如何导致更好和更快速的输入语言再生产(A)、对未知场景的更好泛化(C)、在记忆(B)和泛化(D)过程中与人类参与者的更高一致性,以及网络之间的更高收敛性(E)而语言结构性的高低最终也会影响泛化轨迹。高结构性语言中,规则明确且透明,每个语义单位与其对应的形式具有一致性和规律性。在学习这个语言时,无论是人类还是神经网络都几乎没有歧义,所有可能的泛化路径最终都会汇聚成一致的答案。低度结构化的语言则缺乏清晰的规则和组合性,在这种情况下,泛化时的可能性较多,不同的选项都看似合理,这会造成语言的多样性,例如方言的形成。因此,高度结构化的语言会允许更好的泛化,并加强不同神经网络之间以及神经网络与人类之间认知语言时的一致性。这证明了大语言模型对于研究人类认知机制有用的观点,同时也为人类与机器在语言学习上的相似性补充了证据。03 大语言模型能学会外星语言吗?在语言的学习上,大数据模型已经被证实拥有和人类相似的学习能力,而考虑到大数据模型拥有更好的 " 记忆力 ",也许未来真的有一天面对外星人时,大数据模型确实能帮助我们学会外星语言。然而,真正的挑战在于,如果外星语言没有足够高的系统性,我们对语言的理解和使用可能会存在很高的错误率和不确定性。科幻电影《降临》中的外星语言,以其高度非线性和复杂的符号结构,似乎能为人类带来超越现有认知能力的思维模式。这种语言的独特之处在于它超越了传统的线性结构,允许学习者同时获得句子的所有信息,并进而对未来事件进行预知。从结构性语言学习的角度来看,外星语言或许具有比地球语言更高的系统性,能够为学习者提供更丰富的信息,进而赋予其预测未来的能力。▷ 电影《降临》中外星人使用的文字。来源:影视工业网从这个角度看,更高结构性的语言输入能够使大语言模型更好地进行泛化,从而提高其对新情境的理解能力。因此,假设外星语言具备更加精确和有序的结构,基于大数据训练的模型可能会像人类一样,逐渐掌握并理解其语法规则,最终能够 " 学会 " 外星语言,甚至像《降临》中的女主角一样,改变认知方式,理解未来。从科幻回到现实,如今基于大模型的智能体之间的相互通信甚至涌现出了新的语言。然而这些语言往往缺乏结构性,且无法被其他智能体轻易理解 [ 1 ] 。这可能是因为缺乏 " 生存压力 " 的智能体在涌现语言时,往往产生的只是无序的、难以学习的沟通方式 [ 2 ] 。人类语言的演化历史也反映了这一点。在缺乏实际生存需求的情况下,语言往往难以保持高效和系统化 [ 3 ] 。更进一步的畅想未来,如果有一天人类想打破不同国家,不同民族之间的语言障碍,那我们也同样面临学习一门新语言的挑战。到了那时候,如果我们想设计一门新语言,就要充分考虑其结构的系统性。只有具备清晰、结构化的语法规则,语言才能够被全球范围内的不同群体快速掌握,并被不同的智能体理解。或许,你花园里被虫洞送来的书本,正是未来的人类跨越时间,向你发来的 " 世界语 " 词典呢?参考文献:【1】Galke, L., Ram, Y. & Raviv, L. Emergent communication for understanding human language evolution: what ’ s missing? In Emergent Communication Workshop at ICLR 2022 ( 2022 ) . 【2】Kirby, S., Tamariz, M., Cornish, H. & Smith, K. Compression and communication in the cultural evolution of linguistic structure. Cognition 141, 87 – 102 ( 2015 ) . 【3】Raviv, L., de Heer Kloots, M. & Meyer, A. What makes a language easy to learn? a preregistered study on how systematic structure and community size affect language learnability. Cognition 210, 104620 ( 2021 ) .koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:林莽
TOP1热点:枯萎之花上的眼泪
面对这样的情况,一个有效的办法就是通过跟媒体、公众的积极沟通,告诉公众真实的情况是什么,把事实披露出来。不仅是在雅万高铁项目上,在其他很多合作项目上,我们做了一些很好的尝试。。
自2004年中意确立全面战略伙伴关系以来,双边高层保持良性互动,几任意大利总理普罗迪、蒙蒂、伦齐、真蒂洛尼和孔特先后访华,后两位总理还出席了第一、第二届“一带一路”国际合作高峰论坛。
TOP2热点:现货黄金跌破3270美元
那就开始破案吧。
TOP3热点:枕头发黄原来是雄激素一直在线前男友又大又长忘不了怎么办
刘俊义曾任山西潞安煤基合成油公司调度室副主任、总工程师、总经理,山西潞安太行润滑油公司执行董事,山西潞安煤基精细化学品公司党委书记、董事长,山西潞安矿业(集团)有限责任公司副总经理,山西潞安矿业(集团)有限责任公司党委副书记、副董事长、总经理,潞安化工集团党委副书记、副董事长、总经理。2021年2月任太原市委常委、常务副市长、党组副书记;今年5月任太原市委副书记、政法委书记。
TOP4热点:美方称愿就关税与中方对话爱爱小说
据尼日利亚《每日信报》9月3日报道,应印度总理莫迪的邀请,尼日利亚总统提努布将在当地时间4日启程前往印度,出席G20领导人峰会。尼日利亚正在考虑申请加入G20,并在磋商后作出决定。
8月29日,哈尔滨市政协原党组书记、主席姜国文因受贿罪被判处无期徒刑,其受贿共计1.039亿余元。
TOP5热点:你以为很长胖实际很健康的食物错一道题就插一支笔怎么办
上述三级法院驳回刘青水国家赔偿申请和申诉均是因为《国家赔偿法》溯及力问题。
TOP6热点:山东舰下水8年了沈阳45岁老阿姨叫的没谁了
张志宏介绍,“龙骨”主要作为药用,价格不等,有的一二十元一斤,有的数百元一斤。至于被盗采的“龙骨”卖到了何处,公安机关在进行侦查。
他生于1953年,父亲是军官。从罗马大学法律系毕业后,塔亚尼曾在空军服役。迈入政坛前,他当过20多年记者,在意大利国家广播公司电台做主持人,负责国会新闻报道,还在黎巴嫩和索马里担任过特约记者。
TOP7热点:山东舰下水8年了欧美性受XXXX黑人XYX性爽
今年7月下旬,最高人民检察院依法以涉嫌受贿罪、利用影响力受贿罪对王雪峰作出逮捕决定。
TOP8热点:美方称愿就关税与中方对话一线产区二线生产区的区别
据黄帅介绍,“泡水车”受损程度可分为四个级别,最轻的情况是只有汽车底盘、内饰有问题,不用大修,只需要晾晒、杀菌、除味即可;稍微严重的就是发动机出现了问题,不仅需要晾晒还需要检查维修;再严重就是全车电器受损,不仅需要更换相关电器,还要清理所有泡水的插头;最严重的情况是整车报废,修也修不了。
TOP9热点:魔术1比2凯尔特人亲吻刺激视频
9月5日,有媒体分析称,苏罗维金在“失踪”两个多月后再度现身,无疑是一个重要的信号。有消息称,苏罗维金收到好几份“与俄国防部关系密切机构的工作邀请”,所有都“与俄罗斯境外的工作有关”,包括被任命为“利比亚国民军”领导人哈利法·哈夫塔尔的顾问。
TOP10热点:拆二代败光5套房近4000万成阶下囚一面膜上边一面膜下边视频
另一个就在罗城县生活,他的老家距离抛尸的洞穴,不超过300米。
推荐阅读
刘国梁卸任乒协主席不到三天,令人恶心的一幕还是出现了!
泰媒:泰国国王驾驶飞机出访不丹,王后担任副驾

波音给中国回信了!扬言如果中方接收飞机,就再给中国一个机会
印度男子婚礼当天揭开新娘的头纱,发现自己迎娶的竟然是岳母,婚事由他的哥嫂安排的

俄罗斯绝密文件曝光:若与北约开战,先打中国周边两国“邻居”
希腊名哨太糊弄事!陈盈骏杰曼末节18分逆天改命,北京1-0山西
东契奇低迷原因曝光!哈里森预言真要应验,湖人对他提出2个要求
爆冷!1:2惨遭逆转,于根伟怒了,中超意外1战,邓卓翔真“尴尬”
不是青岛,王睿泽官宣,加盟新球队,已抵达广东,杜锋期待
适合夜间观看的日本电影
首钢开门红,周琦15+10,山西输球罪人揪出,打铁还闹脾气
印巴大战在即,巴基斯坦突然向中方求援:请求100亿元人民币互换
山西男篮李春江或遭重罚,出现在球馆指导迪亚洛,广东输的不冤
印巴开始交火,特朗普不许巴方F-16参战,歼-10C一炮走红的机会来了
王励勤上任!第一个离队的教练曝光,王皓马琳去留悬念揭晓
美国拒发签证,中国代表无法入境,耿爽发声,联合国搬迁势在必行
戏剧性拉满又是VAR!武汉三镇大逆转,16分钟连入2球,主裁争议判罚
中国罕见公开警告:决不轻饶牺牲中方利益,和美国做交换,信号强烈
见完泽连斯基,特朗普:普京也许只是在敷衍我
“朱雀玄武敕令”申请改名“朱咸宁”
特朗普称中国须做出实质性让步,否则不会取消对华加征的关税。中方:极限施压行不通。

皇马1.8亿巨星丢脸:全队仅他一人未祝贺巴萨 怒喷裁判:保送巴萨
姜文说饺子导演做了一件了不起的事,但不是最高点,只是开始
