总裁受夹震蛋H调教s m视频3 总裁受夹震蛋H调教s m视频个月 9 次升级,可灵 AI 进化到什么程度了?_ZAKER新闻
3 总裁受夹震蛋H调教s m视频个月 9 次升级,可灵 AI 进化到什么程度了?_ZAKER新闻
沐光而行。
备受期待的「草莓大模型」最终以 o1 为名正式发布,预示着今年下半年的大模型竞争将再度升温。尽管 OpenAI 这次没有提及 o1 在多模态的相关进展,但在同一天,隔壁视频生成赛道的「卷王」可灵 AI 又要出招了,对于大多数普通用户来说,比起怎么解奥数题,轻松生成高质量图片或者视频的需求可能更加迫切。在 9 月 13 日的快手投资者日上,快手高级副总裁、主站业务与社区科学线负责人盖坤透露,可灵正在内测 1.5 版本的基础模型。这一新模型预计在图像质量、美学表现、运动合理性以及语义理解方面有显著提升。与此同时,还将引入「运动笔刷」功能,进一步提升可灵 AI 的视频编辑能力。自可灵 AI 今年 6 月正式发布以来,视频生成领域掀起了一场「军备竞赛」。简单数了数,这已经是可灵 AI 的第九次迭代和升级,这一切就发生在短短三个月里。我们第一时间申请加入到内测中,一窥究竟。01 只有 1.5 能打败 1.0 离真实世界更近一步三个月前,可灵 AI 刚出现的时候,复刻了 Sora 视频生成的的一些经典作品(比如东京女人逛街以及吃泡面),外界已然惊呼「这已经不像是 AI 生成的了」。彼时,视频生成赛道正值第一批最卷的玩家交出作业,可灵 AI 异军突起,率先能把复杂场景理解清楚并且生成出来,引发了全球范围的极大关注。如果说,三个月前,刚出场的可灵 AI 还在和市场上其他产品比拼,那三个月后,「它的参考对象好像只有自己」。上面这句话是我看到可灵 1.5 模型如何击败 1.0 时的第一印象。仍然是这个最初让可灵惊艳众人的「东京女人逛街」场景。这里我们把完整的 Prompt 放在这里:一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。最明显的区别是可灵 1.5 版本在清晰度上比可灵 1.0 版本又提升了一档。在高表现模式下,前者生成视频的分辨率已经可以达到 1080p,相比之下可灵 1.0 版本只有 720p。因此这组视频中可灵 1.5 版本生成的那个版本里,可以清晰的看到女人衣服上经过光反射出来的细腻质地,手包上的纹路刻画也比之前精细很多。并且与可灵 1.0 版本相比,可灵 1.5 版本生成的女性服装上加入了拉链的设计,这表明视频的分辨率达到了较高的要求。但画面体感上的区别只是第一层。两个视频中更大的差异其实还藏在画质背后,在她周遭的环境中所展现出来的变化——同样的 Prompt,可灵 1.0 版本时的行人都是往远处走的背影,可灵 1.5 版本中则更真实的出现了大量同方向的人群。同方向走来的人多了,这意味着更多的人脸画面生成,更复杂的人物细节(一个人物的正面不管从表情到服装,刻画复杂度大概率要比背影更高),以及让这一切动态的流动在画面中,对整个物理世界的理解难度。或许可以换个理解,绘画时画群像偷懒的方法之一就是把不重要的人物设置成背影,AI 生成亦如是。而视频生成分辨率的增加有助于远景的推理。也就是说,画质的提升不只是某种「雕花」,而是真实拉高了可灵的视频生成能力。当你的眼睛随便去捕捉画面中的一个陌生人,看到 TA 行走时真实的脸部轮廓,挎包随着向前行走的身体姿态有规律的和身体发生碰撞,眼睛则照顾着自己和女主角的物理位置并朝她看——真的很难不感到惊讶。上面是群像,下面我们来看看怼脸的人物特写。这是一张可灵 1.0 版本生成的个人特写,Prompt 是这样的:女主角缓慢看向镜头,背景是模糊的城市夜景,主角被正前方的人工光源照亮,强调出面部轮廓,镜头缓慢的移动到主角的面部上下面则是同样的 Prompt 以可灵 1.5 版本生成的:可灵 1.0 版本的视频效果已经足够优秀,但不得不说,从脸部轮廓的塑造、对光影的理解上来看,对比之下可灵 1.5 版本在生成能力上的提升是非常具象的。并且这里还有一个关于 Prompt 的理解提升。在可灵 1.0 版本中,特写的女性眼神从头到尾都盯着镜头,而在新生成的画面中,它开始真正理解 Prompt 中「女主角缓慢看向镜头」的意思,更符合描述。可灵基础模型在语义理解能力上的进步,显然也映射到了视频生成效果上。除了分辨率和理解能力,这次可灵 1.5 版本在运动表现的合理性上也有了不小的进化。再比如我尝试了一个更复杂的「杯中帆船」场景,这其中有船的运动,水面的运动以及对两者相对状态的考察。Prompt 是这样的:生成一个特写镜头动画,展现一艘微型帆船在一杯水中航行。杯子里的水清澈透明,可以清晰地看到帆船的倒影和水波的涟漪。帆船的帆布是鲜红色的,上面印着白色的条纹,随着微风轻轻摇摆。水面上漂浮着几片微小的绿色叶子,仿佛是帆船航行途中的小岛。画面整体充满童话色彩,光线柔和温暖。可灵 1.0 版本尚无法很好的理解「杯子」这个限制条件,给出了一个几乎无限的湖面。「叶片像岛屿」的比喻在呈现细节上也显得太过用力还是有些怪异:但在可灵 1.5 版本的能力下,这个 Prompt 被充分实现了:这艘帆船简直就像漂浮在一杯马天尼中那么优雅。这三组对比视频已经大概能看出,可灵 1.5 目前在文生视频能力上的水准。但这只是可灵能力的一部分。在图生视频能力上的进化,可灵 1.5 有点超出我的想象力了。看到下面这段视频的时候我并没有在意,但当我知道这段孩子凑到碗边,从碗中舀勺的画面是单纯从一张食物特写照片里「无中生有」的,还是有不小的震撼。可灵 1.5 版本生成的视频:这个视频所有的素材来源——一张没有人物的食物照片和一段仅仅 21 个字的 Prompt:镜头拉远,一个小男孩走到桌前拿起勺子开始吃饭。镜头的微微晃动,一个黑色勺子「入场」,然后画面聚焦到握着勺子的小男孩,眼看着他将一勺饭菜送到嘴里。甚至勺子在碗里拨开饭粒的细节都被刻画出来了。运动合理性以及图生视频理解能力的同步提升,对于一些实用场景已经有点降维打击的意思了。比如做一份手机的 360 度环拍视频素材。在之前你可能需要一个环绕旋转拍摄台(至少需要一个能自转的托盘),一台相机以及一套灯光设备。现在,你有一张光线良好的产品照片可能真的足够了。02 运动笔刷加持让视频生成更易掌控做最靠近用户的那款 AI 产品,这是可灵 AI 从问世一开始就给外界的印象。这次升级,快手还带来了全新功能「运动笔刷」功能,大幅提升了对视频生成的控制能力。运动笔刷使用起来很简单,你只需要将图片中需要控制运动方向的部分勾勒出来,然后给他画一个示意运动方向的箭头。可灵 1.0 模型在图生视频时,现在支持上传图片后最多为图中的 6 个元素(人或物体等)指定运动轨迹,并且还可以为某些元素额外指定静止区域,来让视频内容有更好的运动控制及运动表现。我们拿一张帆船航行的照片来做例子。选定帆船主体向左移动,湖面向右移动:然后一个非常写实的帆船航行视频就生成了:简单来说,有了运动笔刷之后,可灵 AI 图生视频的能力比之前变得更加可掌控,创作者可以更完整的把真实世界的规则尽可能的兑现到想要生成的视频里——比如两只小狗同框,他们大概率不会以同一个频率和方向摇头晃脑。现在可以通过在生成阶段「微调」,让两只小狗向两个不同方向摆头,与此同时,给几株植物一个随风摆动的动作命令:这次运动笔刷也覆盖了横屏(16:9、4:3)、竖屏(9:16、3:4)以及方屏(1:1)等多种尺寸的图片,充分满足了不同场景下的创作需求。感觉的出,可灵此次的产品迭代完全围绕着用户的创作来进行,因为除了模型生成能力本身的提升外,另外一些变化完全打在创作者此前的使用痛点上。比如生成视频的效率,以及视频长度。此次迭代后,可灵开始支持一次性生成最多 4 条视频,这为创作者提供了更多选择空间。此外,新版本还扩展了视频时长支持,从原本的 5s 扩充到了 10 秒。高性能模式下可灵也第一次支持增加尾帧,进一步丰富了创作可能性。这是一个上限更高,同时比之前更加好用的可灵 AI。先享受上的创作者们已经给出了积极反馈。有创作者用可灵尝试生成了一台跑车的展示视频:「试用了最新的可灵 1.5 版本模型,宽容度高了很多。」社交平台 X 上,有创作者在试用可灵 1.5 版本来创作一个故宫红为主题的赛博中国短片后有这样的体感。03 260 万可灵 AI 用户,一切刚刚开始现阶段所有文生视频产品里,可灵 AI 是最重视「可用」的那个。可灵 1.0 模型刚发布时,收到的最集中反馈是「即使遇到各种各样的问题,可灵 AI 仍然是目前普通人能用到的,最好的 AI 视频产品」。此时的可灵 AI 团队可能自己都没有想过未来三个月会拿到这样一张夸张的成绩单。9 月 13 日,盖坤在投资者日上披露,截至目前已有超过 260 万人使用过快手的视频生成大模型可灵 AI,并累计生成超 2700 万个视频。快手高级副总裁、主站业务与社区科学线负责人盖坤|图片来源:快手回过头看,「可用」是可灵 AI 能够边打仗边学习的基础。某种程度上,在目前这个文生视频产品形态未定的时期,尽可能的靠近用户比自我臆测性能的迭代方向重要的多。对用户来说,可灵 1.5 模型是一个更好的可灵 AI;对快手来说,可灵 1.5 模型是对所选择的这条以「可用」卷起数据飞轮的迭代路线的一次初步验证。三个月,对于大模型的发展来说,是多长的一段路?如果我们回到 ChatGPT,暂且把 2022 年 11 月 ChatGPT 上线作为一个起点的话,三个月后,ChatGPT 的用户完成了从零到 1 亿的积累,同月中月订 20 美元的 ChatGPT Plus 推出,OpenAI 在一片几乎是概念上的无人区里迅速完成了产品的迭代。可灵 AI 正在经历一个有些相似的过程。发布半个月后,可灵 AI 推出图生视频功能,支持用任意静态图像生成 5 秒钟视频。并且为了延长 5 秒的视频长度,推出了最高可到 3 分钟长度的视频续写功能。这些使用经验在 7 月转换成了可灵 AI 在基础模型能力上的提升,以及新增的首尾帧控制和镜头控制。可灵 AI 网页端也在 7 月同时上线。直到最近向可灵 1.5 模型跨的这一大步。回头来看,可灵 AI 从最初的移动端文生视频工具演化到如今相对全面的产品形态,用户的使用需求决定了可灵 AI 的产品塑造,这进一步反推基础模型的性能迭代方向。一切的基础都建立在可灵 AI 的「可用」上。而在可灵 AI 的实际体验能够达到某一个阈值后,背后快手巨大的内容和创作者生态会进一步推动这个数据飞轮的转动。2023 年首次在快手发布短视频的创作者就有接近 1.4 亿,整个 2023 年快手平台上发布的视频在平台内获得超过 1 万亿次点赞。另一组数据或许可以说明快手生态内对于一个好用的 AIGC 工具的热情。在可灵 AI 推出之前,快手自研的文生图大模型能力已接入平台,内测阶段用户在评论区月均生成超过 5 亿张 AI 图片。现在,一个全新的可灵 AI 即将摆在所有人面前了。* 头图来源:可灵 AI本文为极客公园原创文章,转载请联系极客君微信 geekparkGOkoa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:孙寿康
TOP1热点:流感病毒中甲流传染性最强
本报讯记者董凡超伴随暑期来临,群众旅游等出行增多,涉大客车事故多发。广东、四川、山西、广西接连发生涉大客车事故,造成群死群伤。公安部交通管理局近日发布安全提示。。
TOP2热点:一家6口出游5人感染甲流
这段经历让我领悟到,谈心谈话必须建立在深入了解的基础上,决不能先入为主或是“想当然”。作为一名党小组长,我与党小组成员开展谈心谈话是一种必要的工作方式,要想有效开展好工作,最重要的还是“真”字。只有了解真情况、掌握真思想,谈心谈话才能有的放矢、起到实效。
TOP3热点:广东25年前宾馆床底藏女尸案告破一杆长枪直入两扇门
杏子熟了,战士们享受丰收的喜悦。
TOP4热点:第一批解放军已抵达西藏震中儿子耕了母亲荒废的田
2021年4月,武夷山国家公园管理局启动为期3年的生物资源本底调查,多家科研单位及高校的百余名专家多次深入实地,全面调查武夷山国家公园的主要生态系统和生物类群,截至目前调查累计发现了24个新种。在调查过程中,科研人员采集了大量昆虫样本,通过体视镜和显微镜下观察成虫样本形态特征,利用形态分类学手段,鉴定为新物种。
TOP5热点:甲流出现症状48小时内用药最好FerrPorno💋👙
以省份看,河南省气象台9日9时30分继续发布高温红色预警,预计9日黄河以北和郑州、洛阳北部、开封西北部、许昌北部大部分县市最高气温升至40℃以上,10日白天黄河以北和郑州北部、洛阳北部大部分县市最高气温将继续升至40℃以上。
TOP6热点:没有发现王星正式出境泰国记录把英语课代表按到桌子上抄
采访过程中,学生普遍反映线下课程存在诸多问题:课程过于基础、全程做题也没有讲解、老师一味念PPT……不仅如此,师资力量也难以得到保障,一些“家教”“名师”甚至都没取得教师资格证书,有的还是在校大学生。
TOP7热点:男子给自己设计“抗8级大风”发型v8成品人
桥头集镇如今已实现产业巨变,文旅产业加现代农业成为主力,一二三产实现有机融合。当地探索电商兴农新模式,打造“山镇乡礼”农产品品牌,涌现出山镇好蜜、竹塘挂面、国光粉丝、竹塘瓜蒌子、绿壳鸡蛋等一批农特优产品。总投资16亿元的雾耕现代数字农业项目一期业已投产,于2022年5月1日正式开园。
TOP8热点:男歌手撞死人第2天仍参加演唱会最帅中国Gay男男小鲜肉
昔日洪水肆虐地,眼下和美新乡村。行走在簰洲湾,清风微荡,一幅水清岸绿、环境整洁的乡村新貌徐徐展开。发挥毗邻武汉的区位优势,簰洲湾近年来着重打造“菜篮子”“米袋子”基地,通过机械化、规模化带动农业升级、农民增收。
“所谓文化经济是对文化经济化和经济文化化的统称,其实质是文化与经济的交融互动、融合发展。”
TOP9热点:民警被查前车托在门口排队送钱一面亲膜上边一面膜下边日本
《私募投资基金监督管理条例》(以下简称《条例》)日前公布,自今年9月1日起施行。司法部、证监会负责人就《条例》有关问题回答了记者提问。
TOP10热点:嚼槟榔10年患口腔癌的博主离世Chinagary体育飞机网站
眼下,以ChatGPT为代表的大模型正在引领新一轮全球人工智能技术发展浪潮,大模型不断加速实体经济智能化升级,深度改变行业生产力。中国科学技术信息研究所党委书记、所长,科技部新一代人工智能发展研究中心主任赵志耘在世界人工智能大会“大模型与深度行业智能”创新论坛主旨演讲中表示,大模型技术最大的突破就在于通用性。大模型通过“大数据+大算力+强算法”的路径显著增强了通用性、泛化性,推动人工智能从以专用小模型定制训练为主的“手工作坊时代”,迈入以通用大模型预训练为主的“工业化时代”,迎来新的发展浪潮。