407宿舍(双/3/p)懒得取名字叫板Sora出圈后,Luma AI如何接住泼天的流量?_ZAKE407宿舍(双/3/p)懒得取名字R新闻
叫板Sora出圈后,Luma AI如何接住泼天的流量?_ZAKE407宿舍(双/3/p)懒得取名字R新闻
中国经济要往上发展,实现高质量发展,成为一个经济强国,就要靠科技。应当认识到,科技创新是百年未有之大变局中的一个关键变量。只有实现高水平科技自立自强,才能为构建新发展格局、推动高质量发展提供新的成长空间、关键着力点和主要支撑体系,使践行新发展理念的高质量发展更多依靠创新驱动的内涵型增长。为此,必须大力提升自主创新能力,尽快突破关键核心技术,强化企业科技创新主体地位,激励广大科技工作者大显身手、勇攀科学技术高峰。
文|周鑫雨编辑|苏建勋Luma AI 在视频领域叫板 OpenAI 故事,好比中途改打网球的杜兰特,打赢了网球男单大满贯纳达尔。最近,这家成立于 2021 年的硅谷 AI 公司,在和《智能涌现》的交流中,复盘了视频生成模型 Dream Machine AI 爆火的过程。在硅谷率先发布一款效果能对标 OpenAI Sora 的视频模型,对一家初创公司而言并不容易——更何况,Luma AI 在视频生成领域算得上是 " 半路出家 ":2024 年前,这还是个主攻 3D 生成、规模在 10 人左右的小公司。Luma AI 数据产品负责人 Barkley Dai 告诉《智能涌现》,2023 年 12 月决定转型做视频生成后,团队才扩充了视频领域的人才,规模增加到了 50 人。他提到,Luma AI 能成为视频生成领域的蚂蚁雄兵,技术实力、发布时机和运营策略缺一不可。人才,是这家公司认为做出视频模型最重要的资产。2023 年 12 月,决定从 3D 转型做视频生成后,Luma AI 吸纳了 40 个 AI 领域的人才。而和 OpenAI、Google 打擂台,Luma AI 又对模型的算法和 Infra 做了诸多优化。Barkley 对《智能涌现》表示,团队在 Sora 同款 DiT 架构的基础上,采用了独家改进的架构,保证生成效果的同时,还节省了训练和推理成本。视频模型 "Dream Machine AI" 的发布时间,2024 年 6 月 13 日,踩中了视频模型赛道的空白点——这也让 Dream Machine AI 具有了稀缺性,除了快手 " 可灵 " 之外,这是唯一真正对大众开放的视频模型;而模型的 " 限免 " 策略,又立刻吸引了大量试用者:上线 4 天,Dream Machine AI 的用户量就破了百万。Barkley 对《智能涌现》透露,Dream Machine AI 的投流费用是 0,全靠 KOL 自发安利,和用户的口碑发酵。爆火之后,提高用户留存,不让辉煌昙花一现,是 Luma AI 如今的命题。2024 年 11 月 26 日,在视频模型发布后近 6 个月,Luma AI 在 iOS 和 web 端上线了 Dream Machine AI 创意平台。与之配套发布的,还有 Luma AI 自研的首款图像生成模型,Luma Photon。△ Dream Machine iOS 界面。Luma AI 产品设计师 Jiacheng Yang(杨家诚)告诉《智能涌现》,与 Midjourney、Adobe 等专业设计工具不同,Dream Machine 不需要用户学习如何写 Prompt(提示词),也不需要用户懂设计," 我们的目标就是做一款 AI 小白和设计小白都能轻易上手的 AI 视觉工具 "。据他介绍,Dream Machine 共有 5 个核心功能:(1)用自然语言进行对话,实现图片的创作生成和编辑;(2)由 AI 提供创意点子,根据用户输入的 Prompt,自动提供创意、风格选项;(3)视觉参照,根据用户输入的照片,生成带有相同主体或者风格的图片;(4)将 AI 设计的图片转化为视频,供用户查看图片中主体在不同角度下呈现出的细节;(5)将所有 AI 生成的素材发布在面板上,并生成可供分享的链接,有助于团队进行头脑风暴。△ Dream Machine 视觉参照功能。为什么选择用图像设计平台,去承接视频模型的用户?" 想要扩大 AI 视觉领域用户的盘子,只有视频生成是不够的。图像生成的应用场景会更广泛,所以我们想做一个很好上手的设计平台,用户能够轻易上手的同时,也能展现我们的模型能力。"Barkley 提到。行业竞争,是作为初创企业的 Luma AI 不得不面对的问题。他们认为,打出差异化优势,是让模型和产品在行业中具有辨识度和获客的关键。比如面对 Midjourney 等图像产品的竞争,Dream Machine 把语言理解能力做到了 " 天花板 "。以及,这也是一个最会设计字体的模型——相较于 Midjourney 和 GPT 生成的带文字的图片,Dream Machine 图片中文字的设计感和清晰度是最高的。△ Dream Machine 在图片中生成的配文。和视频模型一样,Luma AI 给 Dream Machine 花费的投流预算,是 0。在 Barkley 看来,烧钱营销看的是回报率,这意味着最终还是要用产品说话。以及,"AI市场还很小,我觉得对 AI 公司来说,烧钱营销还为时尚早。还不如把营销的钱,投到产品研发上"。以下《智能涌现》与 Luma AI 增长负责人 Barkley Dai、Luma AI 产品设计师 Jiacheng Yang 的交流,内容略经《智能涌现》编辑: 烧钱营销,AI 公司还为时尚早《智能涌现》:2024 年 6 月发布视频模型 Dream Machine 的时候,团队有没有预料到会爆火?Barkley:其实当时是远超我们预期的,我们一度出现服务器和 GPU 资源没有办法承受的情况。《智能涌现》:如果要总结爆火的经验,你觉得是什么?Barkley:其实最早发布的版本,还不是效果最好的版本。但我们决定全量免费放给所有的用户去使用。在当时,还没有一个视频模型能够做到这样。所以短时间内吸引了很多用户的关注。《智能涌现》:对于创业公司来说,做免费的决定是不是还挺不容易的?Barkley:其实我们当时也给免费设置了一个额度,我觉得这是一个行业的 standard practice(基本操作)。只是当时的峰值对我们来说过高,大量的用户在短时间内涌入,服务器后台收到了太多的 request。《智能涌现》:公司能负担流量带来的推理成本吗?Barkley:其实我们还是在技术层面做了很多成本的优化,比如不断去提升视频生成的速度,最开始我们的模型生成 5 秒的视频需要 120 秒,现在只需要 20 秒。以及在保持原有生成质量的情况下,视频模型的推理还有很多优化的空间。所以在半年时间里,视频模型的成本是在下降的。所以我觉得推理成本对我们来说不是特别大的负担,当然也是一笔开支,但未来会变低。《智能涌现》:你提到 Dream Machine 是有免费额度的,那么使用完免费额度后的用户付费率怎样?Barkley:说实话我们对付费率完全没有任何预期。因为当时我们对 Dream Machine 的定位是教育用户的产品,让用户知道 Luma AI 视频生成的潜力有多大。当时市面上还没有一个视频模型是按照对标 Sora 的水平发布的,所以我们对付费率完全没有对标的对象。但现在发布的 AI 设计平台,我们的定位是最终去获客的产品。所以现在我们对它的收入和付费率有更高的期待。《智能涌现》:Dream Machine 在营销上投入了多少?Barkley:0,我们在发布的时候没有做任何的营销付费。当然我们提前去联系了很多创作者,他们试用后都觉得很兴奋,甚至大多数人之前用过 Runway,还有人用过可灵。但他们用了我们的产品后,都觉得说 "This is the next big thing",在推特上自发帮我们推广。但我们没有做任何的投放,因为我们还是坚信成功的因素就是产品本身。《智能涌现》:烧钱营销,这一套打法在硅谷 AI 公司常见吗?Barkley:我感觉硅谷大部分还是比较产品驱动的,运营这一套主要是中国公司。视觉领域的市场还很小,我觉得对 AI 公司来说,烧钱营销还为时尚早。即便 ChatGPT 的用户很多,但是像一些视觉模型,用户还是很少数。这个时候如果你做投流,去做跑马圈地,留存肯定不高,还不如把这些钱投入到模型和产品的研发上,用更好的模型和产品吸引用户的增长。《智能涌现》:在发布视频模型之前,Luma AI 的技术和产品还是围绕 3D 生成的。团队是什么时候决定做视频生成模型的?Barkley:大约在 2023 年 12 月。《智能涌现》:为什么从 3D 转向做视频和图像模型?Barkley:我们原来其实也不会说自己是一个 3D 公司,公司的定位还是视觉领域的 AI 公司,我们想去理解这个世界在视觉上的构造,是如何帮助 AI 对世界进行理解的。从创始团队的研究背景来看,一开始 3D 是 Luma AI 比绝大多数公司和团队更擅长的事。后续我们也确实做了很多 3D 生成上的技术突破。但是 3D 可以被用于训练的数据量级,相较于图片和视频来说都会少很多。同时在使用场景上,目前手机和电脑还是主要的产品载体,但 3D 也会比视频更受到限制。但是当我们有更多的算力、更多的人才,也有更多的能力去推进我们的愿景,也就是更好地了解世界,我们也自然地会从 3D 转向做视频。《智能涌现》:这会不会让公司看起来战略有些摇摆?Barkley:从我作为一个内部成员的视角来看,我觉得不管是 3D 还是视频生成,一直都是合理的。因为不管是 3D,还是视频和图片,都只是一种模态。如果我们最终想做到的是对这个世界的理解,那么不管是一种模态、一种生成,还是一种创意的发挥,我觉得只要目标不变,这些媒介就只是帮我们达成目标的手段。《智能涌现》:从 3D 转型做视频生成,期间有遇到什么困难吗?Barkley:我觉得整个过程还是比较顺利的,因为我们在做 3D 生成的时候,团队也就在十几人的规模,但当我们做视频生成以后,引入了很多视频领域的人才,现在团队规模已经超过了 50 人。这个过程其实是吸纳了更多新成员去推进目标的实现,而不是说原来大家就在频繁地换方向。只是原来做 3D 的人,现在也在逐渐开始做视频方面,比如数据等各方面的工作。《智能涌现》:做 3D 的经历对视频生成有帮助吗?很多反馈说 Dream Machine 的运动轨迹做得很好,这和 3D 积累下的空间理解能力有关吗?Barkley:我觉得可能不一定有那么直接的关系。但从我们发布最早版本的视频模型开始,我们对相机的轨迹运动,包括视频里有多少机位的变化,是十分侧重的。所以当时用户也会普遍反馈说,Luma AI 的模型虽然有时候生成结果不是那么稳定,但是它能给到很多的机位的移动,以及复杂的人物运动轨迹。我觉得过去在 3D 上的一些经验,能够让我们在做视觉模型的时候,意识到提升机位的丰富度和运动轨迹的复杂度,能够提高用户对视频生成内容的消费意愿。不过我觉得过去的经验,包括模型本身之间,其实没有那么大的关联性和借鉴意义。《智能涌现》:所以技术转型最重要还是补充新的技术人才是吗?Barkley:是的。 承接住模型的爆火,需要有产品《智能涌现》:6 月份 Dream Machine 走红后,你们怎么考虑用户留存的问题?Barkley:我们发布 Dream Machine 的时候,就知道后面一定要有产品去承接用户持续稳定的需求。比如你作为一个 ChatGPT 的长期用户,即便后续会出来很多能力做得和 GPT 差不多的模型,你还是大概率会选择使用 ChatGPT。因为 ChatGPT 通过长期的深度学习,已经把握了用户习惯,能够更好地理解你的意图。行业里永远会有更好的模型出现,但产品最终是能够让用户留存的点。《智能涌现》:团队是从什么时候计划做这样 AI 设计平台的?Barkley:这个想法其实在我们最开始做视频模型的时候就有了。所以产品的想法是去年(2023 年)12 月和视频模型同步推进的。只是在产品的设计过程中,我们后来意识到,要想把整个设计流程涵盖,也必须要做到能够生成图片。所以在视频模型发布 5 个月以后,我们觉得图片模型也足够好的时候,把两部分同时整合成一个产品。《智能涌现》:平台的目标用户是哪些人?专业设计师还是大众?Barkley:其实我们觉得原来的 Dream Machine,更多的用户还是偏专业的,至少是有做 AI 电影的经验,或者知道怎么用 Prompt 去生成更好的效果。但其实我们更希望现在的产品,让之前没有用过 AI 甚至没有设计经验的人用起来。比如,如果他们在工作中需要用这样的流程,可以非常容易地通过一轮一轮地和 AI 进行对话去实现。我们在 6 月份发布的视频模型 Dream Machine,其实还是需要一些使用门槛的。我们在那时候就在想,希望普通人也能 access 这些视觉工具,就好比视觉里的 GPT。但视觉是一个很小众的垂类领域。我们做设计平台的想法就是,如何去扩大这个群体。只有扩大群体,才能让视觉领域的 AI 获得更好的发展。《智能涌现》:非专业设计师很难把一整套设计的工作流用得很深入。我的大部分生图需求,可能输入一个简单的 Prompt,用 GPT,或者 Midjourney 就能满足。Jiacheng:我们的想法是,把用户能轻易感受到差别的功能做到最好,比如我们图像能力比 GPT 好,但是语言理解能力比 Midjourney 要好。我用同一个最基础、完全不复杂的 Prompt,让 Dream Machine 和 Midjourney 对比一下:i want to make a poster for my brother band "crazy avocado".(我想为我兄弟的乐队 " 疯狂牛油果 " 做一张海报。)△ Dream Machine 根据 "i want to make a poster for my brother band ‘ crazy avocado ’ " 生成的乐队海报。△ Midjourney 根据 "i want to make a poster for my brother band ‘ crazy avocado ’ " 生成的乐队海报。你看 Midjourney 生成的海报,既不 Crazy,也没有 Avocado 的元素,也看不出来是个乐队的海报。语义理解的能力其实比你想象的重要,会影响很多场景的落地。因为生成随机的、好看的图片,在实用场景中意义不是很大。如果要让 Midjourney 真正还原你的意图,你需要写很多 Prompt,包括海报的设计、上面写的文字、解释 Crazy 的风格等等。学会写 Prompt,我大概花了两三个月时间。但我相信 ChatGPT 的大部分用户是不会去学的,他们就是进来问一个问题,得到一个结论。我们做设计产品的思路,也是一样的。按照之前市面上的产品,如果我想要得生成还原我意图的图片,首先,我要花 20 美金买 Claude 或者 GPT,帮我生成 Prompt;其次,我要再花 20 美金到 40 美金买 Midjourney,生成图片;最后我还要花 20 美金的订阅,把这些图片变成视频。算下来,文生视频起码要花 60-80 美元。现在用 Dream Machine,可能 10 美元就能搞定了。《智能涌现》:Dream Machine 语言理解能力的来源,也是自研模型吗?Barkley:语言模型用了第三方的 API,我们再去构建了一个 Agent。这个 Agent 能够理解用户意图,然后通过不同的 Prompting 的方式,把用户意图转化为图像和视觉模型能够理解的指令。《智能涌现》:Luma AI 现在既有模型,又有产品,怎么去做商业化?Barkley:产品还是会采用订阅的方式。模型就是提供 API。《智能涌现》:不做定制化?Barkley:定制化不太适合初创公司,会分散精力。 目前没有专业视觉工具,在定义交互范式《智能涌现》:一个俗套的问题,你们怎么看待巨头下场?按照国内的情况,字节和快手的下场,已经给很多初创公司带来了融资和获客上的压力。Barkley:我们发现,这个问题其实是公司和股东之间的问题。只有股东才会关心:如果哪天一个巨头把你这个事情做了,会怎么样?但实际上,我们公司很多 Research 都有这样的感觉:当公司达到一定规模,需要你去协调各种各样的东西的时候,你推进的速度会变得特别慢,创新的速度也会掉下来。虽然 Luma AI 的团队在过去一年多的时间里也扩张了很多,但还是保持着快速创新、快速迭代的节奏。我觉得有一个类比特别好:其实你在大公司里,真正去做视频模型和相应产品的团队,可能也只有几十个人。比如 OpenAI 看起来很大,但 Sora 的团队也就这么多。当然说到更大的公司,比如 Google,他们可能有比我们更好的 distribution channel(扩散渠道),但他们同样会受制于各种流程上,一个新产品会有商业化等很多方面的 concern,推进的速度不会那么快。《智能涌现》:Luma AI 的迭代节奏有多快?Barkley:整体迭代速度一直是以几个月,甚至是 1-2 个月来计算的。期间会加入新的功能,底层模型的效果也在提升。就像 Dream Machine 1.0 在 2024 年 6 月发布,1.5 版本是在 8 月发布。1.6 版本加了 camera control(镜头控制)功能,在 9 月底发布。《智能涌现》:一个新的设计工具型产品,怎么去获客?Jiacheng:我觉得首先可以去分析 ChatGPT 是怎么获客的。你会发现,ChatGPT 不光最好的程序员在用,你隔壁的大叔大妈也在用。我觉得 AI 工具带来的最大的变化是,由于它本身的可塑性和灵活性,它可以服务几乎所有有视觉需求的人。我并不觉得目前特定的视觉专业的软件,有非常好的交互,换句话说,目前没有专业视觉工具定义了整个行业的交互范式。《智能涌现》:你怎么定义 " 好的交互范式 "?Jiacheng:比如 ChatGPT 就定义了整个行业 ChatBot 的交互范式,像现在美国的小孩都不是说 ChatGPT,他都是说你有么有问你家的 "Chat"。这里的 "Chat",已经成了一个像 "Google 一下 " 的行为。我们做 Dream Machine 也是一样的。谁能先把普通大众的想象,通过一个流畅、简单的方法,呈现出一个好看有趣,然后能分享给别人的或者有用的图片,谁就能在这个领域有优势。《智能涌现》:从立项到上线,期间你们对交互形式进行了哪些探索?Jiacheng:我们目前来说,包括行业对我们的认知,都是一个视频模型科研公司。但是如今的 AI 技术是一个非常以用户体验为核心的产品,技术型产品的目标和迭代过程很明显,就是最好的用户体验。我们能想到的最好的用户体验,就是用最自然的交流方式,把 Dream Machine 当成一个创意助手或者 Creative Partner。你怎么和设计师互动,就怎么和系统互动。有了这样一个目标,我们就会去了解我们的图片和视频模型,能够提供怎样的能力。同时也去了解整个行业处于怎样的发展阶段,第三方的语言模型能够给我们怎样的帮助。期间,各种各样的 Agent 软件工具也在迭代,大家对于 AI 应用层的思考也有变化。所以一年以来,我们的产品就是一个持续迭代的过程,具体就是一个月根据行业变化打磨,再花一个月去修改。这些东西总体统筹、融合起来,才有了现在这样的效果。Barkley:期间我们也发现,在 AI 视频生成领域,目前图生视频比文生视频更加受欢迎,因为用户在乎可控性。所以所有能够提升可控性的,都是用户非常需要的功能点。《智能涌现》:期间行业哪些产品或者认知的动向,会对公司的产品研发节奏产生影响?Barkley:其实我觉得过去一年时间里,我们的产品策略没有变太多,还是一直想做能让所有人轻松使用模型的产品,不会随着其他 AI 产品的发布去做任何的策略调整。我觉得产品团队更关心的事一些 Research 上的动态和进展,比如我们想做风格转换、风格迁移的功能,就会去查有哪些最新的学术研究和论文,甚至产品团队会加入 Research 团队的讨论,去看研发功能的可行性。《智能涌现》:产品团队在日常工作中是怎么和算法团队交流的?Barkley:立项的时候,我们会从用户的角度,觉得风格借鉴这样的功能很重要。但是从 Research 的角度,其实他们不确定这个功能能不能做出来,以及能达到怎样的效果。所以 Research 会先去做很多的实验,直到他们把算法做出来以后,我们看到这个功能的极限,再去思考怎么把功能融入到整体产品和体验上。所以其实 Research 是一个更加不确定的过程,往往需要比较长的时间,也不知道要花多长时间训练。《智能涌现》:期间也会舍弃很多暂时不够好的功能。Barkley:对。所以其实很多功能我们会从用户的角度去想,有的功能 Research 团队能够在短时间内做出来,有的功能我们又继续投入,去做更长的研判,体现在未来的产品里。欢迎交流!欢迎关注!koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:刘永
TOP1热点:四川宜宾市筠连县山体滑坡致10户民房被掩埋
截至目前,泗阳县社会治理服务中心已设有住建、人社、民政等10个常驻部门窗口,还有教育、卫健等10个轮驻部门,集中办理来访接待、矛盾纠纷调解、涉法涉诉联合接访、农民工权益维护、公共法律服务、诉讼服务等业务。。
TOP2热点:为何天国拯救 2 一百多万销量就开香槟
7月10日,菲律宾7-11车队选手弗朗西斯科在比赛中骑行。当日,环青海湖国际公路自行车赛进行第二赛段多巴至贵德的角逐。新华社记者张龙摄
TOP3热点:哪咤头型movavi
蒋成嘉告诉记者,为更精准打击医保基金违法违规行为,2022年开始,国家医保局依托全国统一的医保信息平台,建立反欺诈数据监测专区,研究开发了“虚假住院”“医保药品倒卖”“医保电子凭证套现”“重点药品监测分析”等大数据模型,并与公安机关积极推进线索联合查办,取得了初步成效。2022年,全国通过智能监控拒付和追回医保资金达38.5亿元。
TOP4热点:癌症病人做手术针头落体内暴躁老阿姨csgo技巧
中远海运港口阿联酋阿布扎比码头采用岸桥预留自动化和堆场自动化作业模式,可作业超2万标准箱大型船舶,年设计能力250万标准箱。
TOP5热点:消息称华为与上汽敲定智选车合作ZOOM与人性ZOOM2区别
7月12日,吴永龙向学生教授选择粗壮、圆挺、笔直、色匀的麦秆。新华社记者黄晓勇摄
中远海运港口阿联酋阿布扎比码头采用岸桥预留自动化和堆场自动化作业模式,可作业超2万标准箱大型船舶,年设计能力250万标准箱。
TOP6热点:「哪吒 2」达成百亿票房概率多大班主任让我C1节课怎么办
《深远海设施养殖技术模式》:全国水产技术推广总站组编;中国农业出版社出版。
TOP7热点:为何天国拯救 2 一百多万销量就开香槟407宿舍(双/3/p)懒得取名字
中远海运港口阿联酋阿布扎比码头采用岸桥预留自动化和堆场自动化作业模式,可作业超2万标准箱大型船舶,年设计能力250万标准箱。
TOP8热点:2025央视元宵晚会СПЕКС少女
全国政协常委李家洋
TOP9热点:何小鹏称自己长得老实总被骗噼里啪啦免费高清看
乡村建设要为农民而建
今年夏天,从南京出发,这座“时光博物馆”又一路来到镇江、徐州等地,带着时光的故事,与各地观众相见。火热的天气,见证了人们对这座“时光博物馆”火热的激情。
TOP10热点:马斯克公布美国国际开发署的账单海角乱伦
7月13日,参观者体验足球射门。