AI文生视频可能在2024年形成爆发
目前,在AI文生视频领域,除了Pika,其他同类企业也在积极行动。科技巨头Adobe Systems收购了Rephrase.ai,Meta推出了Emu Video,Stability AI发布了Stable Video Diffusion,Runway对RunwayML进行了更新。而就在昨天,AI视频新秀NeverEnds也推出了最新的2.0版本。
从目前来看,Pika、Emu Video、NeverEnds等应用已经展现出了不俗的实力,它们生成的视频已经基本稳定,并且抖动减少了很多。然而,要想在AI文生视频领域持续保持领先地位,至少需要具备以下三个方面的条件:
1、强大的算力:在视频领域,AI对算力的要求比之前的LLM更高。这是因为视频数据包含的时间维度和空间维度都比图片和文字数据更高。同时,为了捕捉视频中的时间动态信息,视频模型通常需要具有更复杂的结构。更复杂的结构意味着更多的参数,而更多的参数则意味着所需的算力倍增。因此,在未来的AI视频赛道上,算力资源仍然是一个必须跨越的“硬门槛”。
2、跨领域合作:与图片或文字大模型相比,视频大模型通常涉及更多的领域,综合性更强。它需要整合多种技术来实现高效的视频分析、生成和处理,包括但不限于图像识别、目标检测、图像分割、语义理解等。如果将当前的生成式AI比作一棵树,那么LLM就是树的主干,文生图模型则是主干延伸出的枝叶和花朵,而视频大模型则是汲取了各个部位(不同类型数据)的养分后结出的最复杂的果实。因此,如何通过较强的资源整合能力进行跨领域的交流和合作,就成为了决定团队创新力的关键。
3、技术自主性:正如之前所说,在目前的文生视频领域,业界并没有形成像LLM那样明确的、统一的技术路线。业界都在往各种方向尝试。在一个未确定的技术方向上,如何给予一线的技术人员较大的包容度,让他们不断试错、探索,就成为了打造团队创新机制的关键。对于这个问题,最好的解决办法就是让技术人员亲自挂帅,使他们具有最大的“技术自主性”。正如Pika Labs的创始人Chenlin所说:“如果训练数据集不够好看,模型学到的人物也不会好看,因此最终你需要一个具有艺术审美修养的人来选择数据集,把控标注的质量。”
在各企业、团队不断竞争、行业新品不断涌现的情况下,文生视频AI的爆发期就成了一件十分具体、可以预期的态势。按照Pika Labs创始人Demi的判断,行业也许会在明年迎来AI视频的“GPT时刻”。
尽管技术的发展有时并不会以人的意志为转移,但当对一种技术的渴望成为业界的共识,并使越来越多的资源向其倾斜时,变革的风暴终将会到来。
Pika引爆“人工智能”和“别人家的女儿”话题,带飞信雅达股票
本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/industry/2097.html