深度｜AIGC 视频应用的突破口在 3D？文生视频发展技术路径辨析

Image credit: Generated by Boundless AI

OpenAI推出Sora在业界掀起了巨大的波澜，引发了科技圈内的激烈讨论与交锋。图灵奖得主、Facebook首席AI科学家杨立昆公开质疑Sora仅停留在生成像素的层面，缺乏对物理世界的深入理解。而360董事长周鸿祎与猎豹CEO傅盛也在这一话题上产生了不同看法。

不仅仅是海外，国内也有不同技术路径的文生视频产品推出。今年3月，魔珐科技推出了有言AIGC一站式3D视频平台，这款产品以其独特的技术路径和成熟的产品形态，引发了行业的关注。文生视频赛道，注定将成为整个2024年科技圈讨论的焦点话题，正如ChatGPT在2023年所引发的热潮。

01. AI视频生成的进步与待突破的卡点

去年初，OpenAI发布的大语言模型ChatGPT掀起了一轮人工智能的热潮。ChatGPT上线后，几乎所有全球科技大厂都全速投入AI领域，发布了自己的大语言模型，影响着人们日常搜索信息、查找资料的方式发生改变。

而文生视频模型Sora的发布，更直观地呈现了AI技术正在以何种速度飞速发展。作为一种扩散模型技术，sora的底层技术与GPT模型相类似，使用了Transformer架构。可以说相对于去年的文生视频产品来说，sora是对原有产品能力的升级，比如提升了时长，在单一空间内解决了时空一致性问题。

与sora类似的产品，如Pika、Runway、Genmo、Stable Video Diffusion等近十款产品，本质都是一种技术路径下的产物。他们的底层技术核心都是基于互联网上海量的视频进行大模型训练，再基于大模型AIGC生成视频。

这一技术路径的优势在于，在于网络上海量的视频素材多，很容易拿到训练数据，这也符合OpenAI一贯信奉的以海量数据投喂模型从而实现突破的“暴力美学”。

但这种技术路径有诸多局限性和悬而未解的问题，AI视频路径当前存在的问题包括：

1）时空的一致性（人，镜头，场景）：如何使角色、物体和背景在帧之间保持一致而不变形或扭曲，或者数量保持一致？这是所有公开可用模型中常见问题。从技术角度来说，现阶段模型还很难理解物理世界的时空规律。在单一空间或者镜头可以实现，但跳出单一空间后，很难保证人、镜头、场景的时空一致性。

2）可控性、可编辑以及确定性：控制场景中发生的事情。例如，如果你提示“男子向前走”，运动是否如所描述的那样？再比如画面中出现各内容元素（场景、灯光、人物、表演、台词、镜头、素材等）是否能够按照提示词保证确定性的内容输出，或者可以控制和修改。

3）时长：能否制作更长的视频。60s的时长显然还不足以支持视频实际应用。而这一瓶颈很可能与时间一致性密切相关。许多工具限制生成的视频的长度，是因为无法确保几秒钟后的全部一致性。更长的时长，生成完整的视频依然是挑战。

4）产品的完整性：是否可以一站式满足创作者的需求，比如是否可以编辑镜头，动作，或者加后期包装，从产品的角度来说，一站式，不用在不同产品之间跳来跳去，这对创作者来说是很重要的。

5）产品化以后的成本以及商业化的可行性：产品化需要考虑性价比，而目前的算力成本高昂，如何降低成本实现规模化应用，恐怕也是不得不面对的问题。

这种技术路径，在视频生成的想象力方面还是有着不错的表现，非常适合创意类视频生成。

但对大多数创作者来说，视频需要能够精准的画面、镜头以及视频内容的精准呈现。比如我们需要一段冬日街道的视频素材，视频中呈现的应该是飘雪的街景和身着冬装的行人。但从sora的demo视频来看，人们却衣着单薄的走在白色的街道，街边还出现了盛开的樱花。这种细节的不可控，让素材的可用性大打折扣。

此外，在商业视频场景中，不论是产品发布会，知识分享，种草视频，还是教育培训视频，都需要内容的“高信息密度”和”精准控制“。如何实现可控性、可编辑性将成为AI生成视频技术路径最需要突破解决的问题。

02. 已商用落地的曙光 —— 文生3D

实际上，早在Sora出现前，全球唯一一款可商业落地的AIGC 3D视频生成产品就已经诞生。这是一款名为“有言”的产品，今年3月正式面向所有用户开放。根据企业公开采访显示，这款产品在正式向公众开放前，已经服务了各行各业的近50家头部客户。

根据公开采访显示，有言在官网正式面向公众前，就有近50家各行业的头部客户付费购买了企业旗舰版产品，其中包含东吴证券、中金财富、央视网、广州广电、苏州广电、海尔集团、方太集团、老板电器、斯凯奇、中伦律所、爱尔眼科、自然堂、金巴厘集团等头部企业，行业覆盖金融、广电、 3C、美护、文旅、政务、律所、酒水、教育、培训、医美等各领域。

事实上，3D视频的AIGC技术热度早已不是资本圈的秘密。今年年初，美国AI 3D创业公司「Luma AI」近日完成4300万美元B轮融资，由大名鼎鼎的A16Z独家投资。无独有偶，3月初，一份由中泰证券公布的研报认为，多模态已经成为了业界普遍认同的发展趋势。该研报认为，继文本、代码、图片和视频之后，3D有望成为下一个有望实现技术突破的重要模态。

而有言这款产品之所以备受关注，原因在于其具备了可商用的产品成熟度，并且对AI视频生成路径的一些卡点实现了突破。当3D技术落地于产品，令人惊叹的同时，也展示了一条独特的3D内容AIGC的技术路径。

通俗来说，这种技术路径是借助3D内容AIGC技术，实现了包含3D场景、灯光、3D人物表现、3D镜头的AIGC生成，然后再基于实时引擎技术（渲染+物理解算）生成2D视频。从本质上讲，这种技术生成得其实是3D视频, 也就是说可以通过实时渲染引擎直接生成各个视角的视频，其生成视频可直接显示在各类AR/VR终端, 比如Vision Pro。

我们把内容的生成过程拆分，可以发现主要有两个维度：

1）3D内容生成：与现实世界视频拍摄一致，视频中包含角色、场景、运镜、灯光、屏幕内的素材等视频要素，而3D视频生成，也可以将其拆解为3D人物、3D场景、3D镜头、素材（屏幕）等要素。通过这些3D视频要素的的AIGC化，从而实现3D视频的AIGC生成。

2）后期包装：在完成视频生成环节（替代拍摄），用户往往需要进入视频后期包装的环节，因此代表产品有言为用户提供了包含镜头剪辑、素材编辑、音效配乐、字幕包装、片头片尾等各个环节的产品功能。

这条技术路径的好处是，视频的创作过程就是对现实3D世界的“模拟”。通过实现从3D资产到视频各要素的AIGC生成，从而保证了与现实世界的一致性。这种技术路径不会出现AI对世界的错误理解，能够解决时空一致性问题，并且不会出现时空错乱等物理错误。

In addition.由于整个生成过程都可以编辑，因此可控性很强。在保证AIGC高效率生成的同时，还可以加入3D内容编辑的能力，规避了AI生成不可控的问题，也不受视频时长的限制。

与真实世界视频生产过程一致的方式，以代表产品有言为例，后期包装等功能的融入，解决了AI视频生成路径下难以实现一站式的视频制作的难点。

In-depth｜AIGC video application breakthrough in 3D, Vincennes video development technology path discernment

这条路径的代表产品，有言是全球唯一一款高质量、高效率、低成本、低门槛、规模化的3D视频生成产品。也是全球唯一一款被应用落地的3D AIGC 3D内容产品。由于3D视频的生产过程就是对真实物理世界的还原，也是对视频拍摄、视频后期两大环节的还原。因此，有言很好的解决了时空一致性问题。

有言可以实现视频要素的AIGC，并开放了部分环节的人工编辑，因此解决了视频生成的可控性问题。此外，视频的时长也完全能够用户的需求调整，完全不受视频时长限制。

此外，有言融入了视频创作的全部环节，除替代拍摄的视频生成外，还将视频包装后期的全部环节融入，相当于将视频创作的工作流全部融入了视频创作。创作者从此无需借助单点AI工具，而是可以借助有言一站式完成所有视频创作的工作环节。

有言是一款具备时空一致性、内容可控、可任意时长、可生成确定视频内容的一站式视频创作工具。

当然，以有言为代表的这条技术路径虽然具备优势，但同时也面临着比较大的壁垒和挑战：

首先是，底层需要依托于高质量的3D数据。首先是高质量3D数据的积累。很多业内的公司依然依靠软件和制作人员手工打造，由于3D内容的难度大，目前市面上的公司生产的内容也参差不齐。而很多技术公司，由于缺乏底层的高质量3D训练数据，因此进入这一领域的门槛非常高。

其次，需要具备全栈的AIGC能力。由于视频的各要素都需要实现AIGC，这也意味着这一技术路径不是单纯的文本AIGC，或者图片AIGC，而是具有文本、声音、动画各个维度的生成技术突破。而从视频来看，文本、素材、场景、包装的全维度AIGC其实非常难。

再次，AIGC everything。以有言为例，实现产品化，并在产品化过程中先将最难的要素先AIGC，比如说动画。未来逐渐实现全面的AIGC化，这条路径同样面临着技术的挑战。

但在demo的畅想和已经落地可用可控的产品之间，文生3D的技术可行性与价值毋庸置疑。

03. 技术变革来袭视频生成拐点已至？

无论是OpenAI推出的创意内容产品Sora，还是以有言为代表的AI视频生成产品，视频生成类应用的广泛落地，对各个行业而言，一定是机遇。

但如果冷静的从技术视角来看，两种技术路径的发展都面临着各自的挑战。

今年3月初，Sora核心团队三位负责人接受采访时曾提到过，Sora目前还处于反馈获取阶段，还不是一个产品，短期内不会向公众开放。对sora而言，AI 视频生成领域的难点在于，即实际生产和技术研究之间存在的距离。

行业内人士认为，真正的难点是技术是否能真正满足视频制作者的需求，并与其实际工作流程相契合。只有当技术足够越靠近生产的时候，它才会产生更大的经济价值。

这点与有言得以产品化的初衷非常相似，如魔珐创始人兼CEO柴金祥认为的，所有科技企业来说最重要的还是PMF（Product Market Fit 产品市场匹配度），即能不能找到更契合市场的产品，多长时间能得到验证。

给企业与个人提供一款真正可商用的规模化产品，具备产品化形态、可商用落地，正是有言今天在做的事情。不仅仅是视频的生成，而是以成熟的产品化形态，真正契合企业的工作流需求，以实际场景出发解决企业问题，或许才是技术生产力提升带来的真正价值。

视频全流程的AIGC对企业技术综合能力有着更高的要求。与AI视频生成路径相比，文生3D的技术路径的产品化进程更快，但走向AIGC化的终局同样面临着巨大的挑战。

24年的开年，是属于视频生成的。成熟产品化形态的产品已经出现，AI视频生成技术也迎来了巨大的突破，一切都令人欣喜与期待。

虽然长路皆有挑战。但好在，一场视频生成的变革已经开启，落成和实现或许就是时间问题了。

PS：回顾 2023 年至今，大部分 AI 炒作都集中在基础模型的横向能力上，但 AI 的真正机会在于 AI 以及 Agent 如何重新配置与创造 B2B 价值链，112 家顶尖 VC 评选出 2024 年 Top30 科技初创公司，接近 50% GenAI，SaaS 不到 1/4。

The above content are reproduced from the Internet, does not represent the position of AptosNews, is not investment advice, investment risk, the market need to be cautious, in case of infringement, please contact the administrator to delete.