首个实时世界模型发布:视频媒介的「交互」时代开始了,什么是实时视?频

  更新时间:2026-01-15 06:23   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

PixVerse R1 正在打破这种边界把世界还给想象 PixVerse R1 目前展示出的能力尽管 PixVerse R1 目前尚处于内测阶段

<p style="text-align:center;"></p> <p style="text-align:justify;">视频成为了一]种可玩、共?创的「过程」。</p> <p style="text-align:left;"><strong>作者|连冉</strong><strong></strong></p> <p style="text-align:left;"><strong>编辑|<strong>郑玄</strong></strong></p> <p style="text-align:justify;">如果你玩过 AI 视频,一定对「等待期」深有体会:在输入框敲下一串 Prompt,按下生成键,然后便得对着旋转圆圈等待至少几十秒或者几分钟。</p> <p style="text-align:justify;">而且也不知道几分钟后返回来的 MP4 是一场惊喜还是一次货不对板的惊吓。这种有些割裂的、异步式的创作,让 AI 变得像个略有些笨重的远程工具,虽然好玩,但也没那么好玩。</p> <p style="text-align:justify;">直到我刚刚试用了爱诗科技发布的 PixVerse R1。</p> <p style="text-align:justify;">在「赛博朋克城市」的场景中,我并没有按下「生成」按钮,也没有盯着旋转的进度条发呆。</p> <p style="text-align:justify;">我只是在输入框输入我想要的画面,「开始下大雨,霓虹灯在湿润的地面上反射出来」,接着「突然,城市大停电。只有紧急红灯亮着」,「快速向上飞,穿过摩天大楼到达城市的上层区域。」</p> <p style="text-align:justify;">画面中的光影立刻随着语意发生了流转。没有黑屏加载,没有重新渲染的割裂感,就像镜头真的听懂了我的指挥,实时向前推进。</p> <p style="text-align:justify;">一个 AI 模型正在以即时响应级的速度,为我「实时编织」一个从未存在的视觉世界。</p> <p style="text-align:justify;">这是爱诗科技刚刚发布的 PixVerse R1,是「全球首个支持最高 1080P 分辨率实时生成的世界模型」。</p> <p style="text-align:justify;">当视频不再是一个确定的「结果」,而变成了一个可以被实时干预、持续存在的「过程」时,它还是我们印象里的「视频」吗?</p> <p style="text-align:justify;">这种被称为「Playable Reality」(可玩现实)的新形态,究竟是噱头还是未来?</p> <p><strong></strong></p> <p align="center"><strong>01</strong></p> <p style="text-align:center;"><strong>进度条的消亡</strong></p> <p><strong></strong></p> <p style="text-align:justify;">2024 年年初,Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到前所未有的水平,掀起了全球范围内的视频生成热潮。</p> <p style="text-align:justify;">但在 AI 视频行业狂飙突进的这两年里,我们虽然被 Sora、被各种视频大模型惊艳,但这种惊艳始终带着一种「延迟感」。这种延迟不仅是技术上的,更是心理上的。</p> <p style="text-align:justify;">过往,AI 视频生成被戏称为「开盲盒」。用户输入一段长长的提示词,然后进入一段名为「生成中」的垃圾时间。这段时间长则数分钟,短则几十秒,但在人类的创作心流中,这几十秒足以让灵感断裂。</p> <p style="text-align:justify;">用户得到的是一个 MP4 文件,如果光影不对、构图不佳,只能修改提示词,再次进入漫长的等待循环。这种「输入-等待-输出」的异步逻辑,本质上是人类在迁就机器的算力和算法逻辑。</p> <p style="text-align:justify;">PixVerse R1 的出现,正在试图终结这种「迁就」。实时生成的真正意义,绝不仅仅是「快」。如果启动延迟降低的足够低,帧率也足够稳定在,人类的感知系统会发生错觉:你不再觉得自己是在使用一个工具,而是觉得你正处于一个「活着的」世界里。</p> <p style="text-align:justify;">可以看到,在这个视频里,PixVerse R1 展现出一种水流般的即时感。当指令发出,画面的色彩、材质、甚至物理规律会瞬间响应。</p> <p style="text-align:justify;">随着「A city wall ahead.Jump over it and enter the city」指令的输入,角色从树林场景瞬间传送到了中式城楼前的石桥上,正朝着城楼大门跑去;随着「Transform into a robot and fight」指令的输入,画面拉近,主角从小人变身机器人并且迅速进行了一番打斗,场景和角色动作的切换非常流畅自然。</p> <p style="text-align:justify;">这种「实时编织」让创作从「离线渲染」变成了「在线生产」。当技术响应速度追平了思维速度,令人困扰的「进度条」就此消亡,技术本身变得透明,它变成了感官的自然延伸。</p> <p style="text-align:justify;">而这种质变源于爱诗科技过去 800 天的「狂奔式迭代」。早在 2023 年 10 月,爱诗科技就发布了早于 Sora 的全球首个 4K 模型 V1;2024 年 2 月,它成为国内首家落地 DiT 架构的创业公司。这种对底层架构的「先行一步」,让 PixVerse 在全球斩获了超过 1 亿用户。如今 R1 实现的「即时感」,正是这种长期架构押注后的必然爆发。</p> <p><strong></strong></p> <p align="center"><strong>02</strong></p> <p style="text-align:center;"><strong>Playable Reality,</strong></p> <p style="text-align:center;"><strong>介于游戏与视频之间的新物种?</strong></p> <p><strong></strong></p> <p style="text-align:justify;">长期以来,视频和游戏被视为两条平行线:视频拥有高拟真的质感但缺乏互动,游戏拥有高互动性但在视觉拟真度上受限于算力。而 PixVerse R1 正在打破这种边界。</p> <p style="text-align:justify;">PixVerse R1 定义的「Playable Reality(可玩现实)」,正是这两条平行线的交叉点。它不是传统意义上的视频,因为它允许实时干预;它也不是传统意义上的游戏,因为它不是由程序员预设的代码逻辑驱动,而是由 AI 对现实世界的模拟能力(世界模型)驱动。</p> <p style="text-align:justify;">从确定的、封闭的、一次性交付的 MP4 文件,到被 R1 定义的「过程」,一个可以被实时干预、持续存在的视觉世界。只要你持续给予交互,这个世界就会持续演化。</p> <p style="text-align:justify;">在这个创作过程中,用户不再是坐在屏幕前的观众,也不仅仅是复杂的参数调试者,而是变成了「共同创作者」,可以用语言、情绪、意图直接干预世界的走向。</p> <p style="text-align:justify;">这意味着视频创作门槛的进一步降低。理想状态下,我们不再需要学习复杂的非线性剪辑,也不需要理解光影参数,只需要通过简单的交互——无论是文字还是语音——就能控制视频的发展。</p> <p style="text-align:justify;">支撑这种「随心而动」体验的,是 PixVerse R1 背后的三大技术支柱:Omni 原生多模态基础模型、自回归流式生成机制,以及一套专门为交互设计的瞬时响应引擎。</p> <p style="text-align:justify;">首先,是 Omni 原生多模态基础模型。不同于以往通过插件或叠加模型来理解语意,R1 从底层逻辑上就实现了视觉与语意的深度融合。这意味着模型在指令发出的瞬间,就在潜空间里完成了对物理世界的重构。</p> <p style="text-align:justify;">其次,为了消灭画面切换时的「闪烁」与「刷新感」,爱诗科技引入了自回归流式生成机制。在传统的生成逻辑中,每一帧往往是孤立或弱相关的,但在 R1 的体系下,视频不再是由一个个「固定片段」拼接而成,而是一条无限、连续且交互的视觉流。这种机制确保了在实时交互时,每一帧的演变都极其丝滑,没有重新加载的割裂感。</p> <p style="text-align:justify;">最后,支撑即时反馈的物理基础是其自研的瞬时响应引擎。通过对算力的极限调度和算法优化,它将启动延迟压缩到了人类几乎感知不到的程度</p> <p style="text-align:justify;">在爱诗科技发布的技术报告中,他们将这种演进描述为从 Fix-length clip(固定片段)向 Infinite visual stream(无限可视化流)的范式转移。这意味着,AI 视频不再是一次性的烟花,而是一个可以无限延伸的数字宇宙。</p> <p style="text-align:justify;">当然,PixVerse R1 并非完美。爱诗科技在报告中坦诚地提到了「时间误差累积」的挑战——在极长的时间线里,微小的误差可能会让物理模拟出现波动。</p> <p style="text-align:justify;">为了追求 1080P 的实时响应,团队在某些极致物理细节上做了取舍。但这种「权衡」恰恰展现了某种务实:与其追求一个只能在服务器里跑几小时才能出来的完美标本,不如给用户一个可以即时触碰、尽管尚有微瑕的「活世界」。</p> <p><strong></strong></p> <p align="center"><strong>03</strong></p> <p style="text-align:center;"><strong>当技术「隐形」,把世界还给想象</strong></p> <p><strong></strong></p> <p style="text-align:justify;">PixVerse R1 目前展示出的能力,本质上是给数字世界铺设了一层「实时生成层」。这层能力的释放,其影响力将远超视频创作本身。</p> <p style="text-align:justify;">想象一下,当这种能力被 API 化,它将如何重塑数字娱乐?</p> <p style="text-align:justify;">比如未来的游戏 NPC 不再只有固定动作,基于实时生成技术,他们可以根据你的语气实时生成独特的表情动作和视觉反馈。</p> <p style="text-align:justify;">电影也不再有唯一的结局,而是变成每个人都能走进其中的开放世界,通过交互,都会看到一个属于自己的、实时编排的独一无二的故事。</p> <p style="text-align:justify;">对于这种范式转移,爱诗科技创始人兼 CEO 王长虎有着更具本质色彩的定义。他认为,PixVerse R1 是一种全新的媒体形式。</p> <p style="text-align:justify;"><strong>「传统视频是被记录的历史,而 PixVerse R1 开创了『正在发生的现在』的实时生成新纪元。」</strong> 王长虎表示,在这样的背景下,创作与消费的边界将逐渐模糊——视频消费者本身也成为创作者,可以在观看的同时即时调整和生成新内容。</p> <p style="text-align:justify;">这种「所想即所现」(As You Think)的能力,让王长虎对未来的数字生态充满了想象:<strong>「无论是 AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能实时响应用户意图。我们相信,每个人都能成为动态叙事的创作者。</strong></p> <p style="text-align:justify;">爱诗科技的愿景是「让每个人都能成为自己生活的导演」。当技术足够先进、响应足够敏捷时,技术本身就会变得透明。PixVerse R1 正在做的,就是让「生成」这个繁琐的技术动作隐形,让位于人类最本能的「想象」与「表达」。</p> <p style="text-align:justify;">尽管 PixVerse R1 目前尚处于内测阶段,且暂未在国内上线体验,但它已然开启了「流动世界」的大门。</p> <p style="text-align:justify;">接下来,爱诗科技将采用内测码/定向邀请机制,一部分创作者将有机会先亲自触碰这个「流动的世界」。</p> <p style="text-align:justify;">*头图来源:PixVerse 官网</p> <p style="text-align:justify;">本文为极客公园原创文章,转载请联系极客君微信 geekparkGO</p>

编辑:Bruce Nozick