首个实时世界模型发布：视频媒介的「交互」时代开始了,什么是实时视？频

更新时间：2026-01-15 06:23 来源：牛马见闻

中国海警局发布环台岛执法巡查示意图,什么是环礁岛

现在的文科缩减本质上就两个原因,2020年文科生缩招

女外卖员真的越来越多了,女外卖骑手的生活现状

提升消费的关键是就业,提高消费最根本的是

俄总领事：香港银行为俄罗斯人办理业务均持谨慎态度以防受到第三国限制

� PixVerse R1 正在打破这种边界�把世界还给想象 PixVerse R1 目前展示出的能力�尽管 PixVerse R1 目前尚处于内测阶段�

视频成为了一]种可玩、共?创的「过程」。 作者｜连冉 编辑｜郑玄 如果你玩过 AI 视频，一定对「等待期」深有体会：在输入框敲下一串 Prompt，按下生成键，然后便得对着旋转圆圈等待至少几十秒或者几分钟。 而且也不知道几分钟后返回来的 MP4 是一场惊喜还是一次货不对板的惊吓。这种有些割裂的、异步式的创作，让 AI 变得像个略有些笨重的远程工具，虽然好玩，但也没那么好玩。 直到我刚刚试用了爱诗科技发布的 PixVerse R1。 在「赛博朋克城市」的场景中，我并没有按下「生成」按钮，也没有盯着旋转的进度条发呆。 我只是在输入框输入我想要的画面，「开始下大雨，霓虹灯在湿润的地面上反射出来」，接着「突然，城市大停电。只有紧急红灯亮着」，「快速向上飞，穿过摩天大楼到达城市的上层区域。」 画面中的光影立刻随着语意发生了流转。没有黑屏加载，没有重新渲染的割裂感，就像镜头真的听懂了我的指挥，实时向前推进。 一个 AI 模型正在以即时响应级的速度，为我「实时编织」一个从未存在的视觉世界。 这是爱诗科技刚刚发布的 PixVerse R1，是「全球首个支持最高 1080P 分辨率实时生成的世界模型」。 当视频不再是一个确定的「结果」，而变成了一个可以被实时干预、持续存在的「过程」时，它还是我们印象里的「视频」吗？ 这种被称为「Playable Reality」（可玩现实）的新形态，究竟是噱头还是未来？ 01 进度条的消亡 2024 年年初，Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到前所未有的水平，掀起了全球范围内的视频生成热潮。 但在 AI 视频行业狂飙突进的这两年里，我们虽然被 Sora、被各种视频大模型惊艳，但这种惊艳始终带着一种「延迟感」。这种延迟不仅是技术上的，更是心理上的。 过往，AI 视频生成被戏称为「开盲盒」。用户输入一段长长的提示词，然后进入一段名为「生成中」的垃圾时间。这段时间长则数分钟，短则几十秒，但在人类的创作心流中，这几十秒足以让灵感断裂。 用户得到的是一个 MP4 文件，如果光影不对、构图不佳，只能修改提示词，再次进入漫长的等待循环。这种「输入-等待-输出」的异步逻辑，本质上是人类在迁就机器的算力和算法逻辑。 PixVerse R1 的出现，正在试图终结这种「迁就」。实时生成的真正意义，绝不仅仅是「快」。如果启动延迟降低的足够低，帧率也足够稳定在，人类的感知系统会发生错觉：你不再觉得自己是在使用一个工具，而是觉得你正处于一个「活着的」世界里。 可以看到，在这个视频里，PixVerse R1 展现出一种水流般的即时感。当指令发出，画面的色彩、材质、甚至物理规律会瞬间响应。 随着「A city wall ahead.Jump over it and enter the city」指令的输入，角色从树林场景瞬间传送到了中式城楼前的石桥上，正朝着城楼大门跑去；随着「Transform into a robot and fight」指令的输入，画面拉近，主角从小人变身机器人并且迅速进行了一番打斗，场景和角色动作的切换非常流畅自然。 这种「实时编织」让创作从「离线渲染」变成了「在线生产」。当技术响应速度追平了思维速度，令人困扰的「进度条」就此消亡，技术本身变得透明，它变成了感官的自然延伸。 而这种质变源于爱诗科技过去 800 天的「狂奔式迭代」。早在 2023 年 10 月，爱诗科技就发布了早于 Sora 的全球首个 4K 模型 V1；2024 年 2 月，它成为国内首家落地 DiT 架构的创业公司。这种对底层架构的「先行一步」，让 PixVerse 在全球斩获了超过 1 亿用户。如今 R1 实现的「即时感」，正是这种长期架构押注后的必然爆发。 02 Playable Reality， 介于游戏与视频之间的新物种？ 长期以来，视频和游戏被视为两条平行线：视频拥有高拟真的质感但缺乏互动，游戏拥有高互动性但在视觉拟真度上受限于算力。而 PixVerse R1 正在打破这种边界。 PixVerse R1 定义的「Playable Reality（可玩现实）」，正是这两条平行线的交叉点。它不是传统意义上的视频，因为它允许实时干预；它也不是传统意义上的游戏，因为它不是由程序员预设的代码逻辑驱动，而是由 AI 对现实世界的模拟能力（世界模型）驱动。 从确定的、封闭的、一次性交付的 MP4 文件，到被 R1 定义的「过程」，一个可以被实时干预、持续存在的视觉世界。只要你持续给予交互，这个世界就会持续演化。 在这个创作过程中，用户不再是坐在屏幕前的观众，也不仅仅是复杂的参数调试者，而是变成了「共同创作者」，可以用语言、情绪、意图直接干预世界的走向。 这意味着视频创作门槛的进一步降低。理想状态下，我们不再需要学习复杂的非线性剪辑，也不需要理解光影参数，只需要通过简单的交互——无论是文字还是语音——就能控制视频的发展。 支撑这种「随心而动」体验的，是 PixVerse R1 背后的三大技术支柱：Omni 原生多模态基础模型、自回归流式生成机制，以及一套专门为交互设计的瞬时响应引擎。 首先，是 Omni 原生多模态基础模型。不同于以往通过插件或叠加模型来理解语意，R1 从底层逻辑上就实现了视觉与语意的深度融合。这意味着模型在指令发出的瞬间，就在潜空间里完成了对物理世界的重构。 其次，为了消灭画面切换时的「闪烁」与「刷新感」，爱诗科技引入了自回归流式生成机制。在传统的生成逻辑中，每一帧往往是孤立或弱相关的，但在 R1 的体系下，视频不再是由一个个「固定片段」拼接而成，而是一条无限、连续且交互的视觉流。这种机制确保了在实时交互时，每一帧的演变都极其丝滑，没有重新加载的割裂感。 最后，支撑即时反馈的物理基础是其自研的瞬时响应引擎。通过对算力的极限调度和算法优化，它将启动延迟压缩到了人类几乎感知不到的程度 在爱诗科技发布的技术报告中，他们将这种演进描述为从 Fix-length clip（固定片段）向 Infinite visual stream（无限可视化流）的范式转移。这意味着，AI 视频不再是一次性的烟花，而是一个可以无限延伸的数字宇宙。 当然，PixVerse R1 并非完美。爱诗科技在报告中坦诚地提到了「时间误差累积」的挑战——在极长的时间线里，微小的误差可能会让物理模拟出现波动。 为了追求 1080P 的实时响应，团队在某些极致物理细节上做了取舍。但这种「权衡」恰恰展现了某种务实：与其追求一个只能在服务器里跑几小时才能出来的完美标本，不如给用户一个可以即时触碰、尽管尚有微瑕的「活世界」。 03 当技术「隐形」，把世界还给想象 PixVerse R1 目前展示出的能力，本质上是给数字世界铺设了一层「实时生成层」。这层能力的释放，其影响力将远超视频创作本身。 想象一下，当这种能力被 API 化，它将如何重塑数字娱乐？ 比如未来的游戏 NPC 不再只有固定动作，基于实时生成技术，他们可以根据你的语气实时生成独特的表情动作和视觉反馈。 电影也不再有唯一的结局，而是变成每个人都能走进其中的开放世界，通过交互，都会看到一个属于自己的、实时编排的独一无二的故事。 对于这种范式转移，爱诗科技创始人兼 CEO 王长虎有着更具本质色彩的定义。他认为，PixVerse R1 是一种全新的媒体形式。 「传统视频是被记录的历史，而 PixVerse R1 开创了『正在发生的现在』的实时生成新纪元。」 王长虎表示，在这样的背景下，创作与消费的边界将逐渐模糊——视频消费者本身也成为创作者，可以在观看的同时即时调整和生成新内容。 这种「所想即所现」（As You Think）的能力，让王长虎对未来的数字生态充满了想象：「无论是 AI 原生游戏、互动电影，还是生成式直播电商体验，叙事都能实时响应用户意图。我们相信，每个人都能成为动态叙事的创作者。 爱诗科技的愿景是「让每个人都能成为自己生活的导演」。当技术足够先进、响应足够敏捷时，技术本身就会变得透明。PixVerse R1 正在做的，就是让「生成」这个繁琐的技术动作隐形，让位于人类最本能的「想象」与「表达」。 尽管 PixVerse R1 目前尚处于内测阶段，且暂未在国内上线体验，但它已然开启了「流动世界」的大门。 接下来，爱诗科技将采用内测码/定向邀请机制，一部分创作者将有机会先亲自触碰这个「流动的世界」。 *头图来源：PixVerse 官网 本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

编辑：Bruce Nozick