爱诗科技发布全球首个通用实时世界模型PixVerse R1- DoNews

1月13日晚，爱诗科技正式发布PixVerse R1，全球首个支持最高1080P分辨率通用实时世界模型：一个基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎构建的下一代实时世界模型。

该模型首次将视频生成的延迟从“秒级”降至“即时”响应，实现了“所想即所见、所说即所现”的实时交互体验，标志着AIGC领域的视频生成正式从“静态输出”迈入“实时交互”的全新阶段。PixVerse R1通过实现连贯且实时的生成，代表了全世界范围内视听媒体领域的一次重要演进。

PixVerse R1

在传统视频制作流程中，高延迟、固定时长生成是长期存在的痛点，难以满足用户对实时响应与内容共创的需求。PixVerse R1通过三大核心技术突破，系统性地解决了上述问题，推动数字媒体从“预录制回放”向“实时动态生成”演进。

三大核心技术突破，构建“实时交互世界引擎”

PixVerse R1 的发布，标志着 AI 视频生成正式迈入 “实时交互”时代。其背后并非单一技术的跃进，而是由 Omni 原生多模态基础模型、自回归流式生成机制，与瞬时响应引擎三大技术支柱协同构建的完整“实时交互世界引擎”。

首先，Omni 原生多模态基础模型（Native Multimodal Foundation Model）打破了传统多模态系统“拼接式”处理的局限。它采用Transformer架构，具有高扩展性，模型统一Token流架构（stream of tokens），将文本、图像、音频与视频融合为单一生成序列，实现真正端到端的跨模态理解与输出。更为关键的是，模型全程在原生分辨率下训练，避免了上采样带来的模糊与伪影。通过scaleup训练，使光影变化、物体运动与物理交互具备一致性和真实感。这意味着，AI 不再只是“画图”，而是在模拟一个符合现实场景的世界。

在此基础上，自回归流式生成机制（Consistent Infinite Streaming via Autoregressive Mechanism）解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块，可生成任意长度的视频内容，并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段，而能在生成过程中随时插入新指令，系统即时响应并动态调整叙事，实现真正的“流式交互”。画面突变、逻辑断裂等传统生成痛点，由此成为历史。

而让这一切“实时”成为可能的，是创造性的瞬时响应引擎（Instant Response Engine ——IRE）。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新，将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1–4 步，计算效率提升数百倍，让动态画面进入人眼可感知的“即时”响应阈值。不仅可以支撑高并发 API 服务，更为未来终端设备部署铺平道路。

三大核心技术环环相扣：Omni 提供现实世界的“计算基座”，自回归流式生成机制赋予其“持久记忆”，IRE 则注入即时反应的“神经反射”。它们共同构成了 PixVerse-R1 这一全球首个支持 1080P 实时生成的通用视频大模型，也正式开启了“视频即交互、世界可共创”的新范式。

从“观看”到“共创”：重新定义视频体验

PixVerse R1不仅仅是一个视频生成工具，更是一个“可交互的数字世界计算基础设施”。其应用场景覆盖游戏、影视、娱乐、创意等多个领域：

游戏：非玩家角色（NPC）与环境可实时响应玩家操作；
互动娱乐：观众通过语音或手势实时塑造剧情走向；
共创体验：用户协同生成并重塑动态世界，涵盖科研实验、场景推演、经典影像重制到实时产品模拟。

例如，用户输入“一只猫跳上窗台，窗外下雨”，系统可同步生成1080P高清视频、雨声音效与动态光影；在交互过程中，若用户补充指令“把天空变成黄昏”，画面将在半秒内实现自然过渡。

从“回放过去”到“未来创作”

爱诗科技创始人兼CEO王长虎表示：“PixVerse R1是全新的媒体形式。第一次，AI可以基于用户的意图实时生成一个持续演化、物理上合理的世界。传统视频是被记录的历史，而PixVerse R1开创了‘正在发生的现在’的实时生成新纪元。无论是 AI 原生游戏、互动电影，还是生成式直播电商体验，叙事都能‘所想即所现’（As You Think）。创作与消费的边界逐渐模糊：视频消费者同时也是创作者，能够在观看的同时立即调整和生成新内容。我们相信，智能化媒体应实时响应用户意图，让每个人都能成为动态叙事的创作者。”

PixVerse R1的发布，不仅是视频生成技术模型上的突破，更标志着一种新媒介形态的诞生——视频不再是封闭的“内容成品”，而是可交互、可延续、可共同演进的数字世界。

关于爱诗科技

爱诗科技创立于2023年4月，致力于打造全球领先的AI视频生成大模型及应用，以满足AGI时代视频领域的全新创作及消费需求，推动AI视频生成技术的普惠，帮助每一个人成为生活的导演。在AI视频生成领域，极短的时间在准确性、一致性等多个核心维度上实现了全球领先的生成效果。

公司海外版产品「PixVerse」于2024年1月正式上线，国内版产品为「拍我AI」，目前全球用户量已超1亿，单月月活超1600万，拍我AI也并搭建了稳定的创作者生态。产品被全球创作者广泛应用于影视、广告、动漫等内容的制作中。

爱诗科技关键里程碑

自成立以来，爱诗科技持续推动AI 视频生成能力的边界，同时不断降低全球用户的使用门槛。2023 年 10 月，爱诗科技在成立仅 6 个月后即推出PixVerse V1 版本，率先发布了业内首个可生成 4K 质量视频的 AI 视频生成模型，时间早于 Sora 模型的发布。2024年2月PixVerse V2上线并落地DiT架构，成为国内首家落地DiT架构的创业公司。

随后，PixVerse 成为全球首个实现“准实时”视频生成的平台。到 2024 年 10 月，PixVerse V3.5上线了封装提示词的模板特效。仅凭变身特效，PixVerse 在两个月内就新增了超过 1000 万全球用户，实现视频消费全球Chatgpt时刻。 2024 年 12 月，上线PixVerse 移动端应用APP，视频生成进入 10 秒视频生成时代。

2025 年，PixVerse 持续推进极速生成技术迭代：2月PixVerse V4 实现5 秒内即可生成高质量 360p 视频，11月 V5 Fast上线， 30 秒即可生成 1080p 视频。平台于 5 月实现 6000 万全球用户规模；6月国内版拍我AI正式上线，PixVerse（拍我AI）在 8 月突破 1 亿用户。

2025 年 9 月，爱诗科技完成超过 6000 万美元 B 轮融资，由阿里巴巴领投，达晨财智、深创投、北京市AI基金、湖南电广传媒、巨人网络和Antler等机构参与；到 10 月，平台的 年经常性收入（ARR）已超过 4000 万美元。随后于 10 月完成B+ 轮超过1亿元人民币融资，复星锐正、同创伟业、顺禧基金等参与投资。

随着一致性和运动轨迹能力的持续提升，PixVerse（拍我AI）于 12 月发布了 V5.5 Omni 视频生成模型。该模型同时支持基于分镜的创作方式与音画同步生成能力，将导演式创作思维封装进产品之中，使普通用户也能几乎零门槛地创作出具备电影质感的视频内容。

行业荣誉

爱诗科技荣获36氪WISE2025商业之王「年度文化内容创新企业」、「AI 中国」机器之心2025年度「人工智能领军企业」、量子「2025人工智能年度榜单」的「年度潜力创业公司」；
PixVerse入选 a16z「全球 GenAI 消费级应用 Top 50」第 25 名；
PixVerse入选 The Information「2025 年最具潜力的 50 家初创公司」亚洲前三；
在 Artificial Analysis 全球 AI 视频模型榜单（2025 年 9 月）中，PixVerse位列“图生视频（Image-to-Video）”类别排名第 1，截至 1 月 5 日综合排名位列前 5；
PixVerse 入选 AI for Good Global Summit 2025“Innovate for Impact”优秀案例集，被评为杰出生产力应用案例
拍我AI 获评AI产品榜「2025中国AI年度产品」